표제지
목차
논문요약 10
제1장 서론 12
제1절 연구의 배경 및 목적 12
제2절 연구의 방법 및 기대 효과 15
제3절 논문의 구성 17
제2장 이론적 배경 18
제1절 빅데이터 18
1. 빅데이터 개요 18
2. 빅데이터 처리 단계와 요소 기술 20
3. 하둡과 맵리듀스 22
제2절 데이터마이닝 26
1. 데이터마이닝 개요 26
2. K-평균 군집화 27
3. 평균 이동 군집화 29
4. Jaccard 색인 31
제3장 장애 판단 기법의 구현과 실험 33
제1절 문제 정의 33
제2절 연구 환경 35
1. 구현 및 실험 환경 36
2. 결과 분석 환경 37
제3절 데이터의 준비 38
1. 원시 로그 데이터 38
2. 원시 로그 데이터의 분석 39
3. 〈기본 데이터〉의 생성 42
4. 〈대상 데이터〉의 생성 45
5. 〈대상 데이터〉의 분석 46
제4절 군집화 적용 48
1. K-평균 군집화 48
2. 평균 이동 군집화 52
3. 군집화 결과 요약 56
제4장 연구 결과 분석 57
제1절 통계 자료의 활용 57
제2절 Jaccard 색인의 활용 60
제5장 결론 61
제1절 연구 결과 요약 61
제2절 향후 연구 및 활용 방안 63
참고 문헌 64
부록 68
〈부록 1〉 로그 전처리기 소스 코드(Java) - LogCooker 68
〈부록 2〉 로그 항목 추출기 소스 코드(Python) 71
〈부록 3〉 실험에 사용된 R 스크립트 코드 73
〈부록 4〉 실험에 사용된 Python 소스 코드 75
ABSTRACT 80
〈표 1-1〉 기업 메시징 사업자의 SMS 발송 규모 12
〈표 2-1〉 데이터마이닝의 기술 분류 27
〈표 3-1〉 구현 및 실험 환경의 장비 및 소프트웨어 목록 35
〈표 3-2〉 원시 로그의 주요 데이터 항목 39
〈표 3-3〉 로그 데이터 항목 간 상관계수 40
〈표 3-4〉 〈기본 데이터〉의 내용 항목 44
〈표 3-5〉 〈대상 데이터〉의 사분위수 47
〈표 3-6〉 K-평균 군집화 결과 요약 51
〈표 3-7〉 평균 이동 군집화 결과 요약 54
〈표 3-8〉 적용한 군집화 방식의 결과 비교 56
〈표 4-1〉 평균 이동 군집화 결과의 산술적 통계값 57
[그림 1-1] 기업용 모바일 메시지 전송 서비스 개념도 13
[그림 1-2] 구현 및 실험 과정 16
[그림 1-3] 연구의 흐름도 17
[그림 2-1] 빅데이터의 3V 속성 19
[그림 2-2] 빅데이터 처리 과정별 기술 영역 20
[그림 2-3] 하둡의 구조 22
[그림 2-4] HDFS 파일 시스템의 구조 23
[그림 2-5] 하둡의 다중 노드 클러스터 구조 24
[그림 2-6] 맵리듀스 처리 과정 25
[그림 2-7] 데이터마이닝 관련 학문 영역 26
[그림 2-8] 평균 이동 알고리즘 실행 과정 31
[그림 3-1] 로그 전처리기 개발 및 실행 환경 36
[그림 3-2] 원시 로그 데이터 예시 38
[그림 3-3] 로그 데이터의 산포도 41
[그림 3-4] 하둡 맵리듀스 실행 명령어 43
[그림 3-5] 〈기본 데이터〉 생성 단계별 데이터의 변화 44
[그림 3-6] 1차원 데이터의 산포도 45
[그림 3-7] 시각화를 위해 조정된 데이터의 산포도 46
[그림 3-8] 〈대상 데이터〉의 분포 47
[그림 3-9] K-평균 군집화 결과 49
[그림 3-10] K-평균 군집화 결과 50
[그림 3-11] 평균 이동 군집화 결과 (max 변동) 52
[그림 3-12] 평균 이동 군집화 결과 (bandwidth 변동) 53
[그림 4-1] 군집화 결과의 자료 분포 비교 (bandwidth=5) 58
[그림 4-2] 군집화 결과의 자료 분포 비교 (bandwidth=10) 59
[그림 4-3] Jaccard 색인 계산 결과 60
〈수식 2-1〉 K-평균 군집화에서 전체 분산 28
〈수식 2-2〉 커널을 사용하는 다변량 커널 밀도 추정치 29
〈수식 2-3〉 방사상 대칭 커널 29
〈수식 2-4〉 밀도 추정기의 기울기 30
〈수식 2-5〉 평균 이동 벡터 30
〈수식 2-6〉 JACCARD 색인 32