표제지
목차
국문초록 8
ABSTRACT 10
제1장 서론 13
1.1. 연구 배경 및 목적 13
1.2. 연구 방법 및 범위 14
1.3. 논문의 구성 15
제2장 관련 연구 16
2.1. 데이터 분석 도구 16
2.1.1. 오픈소스 기반의 데이터 분석 도구: R과 아파치 스파크 16
2.1.2. 상용 데이터 분석 도구: SAS와 SPSS 18
2.1.3. 데이터 분석 도구의 활용 사례 20
2.2. 기계 학습 알고리즘 22
2.2.1. 기계 학습 22
2.2.2. 의사결정나무 알고리즘 24
2.2.3. 랜덤 포레스트 알고리즘 27
제3장 데이터 분석 도구 성능 비교 31
3.1. 실험 방법 31
3.2. 실험 환경 33
3.3. 실험 결과 및 성능 비교 34
3.3.1. 실험 결과 34
3.3.2. 성능 비교 36
제4장 결론 및 향후 연구 방향 39
참고문헌 41
[표 2-1] 데이터 분석 도구를 활용하여 개발된 솔루션의 사례 20
[표 2-2] 기계 학습 종류의 정의 및 알고리즘 종류 22
[표 3-1] 실험 데이터의 속성 31
[표 3-2] 실험 환경 33
[표 3-3] R과 아파치 스파크 실험의 모델 분류 오차율 수치 34
[표 3-4] R과 아파치 스파크 실험의 모델 구축 시간 35
[그림 2-1] 훈련 데이터를 활용한 의사결정나무의 수립 과정 25
[그림 2-2] 의사결정나무의 새로운 데이터에 대한 분류 및 예측 과정 25
[그림 2-3] 배깅 알고리즘의 원리 28
[그림 2-4] 랜덤 포레스트 알고리즘 개념도 28
[그림 3-1] R과 아파치 스파크 실험의 모델 분류 오차율 그래프 36
[그림 3-2] R과 아파치 스파크 실험의 모델 구축 시간 그래프 37