표제지
목차
제 1 장 서론 7
제 2 장 데이터 마이닝과 의사결정 나무분석 9
2.1 데이터 마이닝의 개요 9
2.2 학습시스템의 개요 10
2.3 의사결정 나무분석(Decision Tree)의 개요 11
2.4 의사결정나무 분석의 규칙 및 알고리즘 종류에 대한 설명(Rule of Decision Tree & Algorithm) 12
제 3 장 C5.0 알고리즘 소개 14
3.1 C5.0 탄생배경 14
3.2 ID3의 개념 (Ross Quinlan -C4.5: Programs for Machine Learning,1993) 14
3.3 정보의 수학적 정의 16
3.4 이익 표준(Gain Criterion)의 정의 19
3.5 ID3 알고리즘을 사용한 분석 예제 20
3.6 이익 비율 표준(Gain Ratios Criterion)의 정의 22
3.7 C5.0으로의 확장 23
3.7.1 C5.0 알고리즘에서의 분할 기준 24
3.7.2 C5.0의 가지치기 방법과 규칙의 생성 25
제 4 장 기타 의사결정 나무분석 알고리즘의 개요 27
4.1 CHAID 알고리즘 27
4.2 CART 알고리즘 29
① 지니 계수(Gini Index) 29
② Twoing 30
4.3 QUEST 알고리즘 31
제 5 장 C5.0과 기타 알고리즘과의 비교 32
5.1 C5.0과 기타 의사결정 나무 알고리즘과의 차이점 32
5.2 기타 의사결정 나무분석 알고리즘과의 비교 32
① CART와의 비교 33
5.3 Neural Networks와의 비교 33
5.4 회귀분석, 로지스틱 회귀분석과의 비교 34
제 6 장 클레멘타인을 이용한 C5.0분석의 예 35
6.1 C5.0을 이용한 적용사례 35
제 7 장 C5.0과 기타 의사결정 나무 알고리즘과의 예측률 비교 44
7.1 목표변수의 범주가 2개인 경우의 예측률 비교 44
① C5.0 알고리즘의 경우 45
② CHAID 알고리즘의 경우 45
③ CART 알고리즘의 경우 46
④ QUEST 알고리즘의 경우 46
7.2 또 다른 2범주의 목표변수에 대한 예측률 비교 47
① C5.0의 경우 48
② CHAID 48
③ CART 49
④QUEST 49
7.3 목표변수의 범주가 3개인 경우에 대한 예측률 비교 50
① C5.0의 경우 51
② CHAID 51
③ CART 52
④ QUEST 52
7.4 또 다른 목표변수의 범주가 3개인 경우의 예측률 비교 53
① C5.0의 경우 53
② CHAID의 경우 54
③ CART 55
④ QUEST 55
7.5 목표변수의 범주가 5개인 경우의 예측률 비교 56
① C5.0인 경우 57
② CHAID 알고리즘인 경우 57
③ CART인 경우 57
④QUEST 58
7.6 목표변수의 범주가 5개 이상인 경우의 예측률 비교 59
① C5.0의 경우 60
② CHAID의 경우 60
③ CART의 경우 60
④ QUEST의 경우 61
7.7 C5.0과 기타 분류알고리즘과의 예측률 비교 결과 62
제 8 장 결론 64
참고문헌 66
ABSTRACT 68
감사의 글 69
[표 3-1] 예제 변수 설명 18
[표 3-2] 예제 변수에 대한 데이터 19
[표 5-1] 의사결정 나무분석 알고리즘간의 비교 32
[표 7-1-1] C5.0의 예측률 45
[표 7-1-2] CHAID의 예측률 46
[표 7-1-3] CART의 예측률 46
[표 7-1-4] QUEST의 예측률 47
[표 7-2-1] C5.0의 예측률 48
[표 7-2-3] CHAID의 예측률 49
[표 7-2-3] CART의 예측률 49
[표 7-2-4] QUEST의 예측률 50
[표 7-3-1] C5.0의 예측률 51
[표 7-3-2] CHAID의 예측률 51
[표 7-3-3] CART의 예측률 52
[표 7-3-4] QUEST의 예측률 52
[표 7-4-1] C5.0의 예측률 54
[표 7-4-2] CHAID의 예측률 54
[표 7-4-3] CART의 예측률 55
[표 7-4-4] QUEST의 예측률 55
[표 7-5-1] C5.0의 예측률 57
[표 7-5-2] CHAID의 예측률 57
[표 7-5-3] CART의 예측률 58
[표 7-5-4] QUEST의 예측률 58
[표 7-6-1] C5.0의 예측률 60
[표 7-6-2] CHAID의 예측률 60
[표 7-6-3] CART의 예측률 61
[표 7-6-4] QUEST의 예측률 61
[표 7-7] 각 알고리즘별 예측률(Power)표 62
[그림 1-1] 데이터 마이닝 분석 단계 10
[그림 2-1]학습 시스템(learning system) 10
[그림 2-2] 의사결정 나무분석 수행 과정 12
[그림 3-1] ID3 학습알고리즘 절차 16
[그림 6-1-1] 데이터 출력 결과 36
[그림 6-1-2] 노드의 연결과 목표변수의 선정 37
[그림 6-1-3] C5.0의 옵션 선택 화면 37
[그림 6-1-4] 모델의 산출 및 생성된 모델의 연결 38
[그림 6-1-5] 생성된 모델의 예측률 38
[그림 6-1-6] 의사결정나무의 생성 39
[그림 6-1-7] 'Rule Set'형식의 자료 출력 40
[그림 6-1-8] 검정데이터으로의 적합 41
[그림 6-1-9] 검정데이터에 적합한 후의 예측률 41
[그림 6-1-10] 목표변수가 없는 새로운 고객 데이터로의 모델 적합 42
[그림 6-1-11] 새로운 고객데이터를 바탕으로 결과 예측 화면 42
[그림 7-7] 예측률에 대한 그래프 62