표제지
목차
I. 서론 10
1. 연구의 배경 10
2. 연구의 내용과 목적 11
3. 연구의 범위 및 방법 12
II. 비즈니스 이해 14
1. 선행연구 탐색 및 도메인 니즈 파악 14
가. 동종 및 유사분야의 선행연구 14
나. 동종 및 유사분야의 니즈 파악 15
2. 분석방법과 목표 수립 16
III. 데이터 이해 18
1. 데이터 수집 18
2. 데이터 품질 확인 18
가. 모든 컬럼에 대해 데이터 딕셔너리를 수립 18
나. Categorical은 각 경우의 수별 값과 빈도수를 파악. 19
다. Numerical 변수 히스토그램 22
라. 결측값 확인. 26
마. 이상치 확인 27
바. 수집한 휴일정보 확인 29
사. 전처리 이후 데이터 딕셔너리 수립 31
3. 탐색적 데이터 분석(EDA) 32
가. 개요 32
나. 데이터 시각화 32
IV. 데이터 준비 35
1. 독립변수와 종속변수 정의 35
2. 변수 선택법 적용 35
가. Filter 방식의 변수 선택 36
나. Wrapper와 Embed 방식의 변수 선택 36
다. 순열 중요도 방식의 변수 선택 38
라. 변수 선택법 적용결과 42
3. 훈련 / 검증 데이터 셋 분할 43
V. 모델링 44
1. 분석 모형 후보군 선정 44
2. 모형 적합 및 평가지표 적용 44
VI. 모형 평가 및 전개 46
1. 개요 46
2. 전역 해석력(Global Interpretability) 46
가. 부분 의존도와 개별 조건부 기대치 46
나. Shapley Value 57
3. 지역 해석력(Local Interpretability) 59
가. LIME 59
VII. 결론 65
1. 연구 결과 및 논의 65
2. 연구의 한계 67
3. 맺음말 68
참고문헌 69
부록_Python 코드 73
국문초록 94
ABSTRACT 95
[표 1] 수집한 데이터의 데이터 딕셔너리 18
[표 2] 수집한 데이터의 Categorical 변수 속성 19
[표 3] 수집한 데이터의 Categorical 변수 속성 21
[표 4] Numerical 변수의 이상치 확인 28
[표 5] 수집한 휴일에 대한 정보 확인 29
[표 6] 변환 또는 도출된 변수를 포함한 데이터 딕셔너리 31
[표 7] Filter 방식으로 제거한 독립변수와 그 근거 36
[표 8] 변수 중요도 기준 교집합 제거대상 41
[표 9] 최종 선택된 독립변수 데이터 딕셔너리 42
[표 10] 분석 모형별 평가지표 수치 45
[그림 1] CRISP-DM 방법론의 6단계 Phase 12
[그림 2] Low-Cardinality Categorical 컬럼들의 경우의 수 분포 20
[그림 3] High-Cardinality Categorical 컬럼들의 경우의 수 분포 21
[그림 4] ADR(객단가)와 LeadTime(예약과 체크인 간 날짜 차이) 분포 22
[그림 5] StaysInWeekNights(주중 숙박일 수)와... 23
[그림 6] 체크인 기준 년, 월, 일, 주차의 분포 23
[그림 7] 예약인원 구성원 정보 24
[그림 8] 손님의 과거 예약이력 정보 25
[그림 9] 나머지 Integer 변수들의 분포 25
[그림 10] 결측치 시각화 27
[그림 11] CarParking_bool과 Reserve_Assign_Changed 시각화 32
[그림 12] threshold 별 Country_Dominance 시각화 33
[그림 13] BookingChanges_bool과 SpecialRequests_bool 시각화 34
[그림 14] 마케팅 대상 온/오프라인 비교 시각화 34
[그림 15] 변수 선택법 적용 도식 35
[그림 16] Wrapper와 Embed 방식으로 확인한 변수 중요도 정보 37
[그림 17] MCR 방식으로 확인한 변수 중요도 정보 40
[그림 18] 업 샘플링을 적용한 데이터 셋 분할 43
[그림 19] LeadTime_log, ADR_log의 단변량 부분의존도 49
[그림 20] 국가점유율, 휴일비중, 숙박일수의 단변량 부분의존도 50
[그림 21] LeadTime_log와 ADR_log의 이변량 부분의존도 52
[그림 22] 국가점유율을 y축으로 하는 이변량 부분의존도 52
[그림 23] 휴일비중을 y축으로 하는 이변량 부분의존도 53
[그림 24] 숙박일수를 y축으로 하는 이변량 부분의존도 54
[그림 25] SHAP summary plot 58
[그림 26] 샘플 인스턴스 LIME 해석 60
[그림 27] 샘플 인스턴스에 Reserve_Assigned_Changed 변수를 변경 61
[그림 28] 샘플 인스턴스에... 63
[수식 1] Partial Dependence function의 이론적 정의식 47
[수식 2] Partial Dependence를 실 데이터 셋에서 근사(평균) 47