표제지
목차
약어표 9
논문요약 10
제1장 서론 12
제2장 이론적 배경 15
2-1. 클릭스트림 데이터 15
2-1-1. 클릭스트림 데이터의 정의 15
2-1-2. 클릭스트림 데이터의 수집과 적재 16
2-2. E-commerce 상품 추천 시스템 19
2-3. 머신러닝 알고리즘 21
2-3-1. 지도 학습과 비지도 학습 21
2-3-2. 선형 회귀(linear regression) 23
2-3-3. 의사결정 트리(decision tree) 25
2-3-4. 랜덤 포레스트(random forest) 28
2-3-5. 다층퍼셉트론(multilayer perceptron) 29
제3장 데이터 분석 33
3-1. 데이터 구성과 전처리 33
3-1-1. 데이터 구성 33
3-1-2. 비식별화 35
3-2. 데이터 분석 36
3-2-1. 성별에 따른 행동패턴 차이 36
3-2-2. 가격대별 행동패턴 차이 38
3-2-3. 상품군별 행동패턴 39
제4장 추천 등급 분류 실험 42
4-1. 실험 데이터 준비 42
4-1-1. 예측 클래스 구성 42
4-1-2. 특징 변수 추출 44
4-1-3. 스파크 ML의 데이터 준비 과정 46
4-2. 랜덤 포레스트 49
4-2-1. 랜덤 포레스트 학습 49
4-2-2. 모델 분류 성능 평가 52
4-3. 다층 퍼셉트론 55
4-3-1. 다층 퍼셉트론 학습 55
4-3-2. 모델 분류 성능 평가 56
제5장 결론 60
5-1. 연구의 결과 60
5-2. 연구의 한계점 및 향후 연구 방향 61
참고 문헌 62
ABSTRACT 64
[표 3.1] 클릭스트림 데이터의 구성 33
[표 3.2] 필터링 조건 34
[표 3.3] 성별에 따른 행동패턴 37
[표 3.4] 가격대별 행동패턴 39
[표 3.5] 상품군별 행동패턴 40
[표 4.1] 범주 속성의 비대칭 이진 속성으로의 변환 44
[표 4.2] 원-핫 인코딩 적용과 미적용 비교 53
[표 4.3] 랜덤 포레스트 클래스별 정밀도, 재현율, F1 점수 54
[표 4.4] 랜덤 포레스트 혼동 행렬 55
[표 4.5] 다층 퍼셉트론 혼동 행렬 59
[표 4.6] 랜덤 포레스트와 다층 퍼셉트론 정확도 비교 59
[그림 2.1] 클릭스트림 데이터입수/활용 파이프라인 17
[그림 2.2] 데이터 통합 파이프라인 18
[그림 2.3] 비지도 학습과 지도 학습 23
[그림 2.4] 중고차 가격과 마일리지 간의 상관관계 24
[그림 2.5] 볼록 함수(convex function) 형태의 비용 함수 25
[그림 2.6] 데이터셋을 분류하는 의사결정 트리의 예시 26
[그림 2.7] 이진 분류 문제의 엔트로피 28
[그림 2.8] 랜덤 포레스트 예시 29
[그림 2.9] 신경망의 단순화된 계산 모델 30
[그림 2.10] 다층 퍼셉트론 구조 31
[그림 3.1] 성별에 따른 행동패턴 37
[그림 3.2] 가격대별 행동패턴 38
[그림 3.3] Amazon.com 메인페이지 추천 상품 41
[그림 4.1] 인코딩 방식별 의사결정 트리의 성능 45
[그림 4.2] 특징변수 추출에 사용된 Hive 쿼리문의 일부 46
[그림 4.3] 데이터 학습 준비 과정 48
[그림 4.4] 변수 선택 과정 49
[그림 4.5] RandomForestClassifier의 parameters 51
[그림 4.6] 랜덤 포레스트 학습 52
[그림 4.7] 트리의 수에 따른 정확도 54
[그림 4.8] 다층 퍼셉트론 학습 56
[그림 4.9] 은닉노드수별 정확도(변수 수=40, 은닉층 수=1) 57
[그림 4.10] 은닉노드수별 정확도(변수 수=50, 은닉층 수=1) 57
[그림 4.11] 은닉노드수별 정확도(변수 수=50, 은닉층 수=2) 58
[그림 4.12] 은닉노드수별 정확도(변수 수=50, 은닉층 수=3) 58