표제지
국문초록
목차
제1장 서론 13
1.1. 연구의 배경 및 목적 13
1.2. 연구의 내용 15
제2장 관련 연구 및 연구 동향 16
2.1. 성향 분석 연구의 동향 16
2.2. 자연어 처리 기법 21
2.2.1. 형태소 분석 및 개체명 추출 21
2.2.2. TF-IDF 22
2.2.3. 단어 표현(Word Representation) 23
2.3. 딥러닝 분석 기법 25
2.3.1. RNN(Recurrent Neural Network) 26
2.3.2. LSTM(Long Short-Term Memory) 27
2.3.3. GRU(Gated Recurrent Unit) 27
2.4. Holland의 직업 흥미 이론 29
제3장 TF-IPF를 이용한 성향 별 단어 선정 31
3.1. 직업별 성향 점수 31
3.2. 자기소개서 수집 33
3.3. 성향 단어 선정 34
3.3.1. 솔루션 선정 34
3.3.2. 개체명 태그 37
3.3.3. 형태소 품사 태그 39
3.4. TF-IPF 40
제4장 딥러닝 실험 45
4.1. 시스템 환경 45
4.2. 딥러닝 구조 46
4.3. 실험 데이터 생성 47
4.4. 실험 내용 49
4.4.1. 품사, 개체명 최적화 49
4.4.2. 단어 최적화 52
4.4.3. 딥러닝 구조 최적화 56
4.5. 실험 결과 64
제5장 결론 및 향후 과제 66
5.1. 결론 66
5.2. 향후 과제 67
참고문헌 68
Abstract 70
〈표-1〉 10대 그룹의 2018년도 하반기 공채 특징 14
〈표-2〉 Watson Personality Insights의 자기소개서 분석 결과 17
〈표-3〉 직업별 성향 점수 예시 32
〈표-4〉 개체명 태그 38
〈표-5〉 품사 태그 39
〈표-6〉 실험 환경 구성 45
〈표-7〉 딥러닝 구조 46
〈표-8〉 학습 데이터 라벨 변경 내용 47
〈표-9〉 품사, 개체명 조합 49
〈표-10〉 딥러닝 기본 테스트 구조 50
〈표-11〉 품사와 개체명 조합별 cost 비교 결과 50
〈표-12〉 품사, 개체명 조합별 Test data 정확도 결과 51
〈표-13〉 금지어 사전 구축 현황 53
〈표-14〉 성향별 중요 단어 53
〈표-15〉 단어 개수별 cost 비교 54
〈표-16〉 단어 개수별 Test data 정확도 비교 55
〈표-17〉 RMSProp 구조 실험 58
〈표-18〉 RMSProp 실험 결과 58
〈표-19〉 Adagrad 구조 실험 60
〈표-20〉 Adagrad 실험 결과 60
〈표-21〉 Adam 구조 실험 61
〈표-22〉 Adam 실험 결과 62
〈표-23〉 최적화 알고리즘과 히든 노드의 최적 파라미터 64
〈그림 1〉 세계 빅데이터 시장 동향 및 전망 13
〈그림 2〉 Watson Personality Insights 16
〈그림 3〉 사람인의 아바타서치 18
〈그림 4〉 마이다스아이티의 면접 솔루션 '인에어' 19
〈그림 5〉 ARI의 자기소개서 분석 결과 화면 예시 19
〈그림 6〉 코멘토의 자기소개서 분석 결과 화면 예시 20
〈그림 7〉 형태소 분석과 개체명 분석 21
〈그림 8〉 TF-IDF 22
〈그림 9〉 One-hot encoding 예시 23
〈그림 10〉 distributed representation 예시 23
〈그림 11〉 CBOW model architecture 24
〈그림 12〉 Skip-gram model architecture 24
〈그림 13〉 일반 신경망과 딥러닝 신경망 비교 25
〈그림 14〉 AlphaGo Network Structures 25
〈그림 15〉 RNN의 구조 26
〈그림 16〉 LSTM의 구조 27
〈그림 17〉 GRU의 구조 28
〈그림 18〉 Holland의 직업 흥미 이론 29
〈그림 19〉 자동차 정비원의 Holland 6가지 유형 점수 31
〈그림 20〉 합격 자기소개서의 수집 및 직업별 성향 점수 매핑 흐름도 33
〈그림 21〉 엑소브레인의 언어 분석 34
〈그림 22〉 코모란(Komoran) 형태소 분석기 35
〈그림 23〉 프로젝트를 위해 개발된 형태소 분석기 36
〈그림 24〉 공공데이터포털의 데이터 제공 화면 37
〈그림 25〉 성향별 자기소개서 분류 40
〈그림 26〉 성향별 단어의 등장빈도 계산 41
〈그림 27〉 단어의 전체 등장빈도 계산 예 42
〈그림 28〉 TF-IPF의 공식 43
〈그림 29〉 TF-IPF의 성질 43
〈그림 30〉 TF-IPF의 전체 프로세스 44
〈그림 31〉 본 실험의 딥러닝 구조도 46
〈그림 32〉 워드 임베딩된 학습 데이터 예시 47
〈그림 33〉 품사, 개체명 조합별 cost 비교 결과 51
〈그림 34〉 예술형 말뭉치 사전 52
〈그림 35〉 금지어가 적용된 예술형 말뭉치 사전 52
〈그림 36〉 탐구형 말뭉치 수동 사전 예 54
〈그림 37〉 단어 개수별 Cost 비교 그래프 55
〈그림 38〉 Gradient Descent Optimizer 56
〈그림 39〉 기존 신경망과 Dropout 적용 신경망 57
〈그림 40〉 RMSProp Cost 비교 그래프 59
〈그림 41〉 Adagrad Cost 비교 그래프 61
〈그림 42〉 Adam Cost 비교 그래프 63
〈그림 43〉 테스트 데이터 결과 비교 64