표제지
목차
I. 서론 8
1. 연구의 배경 8
2. 연구의 목적 9
3. 논문의 구성 10
II. 이론적 배경 12
1. 기계독해(Machine Reading Comprehension) 시스템 12
2. BERT 및 모델 구조 14
3. 질의 응답 모델 생성을 위한 데이터 셋 구축 17
1) 사전 학습 17
2) 파인 튜닝 18
4. 앙상블 및 딥 앙상블 20
1) 앙상블 20
2) 딥 앙상블 23
III. KorQuAD 데이터 셋을 이용한 기계 독해 31
1. 사전 학습 및 파인 튜닝(Fine-tuning) 32
2. 테스트 셋(Test Set) 32
3. 개별 모델 정확도 비교 35
IV. 앙상블을 활용한 검증 실험 42
1. 앙상블 구성 42
2. 앙상블 결과 비교 43
3. 최종 앙상블 모델 47
V. 결론 및 향후 연구 49
참고문헌 51
국문초록 53
ABSTRACT 55
[표3-1] 테스트 셋에 쓰인 지문과 질문 예시(정보글) 33
[표3-2] 테스트 셋에 쓰인 지문과 질문 예시(수능 언어영역 지문) 34
[표3-3] 테스트 셋에 쓰인 지문과 질문 예시(뉴스 기사지문) 35
[표3-4] 개별 모델의 학습 조건 및 정확도 36
[표3-5] 오답 비교표 38
[표3-6] 모델별 답안 비교 1 39
[표3-7] 모델별 답안 비교 2 40
[표3-8] 모델별 답안 비교 3 41
[표4-1] 앙상블 모델별 정확도 및 정밀도 비교표 46
[그림2-1] 트랜스포머 모델 구조(인코더-디코더) 14
[그림2-2] BERT 모델 구조 15
[그림2-3] 여러가지 종류의 신경망 모델로11개의NLP과제를 수행한 결과 16
[그림2-4] SQuAD 1.1 결과 17
[그림2-5] KorQuAD 데이터셋 질문 유형 분석 19
[그림2-6] Voting 방식 21
[그림2-7] Bagging 방식 22
[그림2-8] Boosting 방식 23
[그림2-9] local minima 24
[그림2-10] Cosine similarity of weights(좌), Disagreement of predictions(우) 25
[그림2-11] t-SNE of predictions 26
[그림2-12] 예측 값 오류가 모델마다 완전히 다를 수 있음을 보여주는 예시 27
[그림2-13] Cosine similarity of weights(좌), Disagreement of predictions(우) 28
[그림2-14] t-SNE plot 29
[그림2-15] Radial loss landscape cut 30
[그림2-16] Diversity vs. accuracy plots 31
[그림4-1] Confusion Matrix 45