표제지
목차
I. 서론 8
1. 연구의 배경 8
2. 연구의 목적 및 방향 10
3. 연구의 범위 10
II. 관련연구 12
1. 자연어 처리 연구 12
1) 자연어 처리 기본 개념 12
2) 데이터 정리 14
3) 토큰화(Tokenization) 16
2. 워드 임베딩 19
1) Word2Vec 20
2) GloVe 24
III. 데이터 전처리 27
1. 데이터 수집 27
1) 데이터 수집 27
2) 데이터 편집 29
2. 데이터 전처리 31
1) 데이터 검토 31
2) 데이터 전처리 35
IV. 연구 과정 및 결과 38
1. 데이터 분석 39
1) 워드 클라우드를 통한 비교 분석 39
2) 그래프를 통한 기사 텍스트 길이 비교 분석 41
3) 그래프를 통한 기사당 단어 개수 비교 분석 45
4) 박스 플롯을 통한 비교 분석 48
2. 판별 모델 생성 49
1) 모델 설정 50
2) 모델 훈련 및 학습 50
3) 모델 성능 확인 52
V. 결론 및 향후 연구과제 56
참고문헌 58
국문초록 60
ABSTRACT 62
표 2-1. 목표 단어(ice, steam)에 대한 동시 발생 확률 예시 25
표 3-1. 데이터 정보 28
표 3-2. 가짜 뉴스 데이터(info 칼럼 추가 전) 29
표 3-3. 진짜 뉴스 데이터(info 칼럼 추가 전) 29
표 3-4. 가짜 뉴스 데이터(info 칼럼 추가 후) 30
표 3-5. 진짜 뉴스 데이터(info 칼럼 추가 후) 30
표 3-6. 편집된 최종 데이터 31
표 4-1. GloVe를 이용한 모델 에포크 결과 52
표 4-2. Word2Vec vs GloVe 모델 정확도 비교 55
그림 1-1. 코로나 19 인포데믹 경고 8
그림 1-2. 가짜 뉴스와 진짜 뉴스 수용도 9
그림 2-1. 최근 6년간 ACL, EMNLP, EACL, NAACL에 게재된 딥러닝... 13
그림 2-2. CBOW, Skip-Gram 모델 구조 21
그림 2-3. 가중치 함수 f와 a = 3/4 일 때 26
그림 2-4. GloVe vs CBOW, Skip-gram 26
그림 3-1. 가짜 뉴스 vs 진짜 뉴스 데이터 수 32
그림 3-2. 가짜 뉴스, 진짜 뉴스 카테고리별 데이터 수 분포도 34
그림 4-1. 연구 과정 플로우 차트 38
그림 4-2. 가짜 뉴스 기사 데이터 워드 클라우드 40
그림 4-3. 진짜 뉴스 기사 데이터 워드 클라우드 41
그림 4-4. 가짜 뉴스 기사 텍스트 길이 42
그림 4-5. 진짜 뉴스 기사 텍스트 길이 44
그림 4-6. 가짜 뉴스 기사당 단어 개수 46
그림 4-7. 진짜 뉴스 기사당 단어 개수 47
그림 4-8. 가짜 뉴스 기사 데이터 박스 플롯 그래프 48
그림 4-9. 진짜 뉴스 기사 데이터 박스 플롯 그래프 49
그림 4-10. GloVe 모델 구조 52
그림 4-11. 모델에 대한 손실값 그래프 53
그림 4-12. 모델에 대한 정확도 그래프 54
그림 4-13. Word2Vec 모델 구조 55