대한민국 국회도서관

인명/단체명 검색결과
전체 선택	대표형(전거형, Authority)	생물정보	이형(異形, Variant)	소속	직위	직업	활동분야	주기	서지
연구/단체명을 입력해주세요.

소장자료
공공정책정보
외부기관 자료

학위논문 문장 단위의 학습 결과를 반영한 RNN-LSTM 2단계 텍스트 분류 모델 = Text classification model using RNN-LSTM two-step with sentences-reflecting learning results

저자명
최우석
발행사항
청주 : 충북대학교 대학원, 2021.2
청구기호
TM 005.74 -21-16
형태사항
v, 62 p. ; 26 cm
자료실 전자자료
제어번호
KDMT12021000014370
주기사항
학위논문(석사) -- 충북대학교 대학원, 빅데이터협동과정 빅데이터전공, 2021.2. 지도교수: 최상현
원문
협정기관
연계정보
외부기관 원문
학술연구정보서비스(KERIS)
외부기관 원문

목차보기

표제지

Abstract 6

Ⅰ. 서론 9

1. 연구의 배경 및 목적 9

2. 연구의 구성 11

Ⅱ. 이론적 배경 12

1. 선행 연구 12

(1) 기계학습(Machine Learning) 기반의 텍스트 분류 12

(2) 딥러닝(Deep Learning) 기반의 텍스트 분류 13

2. 데이터마이닝(Data Mining) 15

Ⅲ. 연구 방법 17

1. 텍스트 처리 방법(Text Preprocessing Method) 17

(1) 형태소(morpheme) 분석 17

(2) 불용어(Stopword) 처리 17

(3) 텍스트 벡터화(Text Vectorization) 19

2. 딥러닝(Deep Learning) 20

(1) 인공신경망(artificial neural network) 20

(2) 순환신경망(RNN, Recurrent Neural Network) 22

(3) LSTM(Long Short-Term Memory) 24

Ⅳ. 데이터 설명 및 전처리 26

1. 데이터 설명 26

(1) 데이터 수집 26

(2) 데이터 기초분석 27

2. 데이터 전처리 29

(1) 카테고리 재분류(Category Reclassification) 29

(2) 문장 분리(Sentence Separation) 31

(3) 텍스트 전처리(text preprocessing) 33

(4) 형태소 분석(Morpheme Analysis) 34

(5) 불용어 처리(Stopword Removal) 35

(6) 토큰화(Tokenization) 38

(7) 학습셋(Training Set) 구축 39

Ⅴ. 분석 결과 40

1. 전체 프로세스 40

2. 1단계 : RNN 기반의 문장 범주 예측 41

(1) RNN 모델 설계 41

(2) 하이퍼 파라미터의 변화에 따른 성능 비교 43

(3) RNN 기반의 문장 단위 범주 예측 모델 활용 52

3. 2단계 : LSTM 기반의 게시글 범주 예측 56

(1) LSTM 모델의 설계 56

(2) 모델 소개 57

(3) 모델의 성능 평가 60

(4) 결과 64

Ⅵ. 결론 및 한계 65

1. 연구 요약 65

2. 시사점 및 한계 66

참고문헌 67

표목차

〈표 1〉 선행연구 요약 14

〈표 2〉 통계학과 데이터마이닝의 비교 15

〈표 3〉 TF-IDF 가중치 모델 18

〈표 4〉 텍스트 벡터화(Text Vectorization) 방법 19

〈표 5〉 수집한 데이터에 대한 개요 26

〈표 6〉 월 단위 게시글 수 27

〈표 7〉 카테고리별 게시글 수 28

〈표 8〉 카테고리별 자주 등장한 단어 29

〈표 9〉 카테고리 재분류 결과 30

〈표 10〉 문장 구분을 위한 구분자 선정 31

〈표 11〉 종결어미의 종류 및 형태 32

〈표 12〉 KoNLPy의 형태소 분석 방법 34

〈표 13〉 Hannanum과 Kkma의 성능 비교 34

〈표 14〉 TF-IDF 계산 결과 35

〈표 15〉 단어 토큰화 결과 sample 38

〈표 16〉 문장 카테고리 선정 및 학습셋 구축 39

〈표 17〉 하이퍼 파라미터 설정 43

〈표 18〉 Max length가 6일 때, 입력 데이터 변환 예시 44

〈표 19〉 Max length의 변경에 따른 정확도(Accuracy) 비교 45

〈표 20〉 Embedding dim의 변경에 따른 정확도(Accuracy) 비교 47

〈표 21〉 Unit의 변경에 따른 정확도(Accuracy) 비교 49

〈표 22〉 RNN 기반의 문장 카테고리 예측 모델의 구조 51

〈표 23〉 게시글마다의 카테고리별 문장의 개수 Count 결과 53

〈표 24〉 Softmax 함수를 적용하여 만든 카테고리별 가중치 값(W) 54

〈표 25〉 게시글 카테고리 분류 모델 정의 57

〈표 26〉 Model_1의 confusion matrix 60

〈표 27〉 Model_2의 confusion matrix 61

〈표 28〉 Model_3의 confusion matrix 62

〈표 29〉 Model_4의 confusion matrix 63

〈표 30〉 각 모델별 분류 성능 비교 64

그림목차

〈그림 1〉 텍스트마이닝의 종류 16

〈그림 2〉 인공신경망의 예 20

〈그림 3〉 RNN의 구조 22

〈그림 4〉 RNN의 설계구조 23

〈그림 5〉 LSTM 네트워크 구조 24

〈그림 6〉 LSTM 프로세스 25

〈그림 7〉 월 단위 게시글 수 27

〈그림 8〉 TF-IDF 결과를 변환하는 과정 36

〈그림 9〉 No-Meaning Rate 계산 과정 37

〈그림 10〉 RNN-LSTM 2단계 텍스트 분류 모델 전체 프로세스 40

〈그림 11〉 RNN 기반의 문장 범주 예측 모델 도식화 41

〈그림 12〉 Max length가 10일 때의 Loss 그래프(x축 : Epoch, y축 : Loss) 46

〈그림 13〉 Embedding dim이 50일 때의 Loss 그래프(x축 : Epoch, y축 : Loss) 48

〈그림 14〉 Embedding dim이 30일 때의 Loss 그래프 48

〈그림 15〉 Unit이 4, 8, 16일 때의 Loss 그래프 50

〈그림 16〉 Unit이 32일 때의 Loss 그래프 50

〈그림 17〉 '의미없음' 문장 제거 처리결과 예시 52

〈그림 18〉 카테고리별 가중치(W) 적용 프로세스 설명 55

〈그림 19〉 LSTM 기반의 게시글 범주 예측 모델 도식화 56

〈그림 20〉 Model 별 분석 프로세스 비교 59

초록보기

Text classification is a task where text like a word, a sentence, and a paragraph is classified by category, and it is one of the unstructured data analysis.

Many researchers have attempted to solve the text classification problem using deep learning. In particular, LSTM, that is designed for the past events to influence the future outcomes, was suitable for approaching text classification problems. However, LSTM has a limitation where the performance decreased as time steps number, the number of average words used, increased. This is because people also write meaningless sentences that don't address the purpose of the article, apart from the problems of long-term dependencies.

To solve these problems, this research proposed 'text classification model using RNN-LSTM two-step with sentences-reflecting learning results'. This model improved the classification accuracy of long documents by proceeding sentence-level learning with RNN, and then reflecting the result, and then applying it to LSTM again.

자료명
저자사항
제어번호
*요청자 이름	회신요청
*전화번호	휴대폰 번호를 입력하세요.
*이메일	@
*요청내용
*오류항목

* 서재명
설명
* 공개수준	비공개 완전공개 * 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.

알림톡 발송로 자료명, 기사명/저자명, 수록지명, 자료실, 서가번호, 전화번호로 구성되어 있습니다.




*전화번호	※ '-' 없이 휴대폰번호를 입력하세요

연속간행물 상세정보 입니다.
청구기호
자료명/저자사항
발행사항
형태사항
ISSN

다국어입력

상세검색

다국어입력

저자 검색

관련 키워드 검색

주제별 검색

학위논문 문장 단위의 학습 결과를 반영한 RNN-LSTM 2단계 텍스트 분류 모델 = Text classification model using RNN-LSTM two-step with sentences-reflecting learning results

목차보기

초록보기

추천서가 (다양한 추천 자료를 만나보세요)

MARC 보기

오류 데이터 정정요청

알림톡 발송

권호기사보기

연속간행물 권호 선택

연속간행물 권호 선택

우편복사 안내

도서위치안내(서울관)

저자프로필

목차보기

우편복사 안내

우편복사 목록담기

확인

내서재에 담기

새로운 서재

저장

로그인