표제지
목차
Ⅰ. 서론 10
1. 연구의 필요성과 목적 10
2. 연구의 범위 11
3. 연구의 기대효과 13
Ⅱ. 도서관 자동 분류 해외 사례 14
1. 미국의회도서관 14
2. 핀란드국립도서관 15
3. 독일국립도서관 17
4. 노르웨이국립도서관 20
5. 스웨덴국립도서관 22
6. 일본국회도서관 23
Ⅲ. 자동 분류의 개요 25
1. 문서 전처리 25
1.1. 토큰화(Tokenization) 25
1.2. Bag of Words(BoW) 26
1.3. N-gram 26
1.4. Word2Vec 27
1.5. Global Vectors for Word Representation(GloVe) 27
2. 텍스트 기반 확률 모형 27
2.1. 확률론적 그래픽 모델 27
2.2. kNN(k-Nearest Neighbors) 28
2.3. SVM(Support Vector Machine) 28
2.4. Decision Tree and Random Forest 29
3. 딥러닝 기반 기계학습 29
3.1. MLP(Multi-Layer Perceptron) 29
3.2. CNN(Convolutional Neural Networks) 30
3.3. RNN(Recurrent Neural Networks) 31
3.4. LSTM(Long Short-Term Memory) 32
3.5. Transformer 34
3.6. GPT(Generative Pre-trained Transformer) 35
3.7. BERT(Bidirectional Encoder Representations from Transformers) 37
4. 다중식별 분류 데이터셋 38
5. 성능 측정 평가지표 38
Ⅳ. 학습 데이터 현황 40
1. 데이터 개요 및 범위 40
2. 주제명표목표 41
2.1. 전체 용어 현황 41
2.2. 관계 현황 47
2.3. 계층 현황 49
2.4. 주제명 부여 현황 51
3. 서지데이터 54
3.1. 주류(main class) 분석 54
3.2. 강목(division) 분석 57
4. 목차 데이터 77
5. 원문 데이터 84
6. 요약 및 시사점 85
6.1. 주제명데이터 측면 85
6.2. 서지 및 목차 데이터 측면 86
Ⅴ. 자동 분류 알고리즘 설계 및 검증 87
1. 알고리즘 설계 87
2. 데이터 전처리 91
3. 분류 성능 측정 및 평가 93
3.1. 서명 중심 분류 93
3.2. 목차 중심 분류 102
4. 오류 검증 107
5. 요약 및 시사점 110
Ⅵ. 결론 및 제언 112
1. 도입 가능성 및 활용 가능성 113
2. 자동 분류 알고리즘 최적화를 위한 제언 114
참고문헌 116
판권기 120
〈표 1〉 연구 구성 및 방법 12
〈표 2〉 데이터 입수 현황 40
〈표 3〉 주제명표목표 용어별 건수 현황 41
〈표 4〉 주제명 활용 빈도 현황(우선어 기준) 42
〈표 5〉 1회 이상 30회 이하의 주제명 활용 빈도(우선어 기준) 43
〈표 6〉 최고빈도순 상위 30위의 주제명 활용 빈도(우선어 기준) 43
〈표 7〉 주제어 종류별 부여 현황(우선어 기준) 44
〈표 8〉 부여 주제어 세부 빈도(우선어 기준) 46
〈표 9〉 관계지시기호 상위 30개 활용 빈도 47
〈표 10〉 100회 이상 활용 주제명의 관계지시기호 활용 빈도 48
〈표 11〉 용어 갈래에 따른 건수 49
〈표 12〉 주제어 범주에 따른 평균 심도 50
〈표 13〉 주제명표목표의 전체 우선어와 활용 주제명의 심도 현황 51
〈표 14〉 100회 이상 부여 주제어의 심도 사례 51
〈표 15〉 주제명 부여 개수에 따른 서지데이터 비율 52
〈표 16〉 주제명 10개 이상 부여 서지데이터 사례 52
〈표 17〉 주제 특정성에 따른 주제명 부여 현황 53
〈표 18〉 주제 특정성에 따른 주제명 부여 심도 현황 53
〈표 19〉 전체 서지데이터 현황 55
〈표 20〉 목차 입력 서지데이터 현황 56
〈표 21〉 총류 서지데이터 현황 58
〈표 22〉 철학 서지데이터 현황 60
〈표 23〉 종교 서지데이터 현황 62
〈표 24〉 사회과학 서지데이터 현황 64
〈표 25〉 자연과학 서지데이터 현황 66
〈표 26〉 기술과학 서지데이터 현황 68
〈표 27〉 예술 서지데이터 현황 70
〈표 28〉 언어 서지데이터 현황 72
〈표 29〉 문학 서지데이터 현황 74
〈표 30〉 역사 서지데이터 현황 76
〈표 31〉 주류별 목차의 길이 관련 통계 현황 78
〈표 32〉 사회과학 강목별 목차 음절 통계 현황 81
〈표 33〉 문학 강목별 목차 음절 통계 현황 82
〈표 34〉 한국문학의 요목별 목차 음절 통계 현황 83
〈표 35〉 원문 데이터 자체 주제명 부여 횟수 순위 85
〈표 36〉 서명 중심 데이터 현황 94
〈표 37〉 서명 중심 자질의 분류 성능(microF1 기준) 95
〈표 38〉 에포크에 따른 주제명 254개 데이터셋의 성능 97
〈표 39〉 KDC 주류에 의한 서명 중심의 분류 일치 현황 100
〈표 40〉 주제명 범주에 따른 일치도 101
〈표 41〉 목차 중심 데이터 현황 102
〈표 42〉 목차 중심 자질의 분류 성능(microF1 기준) 103
〈표 43〉 분류 자질과 주제명 범주에 따른 일치도 105
〈표 44〉 분류 자질에 의한 KDC 주류의 분류 일치 현황 106
〈표 45〉 분류 자질에 따른 원문 데이터의 분류 성능(microF1 기준) 107
〈표 46〉 오류 검증용 주제명 부여 사례 108
〈그림 1〉 전체 연구의 범위 11
〈그림 2〉 LC labs 15
〈그림 3〉 Annif 개괄 16
〈그림 4〉 Finto AI 서비스 제공화면 16
〈그림 5〉 Annif 모듈러(Suominen, Inkinen & Lehtinen, 2002) 17
〈그림 6〉 DDC 주제 분류(일부) 18
〈그림 7〉 DDC short Number 예시 19
〈그림 8〉 DDC 자동 부여 예시 19
〈그림 9〉 독일국립도서관의 자동 분류시스템의 어휘 데이터 현황 20
〈그림 10〉 학습 및 테스트 기본 설정(Brygfjeld, Wetjen & Walsøe, 2017) 21
〈그림 11〉 학습모델 수행 과정(Brygfjeld, Wetjen & Walsøe, 2017) 21
〈그림 12〉 KB-BERT의 성능(Accuracy) 22
〈그림 13〉 NDC 분류 예시 23
〈그림 14〉 NDC predictor 화면 23
〈그림 15〉 다중 퍼셉트론 구조(Ramchoun et al., 2017) 30
〈그림 16〉 TextCNN 구조(Yoon, 2014) 31
〈그림 17〉 TCN 구조(Bai, Kolter & Koltun, 2018) 31
〈그림 18〉 RNN 구조(Mikolov et al., 2011) 32
〈그림 19〉 LSTM 구조(Van et al., 2020) 33
〈그림 20〉 기존 LSM 구조(위)와 Tree-LSTM 구조(아래) (Tai, Socher & Manning, 2015) 33
〈그림 21〉 Transformer 모델 구조(Vaswani et al., 2017) 34
〈그림 22〉 다중 헤드(multi-head) attention 레이어 35
〈그림 23〉 GPT 모델 구조(Radford et al., 2018) 36
〈그림 24〉 BERT(좌)와 GPT 구조(우) 비교(Devlin et al., 2019) 37
〈그림 25〉 활용 주제명 빈도 현황 42
〈그림 26〉 주제어 종류별 부여 현황(우선어 기준) 45
〈그림 27〉 주제어 종류별 미 부여 현황(우선어 기준) 45
〈그림 28〉 최상위 주제어 보유 하위 심도 비율 49
〈그림 29〉 학문 분야별 주제명 부여 현황 54
〈그림 30〉 주류별 서지데이터 현황 55
〈그림 31〉 목차가 있는 서지데이터의 주류별 현황 56
〈그림 32〉 전체 서지데이터와 목차 기입데이터의 비율 57
〈그림 33〉 총류 서지데이터 강목 분포 현황 58
〈그림 34〉 총류 목차기입 서지데이터 비율 현황 59
〈그림 35〉 철학 서지데이터 강목 분포 현황 60
〈그림 36〉 철학 목차기입 서지데이터 비율 현황 61
〈그림 37〉 종교 서지데이터 강목 분포 현황 62
〈그림 38〉 종교 목차 기입 서지데이터 비율 현황 63
〈그림 39〉 사회과학 서지데이터 강목 분포 현황 64
〈그림 40〉 사회과학 목차 기입 서지데이터 비율 현황 65
〈그림 41〉 자연과학 서지데이터 강목 분포 현황 66
〈그림 42〉 자연과학 목차 기입 서지데이터 비율 현황 67
〈그림 43〉 기술과학 서지데이터 강목 분포 현황 68
〈그림 44〉 기술과학 목차 기입 서지데이터 비율 현황 69
〈그림 45〉 예술 서지데이터 강목 분포 현황 70
〈그림 46〉 예술 목차 기입 서지데이터 비율 현황 71
〈그림 47〉 언어 서지데이터 강목 분포 현황 72
〈그림 48〉 언어 목차 기입 서지데이터 비율 현황 73
〈그림 49〉 문학 서지데이터 강목 분포 현황 74
〈그림 50〉 문학 목차 기입 서지데이터 비율 현황 75
〈그림 51〉 역사 서지데이터 강목 분포 현황 76
〈그림 52〉 역사 목차 기입 서지데이터 비율 현황 77
〈그림 53〉 주류별 쪽수 평균과 표준편차 79
〈그림 54〉 주류별 어절 평균과 표준편차 79
〈그림 55〉 주류별 음절 평균과 표준편차 80
〈그림 56〉 사회과학 강목별 음절 평균과 표준편차 81
〈그림 57〉 문학 강목별 음절 평균과 표준편차 82
〈그림 58〉 한국문학 요목별 음절 평균과 표준편차 83
〈그림 59〉 자동 분류 실험 개요 88
〈그림 60〉 서명 자질 데이터셋에 따른 자동 분류 일치정도 98
〈그림 61〉 저빈도(100~200회) 부여 주제명의 미부여 정도 99
〈그림 62〉 분류 자질에 따른 일치 정도 비율(348개 데이터셋) 104