표제지
목차
01. 서론 12
1. 연구배경과 목적 12
2. 연구범위와 방법 15
3. 연구의 기대효과 16
02. 지능형 데이터 공유체계 현황 18
1. 지능형 데이터의 정의 18
2. 지능형 데이터 운영 사례 21
2.1. AI Hub 21
2.2. Cyc 30
2.3. ImageNet 36
2.4. WordNet 40
2.5. BabelNet 48
2.6. NELL 52
2.7. DBpedia 55
2.8. Yago 62
03. ISNI-KOREA 데이터 관리현황 및 문제점 분석 68
1. ISNI-KOREA 데이터 운영 구조 분석 68
2. ISNI-KOREA 데이터 관리현황 분석 69
2.1. 데이터 프로파일링 69
2.2. ISNI-KOREA 데이터 프로파일링 분석 70
2.2.1. 분석개요 70
2.2.2. ISNI-KOREA 데이터 프로파일링 결과분석 73
2.2.2.1. 개인명 데이터 현황 분석 73
2.2.2.2. 단체명 데이터 현황 분석 83
2.3. 시사점 도출 88
04. ISNI-KOREA 지능형 데이터 관리도구 개발 91
1. 개발개요 91
1.1. PoC 시스템 개발 개요 91
1.2. 개발 요구사항 및 개발 범위의 정의 93
1.3. 지능형 지식추출 도구 모델 설계 94
2. ISNI-KOREA 지능형 데이터 관리 시스템의 PoC 개발 96
2.1. 수집 대상 정의 및 데이터 수집 96
2.2. 개발 방법 97
2.3. 개발 결과 및 검증 100
2.3.1. 개발 결과 100
2.3.2. 개발 결과의 유효성 검증 105
2.3.2.1. 검증 대상 및 분석 방법 105
2.3.2.2. 검증 결과 108
2.4. ISNI-KOREA 관리시스템 및 이용자 서비스 시스템의 적용 방안 112
05. 설문조사 116
1. 설문개요 116
2. 상세 결과분석 117
2.1. ISNI-KOREA 시스템 117
2.2. ISNI 활용사례 122
2.3. ISNI 지능형 데이터 서비스 관련 123
06. 향후 추진방안 126
1. 핵심 고려사항 126
2. 과제별 세부추진 방안 129
2.1. 원천데이터 정비 129
2.2. 메타데이터 확충 129
2.3. 데이터 연계 확충과 홍보 및 대상 계층 확대 140
2.4. 시스템 기능 개선 140
2.5. 참여기관 지원확대 141
3. ISNI-KOREA 협력 추진과 데이터 공유체계 142
3.1. 협력 추진체계 142
3.2. 데이터 공유체계 143
07. 결론 146
참고문헌 151
[부록 1] 한국어 위키피디아 페이지 템플릿의 유형별 구축 통계 153
[부록 2] ISNI-KOREA 컨소시엄 설문조사지 173
[부록 3] FOAF 클래스 상세내역 177
[부록 4] FOAF 속성 상세 179
[부록 5] Schma.org의 Person 속성 185
[부록 6] Schma.org의 Organization 속성 193
판권기 201
〈표 1〉 연구의 범위와 방법 16
〈표 2〉 AI 허브 비전 개방데이터 제공현황 22
〈표 3〉 AI 허브 음성/자연어 개방데이터 제공현황 23
〈표 4〉 AI 허브 교육 개방데이터 제공현황 24
〈표 5〉 AI 허브 국토환경 개방데이터 제공현황 24
〈표 6〉 AI 허브 농축수산 개방데이터 제공현황 25
〈표 7〉 AI 허브 안전 개방데이터 제공현황 25
〈표 8〉 AI 허브 자율주행 개방데이터 제공현황 26
〈표 9〉 AI 허브 헬스케어 개방데이터 제공현황 27
〈표 10〉 AI 허브 외부데이터 현황 28
〈표 11〉 Cyc 제품 36
〈표 12〉 Kaggle ImageNet 경진대회 역대 우승 알고리즘 39
〈표 13〉 WordNet 3.0 현황 42
〈표 14〉 Open Multilingual WordNet 현황 45
〈표 15〉 BabelNet 외부 연결 데이터 49
〈표 16〉 위키피디아와 한국어 및 영어 버전별 템플릿과 DBpedia의 매핑 규모 비교 60
〈표 17〉 YAGO의 버전별 주요 특징 65
〈표 18〉 ISNI-KOREA 데이터 프로파일 분석 대상 현황 72
〈표 19〉 ISNI-KOREA의 개인명에 대한 전체 분석 결과 종합 73
〈표 20〉 ISNI-KOREA 개인명 〈이름〉의 중복 개수 현황(상위 45건) 74
〈표 21〉 ISNI-KOREA 개인명 〈다른 이름〉의 중복 개수 현황(상위 36건) 76
〈표 22〉 ISNI-KOREA 개인명 〈활동분야〉의 분포 현황(상위 30건) 77
〈표 23〉 ISNI-KOREA 개인명 〈직업〉의 분포 현황(상위 30건) 78
〈표 24〉 ISNI-KOREA 개인명 〈관련단체〉의 분포 현황(상위 30건) 80
〈표 25〉 개인명의 외부링크 1건에 대한 유형별 분포 현황 82
〈표 26〉 ISNI-KOREA의 단체명에 대한 전체 분석 결과 종합 83
〈표 27〉 ISNI-KOREA 단체명 〈이름〉의 분포 현황(상위 22건) 84
〈표 28〉 ISNI-KOREA 단체명 중 '한국.노동부'의 〈다른이름〉의 적용 현황(상위 22건) 84
〈표 29〉 ISNI-KOREA 단체명의 〈단체유형〉의 분포 현황(상위 36건) 85
〈표 30〉 ISNI-KOREA 단체명의 〈관련 인물 및 단체〉의 분포 현황(상위 30건) 86
〈표 31〉/〈표 30〉 ISNI-KOREA 직업명 및 활동분야의 주제명전거 적용 현황 90
〈표 32〉/〈표 31〉 PoC 시스템에 적용된 외부데이터 유형 및 적용 방법 예시 98
〈표 33〉/〈표 32〉 Wikidata에서의 정보추출을 위한 SPARQL 쿼리문 예시 99
〈표 34〉/〈표 33〉 PoC 시스템의 데이터 자동 추출 적용을 위한 매핑 정보 설정(출생일, 사망일) 100
〈표 35〉/〈표 34〉 전체 모집단 및 표본 집단(모델 1, 모델 2)의 외부링크 개수의 분포 특성 108
〈표 36〉/〈표 35〉 외부링크의 유형에 따른 표본 모델별 데이터 수집 현황(단위 : 건수) 108
〈표 37〉/〈표 36〉 표본 모델에 따른 ISNI 번호별 추출에 성공한 외부데이터 수집 현황(단위 : 개) 110
〈표 38〉/〈표 37〉 모델 2의 외부링크 유형별 출생일의 데이터 형식 비교 112
〈표 39〉/〈표 38〉 설문조사지의 구성 117
〈표 40〉/〈표 39〉 질문1에 대한 응답결과 118
〈표 41〉/〈표 40〉 질문7에 대한 응답결과 122
〈표 42〉/〈표 41〉 질문 9에 대한 응답결과 124
〈표 43〉/〈표 42〉 시사점 정리 및 분류 128
〈표 44〉/〈표 43〉 ISNI 사람(person)객체에 대한 메타데이터 요소 현황 130
〈표 45〉/〈표 44〉 ISNI 조직(organisation)객체에 대한 메타데이터 요소 현황 131
〈표 46〉/〈표 45〉 컨소시엄 기관 제공 메타데이터 요소 정리 132
〈표 47〉/〈표 46〉 메타데이터 확충 접근점과 필요조치 134
〈표 48〉/〈표 47〉 FOAF Core와 Social Web 구성 요소 135
〈표 49〉/〈표 48〉 Schema.org Person의 주요 속성 136
〈표 50〉/〈표 49〉 Schema.org Organization의 주요 속성 138
〈표 51〉/〈표 50〉 협력 추진체계의 권한과 기능 142
〈그림 1〉 식별자를 중심으로 본 ISNI-KOREA 컨소시엄 관계도 13
〈그림 2〉 AI Hub 홈페이지 21
〈그림 3〉 AI 허브 감성대화말뭉치 데이터셋에 대한 소개 중 일부 29
〈그림 4〉 Datahub의 OpenCyc 데이터 서비스 32
〈그림 5〉 GitHub의 OpenCyc 데이터 서비스 33
〈그림 6〉 OpenCyc 온톨로지 파일의 일부 34
〈그림 7〉 OpenCyc 온톨로지 관계도 35
〈그림 8〉 Cyc 홈페이지 35
〈그림 9〉 ImageNet 홈페이지 37
〈그림 10〉 ImageNet ILSVRC(Large Scale Visual Recognition Challenge) Kaggle 서비스 페이지 38
〈그림 11〉 WordNet 홈페이지 41
〈그림 12〉 WordNet 검색시스템 42
〈그림 13〉 WordNet 'library' 검색결과 43
〈그림 14〉 WordNet 'library' 동의어 목록 43
〈그림 15〉 GWA 홈페이지 44
〈그림 16〉 babylon 홈페이지 47
〈그림 17〉 GoldenDict 홈페이지 48
〈그림 18〉 BabelNet 홈페이지 49
〈그림 19〉 BabelNet에서 '감정' 검색결과 50
〈그림 20〉 BabelNet에서 '감정' 상세검색결과 중 정의 부분 51
〈그림 21〉 BabelNet에서 '감정' 상세검색결과 중 연관 부분 51
〈그림 22〉 BabelNet에서 '감정' 상세검색결과 중 소스 부분 52
〈그림 23〉 NELL의 소프트웨어 아키텍처 53
〈그림 24〉 NELL의 기계학습에 따른 변경 사항에 대한 인간의 검증 시스템 54
〈그림 25〉 NELL의 기계학습 반복 횟수에 따른 정확도(좌)와 인간 피드백의 부정평가 결과 횟수(우) 55
〈그림 26〉 지식그래프의 엔티티 규모 비교(2020. 09 기준) 56
〈그림 27〉 DBpedia Databus의 최근 활동에 대한 게시 화면 57
〈그림 28〉 DBpedia의 추출 프레임워크 58
〈그림 29〉 한국어 위키피디아 인포박스에 대한 DBpedia 온톨로지 매핑 예시 59
〈그림 30〉 동일 저작물에 대한 DBpedia 온톨로지와 그리어 및 영어 위키피디아 문서 구조의 매핑 구조 61
〈그림 31〉 DBpedia 온톨로지의 주요 클래스 유형별 인스턴스 구축 현황 62
〈그림 32〉 YAGO 지식베이스의 기본 구조 63
〈그림 33〉 YAGO의 초기 아키텍처 64
〈그림 34〉 YAGO4 브라우저 66
〈그림 35〉 YAGO4의 소스코드를 공유하는 깃허브 화면 67
〈그림 36〉 ISNI-KOREA의 외부링크와 ISNI-IA의 Source의 등록 현황 비교 68
〈그림 37〉 ISNI-KOREA의 데이터 연동 구조 분석 69
〈그림 38〉 데이터 프로파일링 수행 절차 70
〈그림 39〉 ISNI-KOREA 서비스의 검색결과 화면 71
〈그림 40〉 판다스 프로파일링(pandas-profiling)의 GitHub 제공 화면 및 분석 결과의 HTML 화면 72
〈그림 41〉 개인명 〈이름〉의 중복 이름 개수의 분포 75
〈그림 42〉 ISNI-KOREA 개인명 〈국적〉의 분포 현황 76
〈그림 43〉 ISNI-KOREA 개인명 〈활동분야〉의 ISNI 번호당 건수별 등록 현황 77
〈그림 44〉/〈그림 43〉 ISNI-KOREA 개인명 〈직업〉의 ISNI 번호당 등록 건수별 현황 79
〈그림 45〉/〈그림 44〉 ISNI-KOREA 개인명 〈관련단체〉의 ISNI 번호당 등록 건수별 현황 80
〈그림 46〉/〈그림 45〉 ISNI-KOREA 개인명 〈외부링크〉의 외부링크 유형별 등록 건수별 현황 82
〈그림 47〉/〈그림 46〉 ISNI-KOREA 단체명 〈관련 인물 및 단체〉의 ISNI 번호당 등록 건수별 현황 86
〈그림 48〉/〈그림 47〉 ISNI-KOREA 단체명 〈외부링크〉의 외부링크 유형별 등록 건수별 현황 87
〈그림 49〉/〈그림 48〉 ISNI-KOREA 단체명 〈외부링크〉의 ISNI 번호당 등록 건수별 현황 87
〈그림 50〉/〈그림 49〉 개인명 〈김민정〉에 대한 ISNI-KOREA의 검색 결과 화면 89
〈그림 51〉/〈그림 50〉 PoC 개발 방법론 92
〈그림 52〉/〈그림 51〉 PoC 시스템 개발 단계 92
〈그림 53〉/〈그림 52〉 ISNI-KOREA 고도화 전략 중 PoC 시스템의 개발 목표 94
〈그림 54〉/〈그림 53〉 PoC 시스템의 지능형 지식추출 도구 모델 설계안 95
〈그림 55〉/〈그림 54〉 국가서지 LOD의 개인명, 단체명의 〈owl:sameAs〉 값 적용 현황 96
〈그림 56〉/〈그림 55〉 PoC 시스템 개발 결과 (초기 화면) 101
〈그림 57〉/〈그림 56〉 PoC 시스템의 인터링킹 정보 추출 기능 구현 예시(DBpedia 정보 참조 결과) 102
〈그림 58〉/〈그림 57〉 PoC 시스템의 추가 혹은 대체를 통한 데이터 보강 기능 구현 예시 103
〈그림 59〉/〈그림 58〉 PoC 시스템의 자동 추출을 위한 자동 매핑 설정 화면 구현 예시 104
〈그림 60〉/〈그림 59〉 PoC 시스템의 자동 매핑에 따른 출생일의 자동 추출 결과 예시 105
〈그림 61〉/〈그림 60〉 모집단의 외부링크 개수의 분포 106
〈그림 62〉/〈그림 61〉 표본 모델별 출생일, 사망일, 출생지 추출 건수와 외부링크 개수와의 상관관계 비교 111
〈그림 63〉/〈그림 62〉 SILK의 상호연결 프로세스 113
〈그림 64〉/〈그림 63〉 ISNI-KOREA의 데이터 순환 생태계 모델 114
〈그림 65〉/〈그림 64〉 ISNI-KOREA의 이용자서비스 발전 모델 115
〈그림 66〉/〈그림 65〉 ISNI-KOREA 데이터 공유체계 개념도 144