표제지
목차
국문요약 3
Abstract 4
개조식 요약문 5
제1장 서론 9
1. 사업 목적 10
2. 사업 수행 범위 10
3. 사업 수행 절차 11
제2장 온라인 게시 자료 수집 12
1. 참여자 모집 및 선정 13
2. 저작권 이용 허락 계약 체결 16
2-1. 저작권 이용 허락 계약의 내용 16
2-2. 저작권 이용 허락 계약 체결 17
3. 온라인 게시 자료 수집 18
제3장 말뭉치 구축 19
1. 데이터 분류 및 정제 20
1-1. 비적합 자료 정제 20
1-2. 비윤리적 언어 표현 자료 분리 21
1-3. 비식별화 처리 22
1-4. 데이터 분류(분야별, 주제별) 23
2. 원시 말뭉치 구축 및 메타 정보 구축 28
참고문헌 31
[붙임 1] 국가 언어 자원(말뭉치) 구축 및 활용 저작권 이용 허락 계약서 32
판권기 36
〈표 1〉 사이트 및 계정 확보 목표 13
〈표 2〉 비적합 자료 기준 20
〈표 3〉 말뭉치 언어의 비윤리적 표현 유형 21
〈표 4〉 비식별화 처리 유형 22
〈표 5〉 분야 및 주제 분류 기준 24
〈표 6〉 분야별 비중 26
〈표 7〉 분야 내 주제별 비중 27
〈표 8〉 파일명 부여 방식 28
〈표 9〉 말뭉치 형식(JSON) 28
〈그림 1〉 사업 목적 및 필요성 10
〈그림 2〉 사업 수행 절차 11
〈그림 3〉 사업 참여자 모집 방법 14
〈그림 4〉 홈페이지 및 누리소통망 홍보 화면 15
〈그림 5〉 저작권 이용 허락 계약서 17
〈그림 6〉 저작권 이용 허락 전자 계약 진행 절차 18
〈그림 7〉 민감 자료 데이터 분리 22
〈그림 8〉 분야별 임의 분류 결과 23
〈그림 9〉 분야별 수집 목표 비중 24
〈그림 10〉 누리소통망 말뭉치(JSON) 출력 예시 29
〈그림 11〉 게시판 말뭉치(JSON) 출력 예시 30