표제지
목차
국문요약 3
영문요약 6
Ⅰ. 사업 개요 15
1. 사업 목표 및 추진 방향 15
1) 사업 목표 15
2) 추진 방향 17
2. 사업 수행 체계 및 절차 21
1) 사업 수행 체계 및 인력 구성 21
2) 병렬 말뭉치 구축 절차 21
3. 사업추진계획 22
1) 일정별 사업추진계획 22
2) 세부 사업추진 계획 22
4. 주요 변경 사항 25
1) 요구사항 25
2) 작업 및 검수 지침 25
3) 예산 25
Ⅱ. 사업 수행 26
1. 한국어 수집 및 정제 26
1) 한국어 수집 및 정제 26
2) 한국수어 변환 및 수어 제공 38
3) 수어 영상 촬영 40
2. 키포인트 라벨링 구축 43
1) 키포인트 위치 43
2) 키포인트 라벨링 기본 방법론 46
3) 키포인트 저작도구 사용 47
3. 형태소 라벨링 구축 49
1) 주석 기본 원칙 49
2) 주석 세부 지침 59
4. JSON파일 구축 61
1) 병렬 말뭉치 데이터 구조 61
2) 데이터 포맷 개요 62
3) 데이터 백업 관리 65
5. 병렬 말뭉치 데이터 검수 66
1) 검수 항목 및 활동 정의 66
2) 문장 데이터 검수 67
3) 수어 영상 촬영데이터 검수 68
4) 한국수어(촬영 영상) 검수 69
5) 형태소 라벨링 데이터 검수 70
6) 키포인트 라벨링 데이터 검수 78
6. 병렬 말뭉치 데이터 품질관리 및 검증 79
1) 데이터 품질관리 79
2) 세부 검증 및 품질 관리 89
7. 보안 관리 91
1) 보안 관리 개요 91
2) 원천 자료 및 구축 자료에 대한 저작권 확보 91
3) 개인정보보호 등 보안 정책 및 지침 준수 93
4) 사업 수행을 위한 보안 대책 수립 및 준수 93
5) 보안 계획 점검 사항 94
Ⅲ. 사업 수행 결과 95
1. 병렬 말뭉치 데이터 구축 결과 95
1) 최종 구축 데이터 95
2. 활용 방안 및 기대 효과 96
1) 병렬 말뭉치의 활용 방안 96
2) 사업의 기대 효과 96
3) 제언 98
참고자료 99
판권기 101
[표 Ⅰ-1] 보유 특허 19
[표 Ⅰ-2] 경쟁력 19
[표 Ⅰ-3] 제품화 및 활용 분야 20
[표 Ⅰ-4] 수행기관 인력 구성 21
[표 Ⅰ-5] 한국어-한국수어 병렬 말뭉치 구축 절차 21
[표 Ⅰ-6] 일정별 사업추진계획 22
[표 Ⅱ-1] 수집대상 세부 분야 26
[표 Ⅱ-2] 수어 통역이 필요한 영역 27
[표 Ⅱ-3] 수어 통역이 필요한 영역 2 29
[표 Ⅱ-4] 개인 정보 비식별화 지침 33
[표 Ⅱ-5] 한국수어 검수 기준 39
[표 Ⅱ-6] 수어 영상 현장 검수 기준 39
[표 Ⅱ-7] 수어 영상 2차 검수 기준 40
[표 Ⅱ-8] 촬영 장비 셋팅 값 42
[표 Ⅱ-9] 수어 영상 스튜디오 촬영 환경 42
[표 Ⅱ-10] 키포인트 몸 분류 44
[표 Ⅱ-11] 키포인트 얼굴/손(왼손) 분류 45
[표 Ⅱ-12] 키포인트 오른손 분류 46
[표 Ⅱ-13] 저작 도구 단축키 48
[표 Ⅱ-14] 일치동사 주석 예시 1 52
[표 Ⅱ-15] 일치동사 주석 예시 2 52
[표 Ⅱ-16] 일치동사 주석 예시 3 53
[표 Ⅱ-17] 일치동사 주석 예시 4 53
[표 Ⅱ-18] 일치동사 주석 예시 5 54
[표 Ⅱ-19] 일치동사 주석 예시 6 54
[표 Ⅱ-20] 생산적 수어 예시 55
[표 Ⅱ-21] 비수지 신호 용어 정리 56
[표 Ⅱ-22] 토큰 분절 예시 59
[표 Ⅱ-23] 양손 주석 예시 60
[표 Ⅱ-24] 양손 주석 위치와 분절 예시 60
[표 Ⅱ-25] Json 구조정의서 64
[표 Ⅱ-26] 검수 항목 및 활동 정의 66
[표 Ⅱ-27] 개인 고유 식별 정보 비식별화 여부 검수 항목 67
[표 Ⅱ-28] 개인 특정 가능 정보 비식별화 여부 검수 항목 67
[표 Ⅱ-29] 수어 영상 촬영데이터 검수 항목 68
[표 Ⅱ-30] 한국수어 검수 기준 69
[표 Ⅱ-31] 형태소 라벨링 데이터 검수 내용 70
[표 Ⅱ-32] 토큰 길이 기준 틀린 주석 예시 1 73
[표 Ⅱ-33] 토큰 길이 기준 주석 예시 73
[표 Ⅱ-34] 토큰 길이 기준 틀린 주석 예시 2 74
[표 Ⅱ-35] 토큰 길이 기준 주석 예시 2 74
[표 Ⅱ-36] 수어 모델 비수지 정보 75
[표 Ⅱ-37] 비수지 검수 사항 1 76
[표 Ⅱ-38] 비수지 검수사항 2 77
[표 Ⅱ-39] 키포인트 라벨링 데이터 검수 절차 78
[표 Ⅱ-40] 품질 관리 체계 88
[표 Ⅱ-41] 프로세스 품질 검사 내용 및 일정 89
[표 Ⅱ-42] 데이터 품질 검사 내용 및 일정 89
[표 Ⅱ-43] 데이터 품질관리 교육 방안 90
[표 Ⅲ-1] 최종 구축 데이터 수량 95
[그림 Ⅰ-1] 청각장애인에게 높은 사회 장벽 분야 15
[그림 Ⅰ-2] ICT 기술을 통한 의사소통의 필요성 16
[그림 Ⅰ-3] 수어 번역 기술의 개념 17
[그림 Ⅰ-4] 코로나19 방역 지침 AI 음성 수어 서비스 19
[그림 Ⅱ-1] 민원/행정 원시데이터 예시 32
[그림 Ⅱ-2] 파일명 코드 부여 지침 34
[그림 Ⅱ-3] 한국지능정보사회진흥원 데이터 이용정책 35
[그림 Ⅱ-4] 저작 재산권 이용 동의 계약 예시 36
[그림 Ⅱ-5] 동적 숫자 표기법 예시 37
[그림 Ⅱ-6] 동음이의어 표기법 예시 37
[그림 Ⅱ-7] 수어 표현범위를 고려한 촬영 화면 구성 41
[그림 Ⅱ-8] 수어 제공 프롬프터 42
[그림 Ⅱ-9] COCO Wholebody dataset 키포인트 43
[그림 Ⅱ-10] AITOK - 키포인트 에디터 47
[그림 Ⅱ-11] 일치동사 주석 방법 1 50
[그림 Ⅱ-12] 일치동사 주석 방법 2 51
[그림 Ⅱ-13] 일치동사 주석 방법 3 51
[그림 Ⅱ-14] 수어 주석 도구 화면 58
[그림 Ⅱ-15] 수어 토큰 글로스 기준 59
[그림 Ⅱ-16] 비우세 주석과 문장 흐름 60
[그림 Ⅱ-17] 영상 단위 병렬 말뭉치 데이터 구조 61
[그림 Ⅱ-18] 데이터 백업 관리 프로세스 65
[그림 Ⅱ-19] 수어 토큰 길이 설정 71
[그림 Ⅱ-20] 수어 토큰 글로스 기준 71
[그림 Ⅱ-21] 양손 주석 예시 72
[그림 Ⅱ-22] 문장 흐름에 따른 양손주석 72
[그림 Ⅱ-23] 비우세 토큰 주석 예시 72
[그림 Ⅱ-24] 수어저작도구 권한 77
[그림 Ⅱ-25] 품질 요구 사항 충족 여부 79
[그림 Ⅱ-26] 품질 목표 충족 여부 80
[그림 Ⅱ-27] 준비성(계획수립성) 체크리스트 1 81
[그림 Ⅱ-28] 준비성(계획수립성) 체크리스트 2 82
[그림 Ⅱ-29] 준비성(체계 준수성) 체크리스트 1 83
[그림 Ⅱ-30] 준비성(체계 준수성) 체크리스트 2 84
[그림 Ⅱ-31] 완전성(수집 완전성) 체크리스트 84
[그림 Ⅱ-32] 완전성(정제 완전성) 체크리스트 85
[그림 Ⅱ-33] 완전성(가공 완전성) 체크리스트 85
[그림 Ⅱ-34] 기준 적합성 체크리스트 1 86
[그림 Ⅱ-35] 기준 적합성 체크리스트 2 87
[그림 Ⅱ-36] 보안 관리 전략 91
[그림 Ⅱ-37] 저작권 이용 동의서 샘플 92
[그림 Ⅱ-38] 보안 점검 사항 체크리스트 94
[그림 Ⅲ-1] 농인 및 청각장애인이 가지는 기대 효과 97