권호기사보기
기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
---|
대표형(전거형, Authority) | 생물정보 | 이형(異形, Variant) | 소속 | 직위 | 직업 | 활동분야 | 주기 | 서지 | |
---|---|---|---|---|---|---|---|---|---|
연구/단체명을 입력해주세요. |
|
|
|
|
|
* 주제를 선택하시면 검색 상세로 이동합니다.
표제지
목차
국문 초록 14
제1장 서론 17
1.1. 연구 목적 및 필요성 17
1.2. 선행연구 검토 24
1.2.1. 법언어학에 관한 연구 24
1.2.2. 법률번역에 관한 연구 30
1.2.3. 법률 도메인 특화 기계번역에 관한 연구 33
1.3. 연구대상 및 연구방법 39
1) 민법전 코퍼스 구축 41
2) 범용 기계번역의 민법전 중한 번역에 대한 품질 분석 42
3) 전이학습 및 법률 도메인 특화 전후 번역 품질 비교 43
1.4. 논의의 구성 44
제2장 이론적 배경 고찰 46
2.1. 법언어학 관점의 고찰 47
2.1.1. 법언어학과 법률 언어 47
2.1.2. 법률 언어의 사용 원칙 50
2.1.3. 법률 언어의 특징 55
2.2. 번역학적 관점의 고찰 59
2.2.1. 등가 이론과 법률 텍스트 번역 59
2.2.2. 텍스트 유형과 법률 텍스트 번역 64
2.3. 기계번역 관점의 고찰 70
2.3.1. 신경망 기계번역과 트랜스포머 모델 71
2.3.2. 전이학습과 법률 도메인 특화 76
2.4. 번역 품질 평가 관점의 고찰 79
2.4.1. 번역 품질 평가와 법률 텍스트 번역 80
2.4.2. 기계번역의 번역 품질 평가 84
제3장 법률 텍스트의 코퍼스 구축과 언어적 특징 분석 89
3.1. 민법전 코퍼스 구축 90
3.1.1. 민법전 코퍼스 구축 절차 및 분석 도구 90
3.1.2. 텍스트 수집과 전처리 91
3.1.3. 1차, 2차 어휘 추출 92
3.2. 민법전에 대한 기초 통계 93
3.2.1. 조문별 통계 97
3.2.2. 문장별 통계 97
3.3. 민법전의 언어적 특징 분석 99
3.3.1. 어휘 사용 빈도 99
3.3.2. 법률 전문용어 추출 106
3.3.3. 정형 표현 114
3.3.4. '的'구문 123
3.4. 소결 132
제4장 법률 텍스트의 범용 기계번역 오류 분석과 포스트에디팅 134
4.1. 범용 기계번역의 귀납적 오류 분석 135
4.1.1. 귀납적 오류 분석의 필요성 135
4.1.2. 오류 분석 절차 136
4.1.3. 오류 유형의 귀납 기준 139
4.2. 범용 기계번역의 민법전 중한 번역 오류 항목 분석 140
4.2.1. 오류 항목 통계 140
4.2.2. 오류 항목 상세 분석 142
4.3. 포스트에디팅을 통한 미세조정용 데이터 구축 164
4.3.1. 민법전 포스트에디팅 164
4.3.2. 미세조정용 데이터 구축 168
4.4. 소결 173
제5장 법률 도메인 특화 기계번역 모델 구축 및 품질 분석 175
5.1. '민법 도메인 특화 모델' 구축 176
5.2. '민법 도메인 특화 모델'의 번역 품질 분석 182
5.2.1. 번역 품질 분석 과정 182
5.2.2. 번역 품질 자동평가 결과 186
5.2.3. 수동 품질 분석 결과 187
5.3. '민법 도메인 특화 모델'의 개선도 분석 198
5.3.1. 어휘 층위의 정확성 개선도 199
5.3.2. 통사 층위의 정확성 개선도 202
5.3.3. 텍스트 층위의 정확성 개선도 208
5.4. 소결 210
제6장 결론 212
참고문헌 217
中文摘要 229
부록 231
[부록 1] 전문용어 상위 100개 231
[부록 2] 미세조정 데이터 100개 (민법전 제1조~제100조) 234
[부록 3] 테스트 문장과 정답 문장 100개 258
[부록 4] '민법 도메인 특화 모델' 번역 테스트 결과 100개 270
〈그림 1〉 AntConc의 4-gram 추출 예시 41
〈그림 2〉 파파고의 민법전 중한 번역 예시 42
〈그림 3〉 오트란 법률 모델의 테스트 문장 번역 44
〈그림 4〉 본고의 연구방법 및 절차 45
〈그림 5〉 언어학과 법언어학의 관계 48
〈그림 6〉 인코더-디코더 구조 72
〈그림 7〉 RNN 순환구조 73
〈그림 8〉 구글 신경망 기계번역 구조 74
〈그림 9〉 트랜스포머 아키텍처와 어텐션 구조 75
〈그림 10〉 전이학습 과정 77
〈그림 11〉 민법전 미세조정용 DB를 활용한 전이학습 78
〈그림 12〉 J.House(1997)가 제안한 원문과 번역문 분석 및 비교 체제 83
〈그림 13〉 민법전 코퍼스 구축 절차 91
〈그림 14〉 본고의 법률 어휘의 분류 109
〈그림 15〉 AntConc를 활용한 민법전의 키워드 추출 112
〈그림 16〉 민법전 N-gram type 누적 증가 그래프 116
〈그림 17〉 3-gram 표현 문형 '之 日 起' 예시 120
〈그림 18〉 파파고의 민법전 중한 번역 오류 분석 및 수정 과정 138
〈그림 19〉 파파고 민법전 번역의 어휘 층위 오류 항목과 출현 빈도 142
〈그림 20〉 파파고 민법전 번역의 통사 층위 오류 항목과 출현 빈도 149
〈그림 21〉 프레이즈(Phrase)를 활용한 민법전 MTPE 예시 167
〈그림 22〉 미세조정을 통한 '민법 도메인 특화 모델' 구축 프로세스 179
〈그림 23〉 '민법 도메인 특화 모델' 구축 결과 181
〈그림 24〉 언어 모델별 번역 품질 테스트 및 품질 비교 183
〈그림 25〉 파파고(범용I)의 테스트 문장 번역 결과 184
〈그림 26〉 오트란 일반 모델(범용II)의 테스트 문장 번역 결과 184
〈그림 27〉 오트란 법률 모델(특화I)의 테스트 문장 번역 결과 185
〈그림 28〉 언어 모델별 번역 품질 정확도 188
〈그림 29〉 언어 모델별 어휘 층위 번역 정확도 199
〈그림 30〉 민법 도메인 특화 모델의 어휘 층위 번역 품질 개선도 200
〈그림 31〉 언어 모델별 통사 층위 번역 정확도 202
〈그림 32〉 민법 도메인 특화 모델의 통사 층위 번역 품질 개선도 203
본 논문의 목적은 법률 도메인 특화 기계번역 모델(본 연구의 '민법 도메인 특화 모델')을 구축해 범용 기계번역과 번역 품질을 비교함으로써 법률 도메인 특화 기계번역 모델의 번역 품질 개선도와 도메인 특화의 효과를 밝히는 것이다. 이를 위해 다음과 같은 분석을 실시하였다.
첫째, 법률 도메인 특화 기계번역이 갖는 다양한 특성에 따라 법언어학, 번역학, 기계번역의 다각적인 관점에서 본 연구를 위한 이론적 토대를 고찰하였다. 법언어학 관점에서 법률 언어는 정확성, 모호성, 정밀성, 명료성 등의 언어 사용상의 원칙 및 특징을 가지며 일상 언어와의 차이를 보인다. 번역학적 관점에서는 법률 텍스트의 텍스트 유형은 정보적 텍스트에 속하며, 번역 시에 그에 부합하는 언어 사용역(register)을 고려해야 한다. 기계번역 관점에서 도메인 특화는 특정 도메인 지식을 전이학습(transfer learning)함으로써 이루어진다. 본고는 중국 민법전의 중한 번역 쌍 데이터의 미세조정(fine tuning)을 통해 전이학습을 실시하였다.
둘째, 중국 민법전을 중심으로 법률 텍스트가 가지는 언어적 특징을 분석하였다. 분석 내용은 어휘 사용 빈도, 법률 전문용어 추출, 정형 표현, '的'구문이다.
먼저 민법전에서 최고빈도 어휘는 '的'(4,047회)였으며, 이 밖에도 '应当'(748회), '可以'(478회), '不得'(195회) 등 양태동사(情态动词)와 '或者'(1,026회), '等'(252회), '其他'(240회) 등 모호성을 나타내는 어휘의 사용 빈도가 높게 나타났다. 법률 전문용어 추출에서 관찰 코퍼스(민법전)와 참조 코퍼스(ToRCH 2019의 일반 텍스트)를 비교한 결과, 민법전에 사용된 명사의 52%(252개 어휘)가 일반 텍스트에서 한 번도 사용되지 않았다. 이를 통해 어휘가 특정 도메인의 특징을 가장 확실하게 드러내는 요소임을 확인하였고, 참조 코퍼스에서 출현 빈도가 낮은 어휘일수록 법률 전문용어로 사용될 가능성이 높았다.
민법전의 정형 표현은 N-gram을 통해 분석하였다. 정형 표현에서 2-gram은 '명사+명사' 조합 형태의 자유 결합, 3-gram은 공기나 결합 관계에서 제약성이 강한 연어(collocation), 4-gram은 덩어리(chunk) 형태의 표현 문형의 비중이 높게 나타났다. 5-gram, 6-gram은 자유 결합이 거의 나타나지 않고 표현 문형이 절대적으로 높은 비중을 보였다. '的'구문은 중국어 법률 텍스트에서만 사용되는 독특한 요소로 민법전에서 출현 빈도가 1,201회에 달했다. '的'구문을 지칭(자기지칭, 전환지칭) 또는 조건 관계의 표지로 보는 여러 관점이 존재하는데, 자기지칭과 전환지칭(주어, 목적어)으로 사용된 '的'구문을 생략하거나 해당 문장성분으로 '환원'해도 가정의 의미가 유지되기 때문에 법률 텍스트에서 '的'구문을 모두 '조건' 의미로 번역해도 무방함을 확인하였다.
넷째, '진단'의 측면에서 범용 기계번역(파파고)의 민법전 중한 번역에서 나타나는 오류 항목을 고찰하였다. 이를 위해 귀납적 분석 방식으로 중한 법률 도메인 특화 기계번역의 구현 과정에서 '소거'해야 할 주요한 오류 항목과 그 문제점을 상세하게 기술하였다. 세부 오류 항목의 분석 결과, 법률 어휘와 전문용어의 부정확한 사용이 가장 시급하게 해결해야 할 오류로 나타났다.
다섯째, 전이학습(transfer learning)의 일환인 미세조정(fine tuning)을 통해 실제로 법률 도메인 특화를 실시하였다. 미세조정용 데이터는 제4장에서 파파고의 민법전 번역 결과물에 대해 풀 포스트에디팅(F-MTPE)을 실시해 구축하였고, 해당 데이터 2,500개 문장으로 미세조정함으로써 '민법 도메인 특화 모델'을 구축하였다. '민법 도메인 특화 모델'의 번역 품질 개선도를 검증하기 위해 테스트를 실시하고 정량분석(BLEU Score)과 정성분석(수동 번역 품질 분석)을 진행하였다. BLEU Score 측정 결과, '민법 도메인 특화 모델'은 71.67점으로 가장 높은 점수를 보였으며 이를 통해 도메인 특화 모델의 번역 품질이 매우 우수하다는 사실을 확인했다. 수동 번역 품질 분석 결과, '민법 도메인 특화 모델'은 도치, 정형 표현, '的'구문 항목에서 100% 개선되는 결과를 보였다. 특히, 법률 텍스트의 '的'구문을 '조건' 의미로 번역하기 위한 데이터 가공의 의도가 고스란히 반영되어 '민법 도메인 특화 모델'에서 해당 오류 빈도가 0회로 나타나면서 도메인 특화의 효과, 중요성, 필요성을 보여주는 강력한 증거를 제공하였다.
이상의 논의를 종합해 보면, 본 논문은 중국 민법전을 중심으로 한 법률 도메인의 언어적인 특징 분석, 기존에 발생했던 오류 분석, 미세조정용 DB 구축, 그리고 미세조정에 이르는 일련의 과정을 통해 법률 도메인 특화 모델의 구현과 방법을 실제로 보여주었다. 나아가 법률 도메인 특화를 언어학적 분석에 머무르지 않고 공학 전문가와의 협업과 테스트를 통해 법률 도메인 특화 모델의 번역 품질 개선도를 보여주었다. 그 결과 본 논문의 목적인 법률 도메인 특화 기계번역 모델의 번역 품질 개선과 도메인 특화의 효과를 명확하게 밝혔다.*표시는 필수 입력사항입니다.
*전화번호 | ※ '-' 없이 휴대폰번호를 입력하세요 |
---|
기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
---|
번호 | 발행일자 | 권호명 | 제본정보 | 자료실 | 원문 | 신청 페이지 |
---|
도서위치안내: / 서가번호:
우편복사 목록담기를 완료하였습니다.
*표시는 필수 입력사항입니다.
저장 되었습니다.