표제지
목차
논문요약 11
제1장 서론 12
1. 연구의 배경 12
2. 연구의 필요성 13
3. 연구의 목표 및 구성 13
제2장 관련 연구 14
1. Transformer 14
2. 사전학습 언어모델 15
1) GPT 15
2) BERT 16
3) BART 17
3. 법률 데이터를 사용한 번역 모델 18
4. 기계번역 20
제3장 데이터 구축 및 실험 21
1. 데이터 수집 및 전처리 21
1) AI-Hub 데이터 수집 21
2) 국가법령정보 공동 활용 사이트에서 제공하는 법령 데이터 수집 21
3) 데이터 전처리 23
2. Transformer 모델 학습 26
3. KoBART 모델 학습 28
4. 실험 환경 29
5. 결과 데이터 후처리 30
제4장 성능평가 31
1. 성능평가 방법 31
2. Transformer 모델 평가 32
3. KoBART 모델 평가 33
4. 전/후처리 적용 결과 비교 34
5. 다른 기계번역 모델과 비교 35
제5장 결론 39
1) 요약 39
2) 선행연구와의 차이점 39
3) 향후 과제 40
참고문헌 41
부록 45
〈부록 1〉 데이터 크롤링 소스 코드 45
〈부록 2〉 데이터 전처리 소스 코드 47
〈부록 3〉 번역 결과 후처리 소스 코드 49
〈부록 4〉 소스 Github 및 사용 방법 51
〈부록 5〉 학습 데이터셋 52
ABSTRACT 53
[표 1] 조문 체계 22
[표 2] 수집된 법령의 비율 23
[표 3] 법 종류별 구축 문장 수 25
[표 4] 구축된 데이터셋의 길이 25
[표 5] Transformer 모델 학습 정보 26
[표 6] SentencePiece BPE 토크나이저를 사용한 데이터셋의 길이 27
[표 7] KoBART 모델 학습 정보 28
[표 8] KoBART 토크나이저를 사용한 데이터셋의 길이 28
[표 9] 잘못된 번역 결과에 대한 후처리 후 결과 30
[표 10] 전/후처리에 따른 샘플 문장 BLEU 스코어 비교 34
[표 11] 전/후처리에 따른 평균 BLEU 점수 35
[표 12] KoBART 모델에서의 전/후처리에 따른 번역문 예제 35
[표 13] 기계번역 모델별 BLEU 점수 36
[표 14] 샘플 문장별 BLEU 점수 비교 36
[그림 1] BART 모델 구조 18
[그림 2] 한국어 법령과 영어 법령의 데이터 구조 22
[그림 3] 데이터셋 길이 분포도 26
[그림 4] SentencePiece BPE 토크나이저를 사용한 데이터셋 길이 분포도 27
[그림 5] KoBART 토크나이저를 사용한 데이터셋 길이 분포도 29
[그림 6] 데이터 수집을 위한 크롤링 주요 소스 코드 47
[그림 7] 데이터 전처리 주요 소스 코드 49
[그림 8] 번역 결과 후처리 주요 소스 코드 50
[그림 9] 데이터 크롤링 화면 51
[그림 10] 데이터 크롤링 결과 화면 51