목차

표제지

목차

ABSTRACT 8

제1장 서론 10

제2장 배경 지식 13

제1절 사전학습된 언어 모델(PLMs) 13

제2절 대규모 언어 모델(LLMs) 15

제3절 강화학습 15

제3장 관련 연구 17

제1절 대규모 언어 모델 관련 연구 17

1. PaLM 17

2. LLaMA 19

3. LLaMa2 20

제2절 Instruction tuning 관련 연구 22

1. Self-Instruct 22

2. Alpaca 23

제3절 Human Alignment 관련 연구 24

제4장 제안 방법 27

제1절 한국어 데이터 수집 27

제2절 한국어 데이터셋 구축 29

1. StackExchange Dataset 29

2. 네이버 지식인 데이터셋 31

3. 네이버 지식인 데이터셋 증강 33

제3절 Human Alignment 35

1. RLHF(Reinforcement Learning Human Feedback) 36

2. DPO 39

제5장 실험 및 실험결과 42

제1절 실험 환경 및 하이퍼파라미터 42

제2절 실험 결과 및 결과 분석 43

제6장 결론 46

참고문헌 47

국문초록 50

〈표 1〉 PaLM 훈련 데이터셋 19

〈표 2〉 LLaMa 훈련 데이터셋 20

〈표 3〉 LLaMa와 LLaMa2 비교 21

〈표 4〉 GPU 머신의 사양 및 환경 설정 42

〈표 5〉 실험에 사용한 하이퍼파라미터 43

〈표 6〉 제안한 방법에 대한 실험결과 44

〈그림 1-1〉 PLM(ex. BERT)의 구조도 14

〈그림 1-2〉 강화학습 구조도 16

〈그림 2-1〉 멀티 쿼리 어텐션(Multi-Query attention) 구조도 18

〈그림 2-2〉 멀티 쿼리 어텐션(Multi-Query attention) 구조도 21

〈그림 2-3〉 Self-Instruct 구조도 22

〈그림 2-4〉 Alpaca 구조도 23

〈그림 2-5〉 Christiano P.(2017)에서 제안된 구조도 24

〈그림 3-1〉 네이버 지식인 베스트 데이터 예시 28

〈그림 3-2〉 네이버 지식인 베스트 데이터 예시 28

〈그림 3-3〉 StackExchange 데이터 예시 29

〈그림 3-4〉 StackExchange 데이터셋 예시 30

〈그림 3-5〉 네이버 지식인 데이터 예시 31

〈그림 3-6〉 네이버 지식인 데이터 예시 33

〈그림 3-7〉 증강한 네이버 지식인 데이터 예시 34

〈그림 3-8〉 증강한 네이버 지식인 데이터셋 예시 35

〈그림 3-9〉 SFT 구조도 36

〈그림 3-10〉 Reward model 구조도 37

〈그림 3-11〉 RL-Finetuning 구조도 38

〈그림 3-12〉 DPO 구조도 40