목차

표제지

목차

국문초록 8

ABSTRACT 9

제1장 서론 10

1.1. 연구 배경 및 목적 10

1.2. 연구의 방법과 범위 11

1.3. 논문의 구성 12

제2장 관련연구 13

2.1. 강화 학습 13

2.1.1. Markov Decision Process 13

2.1.2. Q-Learning 15

2.1.3. Deep Q-Networks 16

2.1.4. Policy Gradient 18

2.1.5. Gym 20

2.2. 인공 신경망 21

2.2.1. Multi Layered Perceptron 22

2.2.2. Back Propagation 23

2.2.3. Convolutional Neural Networks 24

2.2.4. TensorFlow 25

제3장 강화 학습 알고리즘 적용 26

3.1. 인공 신경망 설계 26

3.1.1. 학습 환경 26

3.1.2. 데이터 전처리 27

3.1.3. 네트워크 구성 28

3.2. 학습 프로세스 30

3.2.1. DQN을 이용한 학습 30

3.2.2. PG를 이용한 학습 32

3.2.3. Optimizer 34

제4장 실험 및 결과 분석 35

4.1. 실험 환경 35

4.2. 학습 성능 및 결과 분석 35

4.2.1. CNN 학습 결과 35

4.2.2. Agent 학습 결과 38

제5장 결론 43

참고문헌 45

[표 2-1] DQN 특징 17

[표 3-1] DQN 학습의 Parameters 설정 31

[표 3-2] PG 학습 Parameters 설정 33

[표 4-1] 실험 환경 구성 35

[표 4-2] DQN Batch 크기에 따른 Step 진행 속도 40

[표 4-3] 학습 알고리즘에 따른 Step 단위 평균 학습 속도 42

[그림 2-1] Markov Decision Process 14

[그림 2-2] 인공 뉴런 정보처리 구조 21

[그림 2-3] Multi Layered Perceptron 구조 22

[그림 2-4] CNN 구조 24

[그림 3-1] 학습 데이터 전처리 27

[그림 3-2] Agent의 인공 신경망 구성도 29

[그림 3-3] DQN을 이용한 학습 구조 30

[그림 3-4] PG를 이용한 학습 구조 32

[그림 4-1] CNN Activation Maps 36

[그림 4-2] CNN기반 학습과 이미지 대조 기반 학습의 성능 비교 37

[그림 4-3] DQN 학습 성능 그래프 39

[그림 4-4] PG 학습 성능 그래프 41