목차

표제지

목차

국문초록 8

ABSTRACT 10

제1장 서론 12

1.1. 연구 배경 및 목적 12

1.2. 연구 방법 및 범위 13

1.3. 논문의 구성 13

제2장 관련 연구 14

2.1. A/B테스트 14

2.2. MAB 문제 15

2.2.1. ε-greedy 알고리즘 16

2.2.2. Softmax 알고리즘 18

2.2.3. UCB 알고리즘 19

2.3. 베이지안 확률론 21

제3장 베이지안 확률론을 이용한 Softmax/UCB 알고리즘 23

3.1. 베이지안 확률론을 이용한 Softmax/UCB 알고리즘 23

제4장 Softmax/UCB와 UCB 알고리즘의 비교 28

4.1. 실험 환경 28

4.2. 실험 변수 설정 28

4.3. 실험 결과 29

제5장 결론 34

참고문헌 36

[표 3-1] Softmax/UCB 알고리즘의 arm 선출 예시 26

[표 4-1] 실험 환경 28

[표 4-2] 실험 변수 설정 29

[표 4-2] 실험 변수에 따른 평균 보상 획득률과 적중률 32

[그림 2-1] ε값과 시간에 따른 ε-greedy 알고리즘의... 17

[그림 2-2] τ값 별 Softmax 알고리즘이... 19

[그림 2-3] ε-greedy, Softmax, UCB 알고리즘의... 21

[그림 3-1] Softmax 알고리즘의 온도 설정, arm 선택을 위한 코드 24

[그림 3-2] arm의 개수에 따른 온도 변수 변화수준 24

[그림 3-3] 베이즈 정리를 이용한 arm 선출 과정 코드 25

[그림 3-4] Softmax/UCB 알고리즘 흐름도 27

[그림 4-1] UCB 알고리즘 실행 결과 그래프 30

[그림 4-2] Softmax/UCB 실행 결과 그래프 31