표제지
목차
국문초록 8
ABSTRACT 10
제1장 서론 12
1.1. 연구 배경 및 목적 12
1.2. 연구 방법 및 범위 13
1.3. 논문의 구성 13
제2장 관련 연구 14
2.1. A/B테스트 14
2.2. MAB 문제 15
2.2.1. ε-greedy 알고리즘 16
2.2.2. Softmax 알고리즘 18
2.2.3. UCB 알고리즘 19
2.3. 베이지안 확률론 21
제3장 베이지안 확률론을 이용한 Softmax/UCB 알고리즘 23
3.1. 베이지안 확률론을 이용한 Softmax/UCB 알고리즘 23
제4장 Softmax/UCB와 UCB 알고리즘의 비교 28
4.1. 실험 환경 28
4.2. 실험 변수 설정 28
4.3. 실험 결과 29
제5장 결론 34
참고문헌 36
[표 3-1] Softmax/UCB 알고리즘의 arm 선출 예시 26
[표 4-1] 실험 환경 28
[표 4-2] 실험 변수 설정 29
[표 4-2] 실험 변수에 따른 평균 보상 획득률과 적중률 32
[그림 2-1] ε값과 시간에 따른 ε-greedy 알고리즘의... 17
[그림 2-2] τ값 별 Softmax 알고리즘이... 19
[그림 2-3] ε-greedy, Softmax, UCB 알고리즘의... 21
[그림 3-1] Softmax 알고리즘의 온도 설정, arm 선택을 위한 코드 24
[그림 3-2] arm의 개수에 따른 온도 변수 변화수준 24
[그림 3-3] 베이즈 정리를 이용한 arm 선출 과정 코드 25
[그림 3-4] Softmax/UCB 알고리즘 흐름도 27
[그림 4-1] UCB 알고리즘 실행 결과 그래프 30
[그림 4-2] Softmax/UCB 실행 결과 그래프 31