표제지
목차
국문요약 8
1. 서론 10
2. 선행 연구 15
2.1. 강화학습 17
3. 시스템 모델링 21
3.1. 실험 환경 21
3.2. DDQN의 적용 24
(1) State 26
(2) Action 27
(3) Reward 27
4. 성능 평가 28
4.1. 기존 알고리즘 소개 32
4.2. DDQN 학습 결과 32
4.3. single node에서의 시뮬레이션 35
4.4. network topology에서의 시뮬레이션 39
4.5. 추론 시간 단축을 위한 전략 47
5. 결론 50
참고문헌 52
ABSTRACT 55
〈표 1〉 SP알고리즘에서 각 priority의 deadline을 만족할 확률 24
〈표 2〉 DQN의 MDP요소 정의에서 사용된 기호 26
〈표 3〉 모델을 학습시키는데 사용한 네트워크 parameter값 30
〈표 4〉 모델을 학습시키는데 사용한 DDQN parameter값 30
〈표 5〉 single node simulation에서 WRR의 weight에 따른 결과 39
〈표 6〉 topology에서 전송되는 flow 41
〈표 7〉 각 시나리오의 parameter 42
〈표 8〉 topology의 S4에서 다른 가중치에 따른 WRR 결과 45
〈표 9〉 topology의 S5에서 다른 가중치에 따른 WRR 결과 45
〈표 10〉 각 시나리오에서 Table look-up과 DDQN 시뮬레이션의 추론시간 비교 49
[그림 1] DDQN의 구조 20
[그림 2] 연구에서 제안하는 시뮬레이션의 전체적인 구조 21
[그림 3] DDQN 학습에 사용한 single node 구조 24
[그림 4] Q-network와 target-network의 구조 31
[그림 5] 학습 환경에서의 episode에 따른 score를 나타낸 학습 곡선 34
[그림 6] 10000 episode 이후 학습 곡선 34
[그림 7] Q-network의 loss 그래프 35
[그림 8] DDQN과 기존 알고리즘들의 10회 시뮬레이션에 따른 score 37
[그림 9] 학습 환경에서 DDQN과 알고리즘들의 ET에 따른 패킷수 38
[그림 10] 평가 시뮬레이션에서 활용한 topology 41
[그림 11] 각 시나리오에서 알고리즘별로 deadline내에 도착할 확률 43
[그림 12] 각 시나리오에서 알고리즘별로 deadline내에 priority 1 패킷이 도착할 확률 43
[그림 13] 각 시나리오에서 알고리즘별로 deadline내에 priority 2 패킷이 도착할 확률 44
[그림 14] topology 환경에서 DDQN과 알고리즘들의 E2E에 따른 패킷 수 47