초록

본 논문은 딥러닝 기반의 강화학습 알고리즘인 Double Deep Q-Network(DDQN) 을 활용해 타임슬롯 환경에서의 네트워크 스케줄링을 수행하였다. 딥러닝은 음성, 영상, 자연어처리 분야에 탁월한 성능을 보여 주는 분야로, 꾸준한 연구가 이루어지고 있는 반면에, 네트워크 문제에 적용한 연구는 아직 초기 단계에 있다. 특히 강화학습은 동적인 네트워크 환경에 적응할 수 있다는 점에서 각광받고 있다. 강화학습 분야 또한 딥러닝을 활용한 모델이 발표된 이후 꾸준히 발전해오고 있다. 기존의 네트워크 스케줄링은 간단한 알고리즘을 사용하고 있지만, 점점 복잡해지고 다양해지는 네트워크 플로우들의 요구사항에 걸맞는 스케줄링의 필요성이 증가하고 있다. DDQN 에이전트를 학습하기 위한 reward 함수는 estimated end-to-end delay(ET)와 패킷의 deadline의 차이와 패킷의 우선순위에 따라 설정하였다. 학습 결과, 연구에서 제안한 DDQN 기반 스케줄링은 비교를 위한 기존 알고리즘인 Strict priority (SP)와, Weighted Round-Robin(WRR) 보다 많은 패킷들을 deadline 안에 전송하는 것으로 확인되었다. 제안하는 DDQN 스케줄링의 확장성과, 실제 IoT 디바이스 적용 가능성을 확인하기 위해 end-to-end delay를 알 수 있는 학습 환경 보다 확장된 네트워크 토폴로지에서의 실험을 진행하였을 뿐 아니라, 딥러닝 연산으로 인한 추론시간을 단축할 수 있는 방법 또한 탐색하였다. DDQN 기반 스케줄링을 사용함으로서 향후 네트워크에서 강화학습이 기존 알고리즘을 대체할 가능성을 입증하였다.