강화학습(Reinforcement Learning, RL) 기반 파드 오토스케일링은 강화학습을 통해 컨테이너 배포 단위인 파드 기반의 컴퓨팅 자원을 동적으로 조절하여 시스템의 성능을 최적화하는 자동화된 프로세스를 의미한다. 강화학습은 학습의 주체인 에이전트가 환경을 관찰하고 상호작용하여 행동을 취하여 보상 또는 페널티를 얻으며 학습한다. 지속적으로 학습하는 강화학습의 특성을 이용하여 환경 변화에 적응적인 오토스케일링 정책을 탐색하는 것이 가능하다.
본 논문에서는 오토스케일링 정책이 실제 환경에서 적합한지 평가하는 시간과 학습 시간을 줄일 수 있는 강화학습 기반 파드 오토스케일링 기법을 제안한다. 강화학습을 사용하기 위한 시뮬레이션 환경 및 강화학습모델의 구성요소를 정의 및 설계하고 강화학습을 통해 적절한 오토스케일링 정책 구성을 예측하여 적절한 시간에 스케일링이 가능하도록 한다. 실험은 두 가지 실험으로 진행하며, 강화학습에서 많이 사용되는 Q-Learning과 SARSA 알고리즘을 사용하여 오토스케일링 대기 시간에 따른 성능 비교를 수행하고, 행동 공간을 고정시켜 성능을 비교한다. 첫번째 실험은 파드 오토스케일링 정책을 찾아내기 위해 소모되는 시간을 계산하고 찾아낸 오토스케일링 정책의 성능을 평가한다. 첫 번째 실험에서는 Q-Learning을 사용한 경우가 SARSA를 사용한 경우보다 총 시간이 평균적으로 약 10.2% 적게 발생하며 더 좋은 성능을 보임을 확인하였다. 첫 번째 실험에서 좋은 성능을 보였던 Q-Learning 기반 오토스케일링에 적용하여 행동 공간을 고정시켜 3-action과 5-action 방식으로 두 번째 성능 평가를 진행한 결과, 3-action을 사용할 경우가 기본적인 행동 공간을 사용할 경우와 비교해서 평균 12.4%의 시간을 줄일 수 있었으며, 5-action을 사용할 때는 평균 8.1%의 시간을 줄일 수 있음을 확인하였다. 시간 비용 비율이 10보다 작으면 3-action, 5-action은 비슷한 성능을 보였지만, 시간 비용 비율이 10일 경우에는 5-action이 급격한 워크로드 변화에 더 적은 시간을 소모하는 것을 확인하였다.