최근 클라우드 시스템은 IT 인프라의 핵심 구성 요소로 자리잡았다. 클라우드 시스템에서 중요한 역할을 하는 성능 메트릭 데이터는 주로 시계열 형태로 수집되며 이를 통해 실시간으로 시스템의 성능과 상태를 모니터링하고 잠재적 장애를 예측하는 것이 필수적이다. 하지만 기존 클라우드 모니터링 툴은 문제가 발생 후 대응하는 사후 대처의 성격을 지닌다는 한계가 있다. 이는 시스템 장애가 이미 발생한 이후에야 문제를 탐지하고 대처하기 때문에 클라우드 기반 서비스에서 안정성과 연속성에 큰 문제를 일으킬 수 있다. 때문에 잠재적인 장애를 예측하기 위한 다양한 연구가 시도되었지만 고전적인 통계 기반 방법론은 가장 최근 데이터로부터 고정된 요인들만 회귀 예측을 하거나 정상성을 제대로 판단하기에 정확하지 않다는 문제점이 있다. 따라서 본 논문은 기존 한계를 극복한 시스템 장애를 예측하는 기법을 제안한다. 제안 기법은 시계열 예측 모델과 이상치 탐지 모델을 결합한 방법론으로 실험을 통해 다양한 알고리즘을 활용하여 데이터의 복잡한 패턴을 학습하고 예측의 정확도를 높인다. 본 논문에서는 다변량 시계열 데이터의 예측과 이상치 탐지를 위해 RNN, LSTM, GRU, Transformer 등의 딥러닝 모델을 적용하고 입력 및 출력 파라미터의 조정을 통해 다양한 시나리오에서 예측의 정확도를 평가한다. 또한, 예측 모델 결과물에 대해 RRCF 알고리즘을 통해 시스템 장애를 유발하는 이상치를 탐지하여 장애 예측을 구현한다. 본 논문은 구현된 장애 예측 모델의 성능을 NAB 데이터셋을 활용하여 실험적으로 평가한다. 이를 통해 제안된 기법의 실질적인 효과와 적용 가능성을 검증하고 클라우드 시스템의 장애 예측 및 관리에 기여할 수 있는 방안을 제시한다.