초록

시스템 운영자가 인프라 이상 징후를 탐지하는 방법은 과거 심각 메시지를 그대로 탐지하는 RuleBase 방식과 운영체제(OS)에서 자체적으로 분류된 우선순위(Priority) 등급을 활용한 분류 방식 두 가지가 있다. 전자의 방법은 기존 학습된 심각 메시지에 대한 탐지율은 높지만 새로운 패턴의 심각 메시지는 탐지하지 못하고, 후자의 경우 새로운 로그에 대한 분류가 자동으로 이뤄지지만 초기 운영체제(OS)가 분류한 장애 메시지와 실제 업무에서 판단하는 장애 메시지와의 편차가 존재하여 오탐이 빈번히 발생하는 문제가 있다. 이러한 기존 이상 징후 알고리즘의 문제점들을 해결하기 위해 본 연구에서는 인공지능 모델을 활용한 인프라 이상 징후 탐지에 대한 접근법을 제안한다.

본 연구에서는 실제 OS 시스템의 상태를 기록하는 시스템 로그를 수집하여 인공지능 학습 모델에 적용할 수 있도록 데이터화 하고, 시스템 운영자의 도메인 지식으로 심각도를 새롭게 정의 하였다. 그리고 RNN, LSTM, CNN과 같은 다양한 인공지능 모델을 학습하여 유사 장애 패턴을 분류하였다. 각각의 인공지능 모델 성능을 비교한 결과, CNN을 기반으로한 모델이 F1-score 성능지표 기준 97%로 가장 우수한 성능을 보여 주었다. 해당 연구는 데이터센터의 시스템 인프라 운영차원에서 실무환경에 맞는 탐지 모델을 구현할 수 있게 함으로써, 관련 분야에서 학술 및 상업적으로 기여할 것이라 기대 된다.