이상 탐지(anomaly detection)는 학습된 데이터의 패턴에서 벗어나는 데이터를 탐지하는 것이다. 이상 데이터는 정상 데이터에 비해 발생 확률과 빈도가 낮지만 위험도가 높기 때문에 예측하여 피해를 최소화하는 것이 중요하다.
이상 탐지 기법 중 하나인 오토인코더는 레이블이 있는 데이터의 정상 데이터를 통해 정상 데이터의 특징을 학습하고, 학습된 특징에서 벗어나는 데이터를 이상 데이터로 판별한다. 그러나 이와 같은 학습 방법은 정상 데이터의 다양한 특징이 충분히 학습되지 않는다면 이상 데이터를 판별하지 못한다. 이상 탐지를 위해 다량의 정상 데이터가 필요하지만 레이블이 있는 데이터는 다량으로 확보하는데 어려움이 있다.
따라서 본 논문은 다량 확보가 어려운 레이블이 있는 데이터에 의존하여 학습하는 기존의 오토인코더 이상 탐지 기법 대비 레이블이 있는 데이터에 대한 의존성을 낮추면서 이상 탐지 성능을 향상시키는 기법을 제안한다. 제안 기법은 Meta Pseudo Label을 활용하여 오토인코더의 이상 탐지 성능을 향상시킨다. Meta Pseudo Label은 선생 모델과 학생 모델로 구성되어 있으며, 선생 모델은 학습 데이터를 전달하고, 학생 모델은 피드백을 전달하여 서로 상호작용하며 학습한다.
제안된 Meta Pseudo Label의 선생 모델은 학습 데이터와 같은 클래스의 검증 데이터를 활용하여 임계값을 설정하고, 임계값에 따라 레이블이 없는 데이터의 재구성 손실값을 판별하여 하드 수도 레이블을 생성한다. 하드 수도 레이블 중 정상 클래스의 데이터만 선별하여 학습 데이터로 만들고, 학생 모델은 정상으로 예측되어 선별된 레이블이 없는 데이터로 학습한다. 학생 모델은 레이블이 있는 데이터에 대한 성능을 선생 모델에 피드백으로 전달하여 선생 모델이 더 나은 학습 데이터를 선별하도록 한다. 학생 모델은 개선되는 학습 데이터를 통해 성능이 향상된다.
두 개의 실제 데이터를 활용하여 실험한 결과, 제안 기법의 오토인코더가 레이블이 없는 데이터를 효과적으로 활용하여 기존의 오토인코더 대비 레이블이 있는 데이터에 대한 의존성을 낮췄으며, 이상 탐지 성능을 향상시키는 것을 확인하였다.