핀테크 기술이 발전함에 따라 편리함도 커졌지만, 보안상의 취약점을 노린 금융사기도 급증하였다. 이에 따라 이상 금융거래 탐지시스템(Fraud Detection System, FDS)이 주목받고 있다. FDS는 실시간으로 거래되는 금융 데이터를 탐지해야 한다는 특징이 있지만 이러한 실시간 거래 데이터는 레이블링이 되어있지 않은 한계가 있다. 이뿐만 아니라 대부분의 FDS는 정상 데이터와 이상 데이터로 구성된 이진 분류 모델로서 데이터 불균형 문제도 가지고 있다. 기계학습 또는 딥러닝 알고리즘의 성능은 데이터 세트의 클래스 비율에 따라 달라지기 때문에 데이터 불균형은 알고리즘 성능 저하를 일으킨다.
본 연구에서는 데이터 레이블링 문제를 해결하기 위하여 자기지도학습 기반의 LSTM Autoencoder와 TabNet 모델을 사용하였다. 또한, 데이터 불균형으로 인한 모델의 성능 저하 문제를 해소하기 위하여 Conditional tabular GAN을 활용하였고 이상 데이터의 비율을 전체데이터의 0.3%와 0.7%로 각각 리샘플링 하여 비교 실험을 진행하였다. 또한, 컴퓨팅 자원을 절약하는 방법으로 설명 가능한 AI(eXplainable Artificial Intelligence, XAI) 기법을 사용하여 주요 변수를 추출하였으며 변수 선택 과정을 거친 모델이 기존 모델보다 더 나은 성능이 보임을 확인하였다.
특히 본 논문에서는 교묘하게 변화하는 사기 수법의 패턴을 반영하여 이상 데이터를 탐지하기 위해 최신 데이터에 가중치를 부여하는 실험을 하였다. 이 실험은 모델의 파라미터에 변화를 주는 방식으로 진행하였고 그 결과 XAI를 활용한 자기지도학습 기반의 제안기법이 FDS 모델의 성능 개선에 영향을 보이는 것을 증명하였다.