인공지능이 주목 받으면서 도입이 되고 있는 많은 분야 중 하나가 금융권이다. 2019년 5월 9일 보도된 기사에 따르면 A은행에서 인공지능 기반의 이상금융거래감지시스템(FDS), 비대면 거래 패턴 분석 시스템을 국내 금융사 최초로 상용화하며 통계기법을 주로 사용하던 금융권의 모델이 변화하고 있음을 보여줬다.
이러한 감지시스템들은 일반적인 거래 중 특이거래를 찾아내야 하고, 금융권뿐만 아니라 의학에서도 암에 걸린 환자의 비율이 정상 환자보다 적지만 암에 걸린 적은 비율의 환자를 명확하게 판단해야 한다는 점에서 불균형 문제 해결이 중요하다고 할 수 있다. 하지만 일반적인 기계학습 기법들은 데이터가 범주 별로 비슷한 비율로 구성되어 있다고 가정하고 학습을 진행하게 된다. 이러한 경우 모델의 정확도가 높더라도 소수 범주에 속한 데이터들은 다수 범주에 속한 데이터보다 잘못 분류될 가능성이 높아진다.
본 연구에서는 이러한 데이터 불균형 문제 개선에 효과적인 분류법을 제안하려고 한다. 미국 P2P 대출 업체인 Lending Club에서 제공하는 최근 2년간의 오픈 데이터를 이용하여 1개의 분류기를 사용하는 단일분류기인 이항 로지스틱 회귀분석, 의사결정나무와 2개이상의 분류기를 사용하는 복합분류기인 앙상블 기법 중 부스팅 의사결정나무 모델을 만들어 단일분류기와 복합분류기 간의 성능을 비교하고 가장 우수한 모델을 선정했다.
분석 결과 불균형데이터는 단일 분류기를 사용하는 것보다 부스팅 의사결정나무 모델을 사용하는 것이 더 효과적이었으며, 서로 다른 부스팅 의사결정나무 기법의 알고리즘을 사용하고 비교해 보았으나 동 기법내의 알고리즘 간의 성능 차이는 없었다.
본 연구는 일반적으로 사용되는 분류 예측 모델과는 다르게 실세계에서 발생 가능성이 높은 불균형 데이터를 주제로 분류 방법을 제안하였고 복합분류기인 앙상블 기법 중 하나인 부스팅 의사결정나무의 높은 분류 능력을 보였다. 또한 분류기 개수 간의 성능차이, 동일 기법 내에서의 다른 알고리즘에 따른 비교를 통해 다양한 관점에서 결과를 제시했다.