초록

머신러닝의 대상이 되는 여러 유형의 데이터에서는 불균형 데이터가 자주 발견된다. 불균형 데이터(imbalanced data)는 사기 탐지, 허가되지 않은 네트워크 침입 탐지, 장애 탐지, 의료 진단 등 다양한 분야에서 찾아볼 수 있으며, 데이터에 불균형 문제가 있으면 학습 단계에도 영향을 미쳐서 학습 모형의 분류성능을 떨어뜨린다고 알려져 있다. 불균형 데이터 문제를 완화하기 위한 기법으로는 데이터의 분포가 높은 클래스를 낮은 클래스만큼 맞추는 언더샘플링(undersampling) 기법과 분포가 낮은 클래스를 높은 클래스만큼 맞추는 오버샘플링(oversampling) 기법이 있다. 본 연구에서는 불균형 데이터에 대한 분류성능을 향상하기 위해, 여러 가지 데이터 리샘플링 기법을 다양한 분석방법에 적용한 후 분류성능을 비교함으로써 불균형 데이터의 문제를 완화할 수 있는지를 파악하고자 한다. 이를 위해 불균형 데이터의 문제를 완화할 수 있는 오버샘플링 기법과 언더샘플링 기법에 대하여 간단히 소개하고, 다양한 분석방법에 따른 데이터 리샘플링 기법의 성능 비교를 하기 위해 데이콘(DACON)에서 제공된 금융 데이터를 활용하여 사례분석을 진행하였다.