초록

금융기관의 대출 연체 데이터, 병원의 암 진단 데이터, 생산 공장의 제품 불량 데이터 등 특정 범주에 속하는 관측치 수가 다른 범주의 관측치 수와 현저하게 차이가 나는 경우인 데이터 불균형 문제는 일상생활에서 쉽게 접할 수 있다. 본 연구에서는 A은행의 비대면 신용대출 완제 고객 데이터를 활용하여 적합한 오버 샘플링(SMOTE, ADASYN, Borderline SMOTE) 또는 다운 샘플링(Random Sampling) 기법을 기반으로 부도 데이터와 정상 데이터를 동일하게 맞추고, 머신러닝 기법을 활용하여 분류하고, 각 모델의 Accuracy(정확도)와 weighted F1 score를 통해 성능을 평가하기로 한다. 나아가 최적 모델을 결정하고 해당 모델의 p-value 순서대로 feature의 특징을 탐색하여 A은행의 비대면 신용대출 이용 고객의 부도율을 낮추는 방안을 제시하고자 한다.