금융기관의 신용리스크를 측정하기 위해 사용되는 부도 데이터는 전체 데이터 중 극히 일부분만이 부도로 나타나고, 나머지는 정상 범주에 해당하는 대표적인 불균형 데이터이다. 불균형 데이터는 분류 모형의 성능 저하와 같은 문제를 야기할 수 있으므로, 부도 예측 모형을 구축할 때는 반드시 데이터의 불균형 문제를 고려해야 한다. 본 연구에서는 부도 데이터의 불균형 문제 개선을 위한 Sampling 기법의 적용과 Classification Threshold의 조정 여부에 따른 부도 예측 모형의 성능 변화 양상을 확인하였다. 실증 분석을 위해 A 은행의 소매 익스포져 데이터를 대상으로 부도 예측 모형을 구축한 뒤, 성능을 비교 분석하였다.
분석 결과 첫째, Sampling 기법을 적용할 경우 민감도 개선 효과가 있으며, Oversampling 기법에 비해 Undersampling 기법의 민감도 개선 효과가 상대적으로 크게 나타남을 확인하였다. 둘째, Classification Threshold 조정 또한 민감도 개선 효과가 있으며, 정밀도와 F1 Score 관점에서는 Sampling 기법에 비해 더 큰 개선 효과를 보였다. 셋째, Sampling 기법의 적용과 Classification Threshold 조정을 함께할 때 민감도 개선 효과가 가장 크게 나타났으며, 특히 Undersampling 기법의 적용과 Classification Threshold 조정을 함께할 때 민감도 기준에서 가장 뛰어난 성능을 보였다.
부도 예측 모형은 부도 계좌를 정상 계좌로 예측할 때 더 큰 위험을 초래하므로, 금융기관은 민감도가 가장 우수한 모형을 활용하는 것이 바람직할 것이다. 다만, 이 경우 낮은 정밀도로 인한 인적·물적 비용 문제 등이 발생할 수 있다. 따라서 수익성을 제고할 필요가 있거나 투입할 수 있는 비용이 제한적인 상황이라면, F1 Score를 기준으로 모형을 선택하는 것이 적절할 것으로 보인다.