표제지
목차
국문초록 9
ABSTRACT 10
I. 서론 11
1.1. 연구 배경 11
1.2. 관련 연구 13
1.2.1. 데이터 수준 불균형 처리 13
1.2.2. 알고리즘 수준 불균형 처리 14
1.2.3. GAN 연구 15
1.2.4. 비정형 데이터 GAN 16
1.2.5. 정형 데이터 GAN 17
II. 연구방법 18
2.1. 클래스 불균형 정도(Imbalance Ratio, IR) 18
2.2. 전통적인 오버샘플링 기법 19
2.2.1. 랜덤 오버샘플링 (Random Oversampling, ROS) 20
2.2.2. Synthetic Minority Oversampling Technique (SMOTE) 20
2.2.3. Borderline-SMOTE (B-SMOTE) 21
2.2.4. Adaptive Synthetic Sampling (ADASYN) 22
2.3. GAN 기반 오버샘플링 23
2.3.1. 적대적 생성 신경망 (Generative Adversarial Network, GAN) 23
2.3.2. 조건부 적대적 생성 신경망 (Conditional GAN, CGAN) 25
2.3.3. 조건부 적대적 테이블 생성 신경망 (Conditional Tabular GAN, CTGAN) 26
2.4. 분류 모델 (Classification Model) 27
2.4.1. 다층 퍼셉트론 (Multi Layer Perceptron, MLP) 27
2.4.2. 로지스틱 회귀 (Logistic Regression) 28
2.4.3. 서포트 벡터 머신 (Support Vector Machine, SVM) 29
2.4.4. 랜덤 포레스트 (Random Forest) 30
2.5. 평가방법 31
2.5.1. k-겹 교차 검증 (k-fold cross validation) 31
2.5.2. 성능지표 32
III. 실험 데이터 및 설계 36
3.1. 실험 데이터 36
3.2. 실험 설계 39
IV. 연구 결과 41
4.1. 전통적인 오버샘플링 기법 시각화 41
4.2. CTGAN 소수 클래스 표본 생성 시각화 43
4.3. 분류모델에 따른 오버샘플링 기법 성능 비교 46
V. 논의 및 결론 50
부록 53
Appendix 1. CTGAN의 원시 데이터와 합성 데이터 비교 (IR=6.8) 53
Appendix 2. CTGAN의 원시 데이터와 합성 데이터 비교 (IR=9) 55
Appendix 3. CTGAN의 원시 데이터와 합성 데이터 비교 (IR=19) 57
참고문헌 59
Table 2.1. Confusion Matrix 33
Table 3.1. Description of input variables 37
Table 3.2. Description of dependent variable 39
Table 3.3. The number of samples according to the IR value 39
Table 3.4. The number of data after applying each oversampling to the dataset 40
Table 4.1. The performance comparison by oversampling technique (AUC) 46
Table 4.2. The performance comparison by oversampling technique (F1-score) 48
Figure 1.1. Adversarial learning process of the GAN 15
Figure 1.2. Image generation using GAN 16
Figure 2.1. Visualization based on class imbalance 18
Figure 2.2. Oversampling method 19
Figure 2.3. Upsampling with Random oversampling 20
Figure 2.4. Upsampling with SMOTE 21
Figure 2.5. Upsampling with Borderline-SMOTE 22
Figure 2.6. Structure of GAN 24
Figure 2.7. Structure of CGAN 25
Figure 2.8. Structure of CTGAN 26
Figure 2.9. Structure of MLP 28
Figure 2.10. Logistic regression model 29
Figure 2.11. Structure of SVM 30
Figure 2.12. Random Forest algorithm 31
Figure 2.13. 10-fold cross validation methods 32
Figure 2.14. AUC-ROC 35
Figure 3.1. Results of feature importance 36
Figure 4.1. Visualize oversampling techniques (IR=6.8) 41
Figure 4.2. Visualize oversampling techniques (IR=9) 42
Figure 4.3. Visualize oversampling techniques (IR=19) 42
Figure 4.4. CTGAN sampling distribution (IR=6.8) 43
Figure 4.5. CTGAN sampling distribution (IR=9) 44
Figure 4.6. CTGAN sampling distribution (IR=19) 45
Figure 4.7. Bar chart of the AUC and F1-score of six oversampling techniques 49