[표지]
머리말 / 임희택
목차
요약 10
제1장 서론 16
제1절 연구의 배경 및 목적 16
제2절 연구방법 및 분석자료 19
제3절 연구내용 21
제2장 이론적 배경 26
제1절 선행연구 26
제2절 머신러닝 알고리즘의 개념 30
1. 머신러닝 알고리즘 개념 30
2. 로지스틱 회귀(Logistic Regression) 32
3. 인공 신경망 35
4. XGBoost(eXteme Gradient Boosting) 36
5. Stacking(Meta Ensemble) 39
제3절 모형 평가 방법 40
제4절 복지사각지대 처리 프로세스 43
1. 발굴대상자 업무처리 프로세스 43
2. 발굴대상자 처리 실적 46
제3장 연구 방법 52
제1절 복지사각지대 시스템 아키텍처 52
제2절 실험 데이터 정의 54
제3절 SEMMA 데이터 분석 방법론 설명 73
제4장 SEMMA 80
제1절 Sample 81
제2절 Exploration 84
제3절 Modification 101
제4절 Modeling 103
제5절 Assessment 119
1. 다양한 머신러닝 알고리즘의 실험결과 분석 119
2. 1인 가구 분리 모형 실험분석 121
3. 신경망을 활용하는 모형 분석 123
3. 수동 가중치와 튜닝에 따른 결과 분석 127
제5장 결론 132
제1절 연구의 요약 132
제2절 정책 제언 135
참고문헌 138
〈표 2-1〉 분류행렬(Classification Matrix) 41
〈표 2-2〉 비대상자 등록 처리 기준 45
〈표 2-3〉 복지사각지대 발굴대상자 처리실적 현황(2015년~2018년) 46
〈표 3-1〉 연계기관에 따른 정보와 입수 주기 54
〈표 3-2〉 내부 연계 속성변수 57
〈표 3-3〉 단전가구에 대한 세부 내용 58
〈표 3-4〉 전기료 체납 가구에 대한 세부 내용 59
〈표 3-5〉 단수가구에 대한 세부 내용 59
〈표 3-6〉 단가스 가구에 대한 세부 내용 60
〈표 3-7〉 건보료 체납 가구에 대한 세부 내용 60
〈표 3-8〉 의료비과다지출자 가구에 대한 세부 내용 61
〈표 3-9〉 장기요양자 가구에 대한 세부 내용 61
〈표 3-10〉 국민연금 체납 가구에 대한 세부 내용 62
〈표 3-11〉 기초긴급신청탈락 가구에 대한 세부 내용 63
〈표 3-12〉 시설입소탈락퇴소자 가구에 대한 세부 내용 63
〈표 3-13〉 위기학생 가구에 대한 세부 내용 64
〈표 3-14〉 보건소위기가구 집중관리군 가구에 대한 세부 내용 64
〈표 3-15〉 기저귀, 조제분유 가구에 대한 세부 내용 65
〈표 3-16〉 보건소 위기가구 신생아청각선별검사 가구에 대한 세부 내용 65
〈표 3-17〉 범죄피해 가구에 대한 세부 내용 66
〈표 3-18〉 화재피해자 가구에 대한 세부 내용 66
〈표 3-19〉 화재피해자 가구에 대한 세부 내용 67
〈표 3-20〉 전세 주거위기가구에 대한 세부 내용 67
〈표 3-21〉 월세 주거위기가구에 대한 세부 내용 68
〈표 3-22〉 임대주택임대료 체납자에 대한 세부 내용 68
〈표 3-23〉 개별연장급여 고용위기가구 대한 세부 내용 69
〈표 3-24〉 실업급여수급 고용위기가구에 대한 세부 내용 70
〈표 3-25〉 실업급여미수급 고용위기가구에 대한 세부 내용 70
〈표 3-26〉 실업급여미수급 고용위기가구에 대한 세부 내용 71
〈표 3-27〉 자살고위험가구에 대한 세부 내용 72
〈표 3-28〉 자해/자살 시도자 가구에 대한 세부 내용 72
〈표 3-29〉 금융연체자 가구에 대한 세부 내용 73
〈표 4-1〉 2018년 환류데이터 수집 사이즈 81
〈표 4-2〉 2018년 3차와 4차의 분석대상자 사이즈 81
〈표 4-3〉 발굴대상자 구분코드 82
〈표 4-4〉 복지사각지대 연령대별 분류표 82
〈표 4-5〉 복지사각지대에서 사용되는 기본 변수 83
〈표 4-6〉 복지사각지대 선정 대상자 및 조치 현황분석 84
〈표 4-7〉 시도별 18년 3차, 4차 복지사각지대 선정 대상자 현황 85
〈표 4-8〉 연령대별 복지사각지대 선정 대상자 현황 86
〈표 4-9〉 연계변수별 복지사각지대 선정 대상자 현황 87
〈표 4-10〉 연계변수 조합 개수별 복지사각지대 선정 대상자 현황 89
〈표 4-11〉 지역별 선정 대상자 2018년 3차 '완료결과' 현황 90
〈표 4-12〉 지역별 선정 대상자 2018년 4차 '완료결과' 현황 91
〈표 4-13〉 연령대별 선정 대상자 2018년 3차 '완료결과' 현황 93
〈표 4-14〉 연령대별 선정 대상자 2018년 4차 '완료결과' 현황 94
〈표 4-15〉 변수 조합 개수별 선정 대상자 2018년 3차 '완료결과' 현황 95
〈표 4-16〉 변수 조합 개수별 선정 대상자 2018년 4차 '완료결과' 현황 96
〈표 4-17〉 변수 1개별 선정 대상자 2018년 3차 '완료결과' 현황 97
〈표 4-18〉 변수 1개별 선정 대상자 2018년 4차 '완료결과' 현황 99
〈표 4-19〉 2018년 3차와 4차의 결측치와 그렇지 않은 수 102
〈표 4-20〉 복지사각지대 데이터의 지역별 규모 102
〈표 4-21〉 복지사각지대 훈련 데이터와 테스트 데이터 규모 104
〈표 4-22〉 복지사각지대 훈련데이터와 테스트데이터의 Target와 Non-Target의 비율 105
〈표 4-23〉 2018년 3차와 4차의 원데이터, 훈련데이터, 테스트데이터의 규모 105
〈표 4-24〉 중복대상자를 제거한 2018년 3차와 4차 원데이터, 훈련데이터,... 106
〈표 4-25〉 2018년 3차 로지스틱 회귀 모델 변수별 영향도 결과 107
〈표 4-26〉 2018년 3차 4차 둘다를 적용한 로지스틱 회귀 모델 변수별 영향도 결과 108
〈표 4-27〉 2018년 3차 XGBoost 모델 변수별 영향도 결과 113
〈표 4-28〉 2018년 3차4차 XGBoost 모델 변수별 영향도 결과 114
〈표 4-29〉 2018년 3차, 4차 딥러닝 모델 변수별 영향도 결과 117
〈표 4-30〉 복지사각지대 모형적용 결과 비교표 121
〈표 4-31〉 복지사각지대 통합 가구 분석 122
〈표 4-32〉 복지사각지대 전체 통합가구 결과 중 1인가구인 수 122
〈표 4-33〉 통합가구와 1인가구의 분류행렬 결과 123
〈표 4-34〉 딥러닝에서 활용되는 고급경사하강법 개요 및 효과 125
〈표 4-35〉 딥러닝 모형적용 결과 비교표(Epoch=1, Optimizer='Adam',... 126
〈표 4-36〉 XGboost 자동 파라미터 튜닝과 수동 튜닝 128
[그림 1-1] 연구흐름도 22
[그림 2-1] 빅데이터 분석 단계에서 머신러닝 31
[그림 2-2] 인공 신경망 구성 36
[그림 2-3] 모델 최적화를 위한 에러와 복잡도 그래프 38
[그림 2-4] stacking 기법을 사용하여 모델을 만드는 과정 40
[그림 2-5] ROC 곡선 42
[그림 2-6] 발굴대상자 처리 업무흐름도 44
[그림 2-7] 2015~2018년 전체 처리현황 47
[그림 2-8] 차수별 대상 및 비대상 현황 48
[그림 2-9] 차수별 처리현황 48
[그림 3-1] 복지사각지대 전체 시스템 아키텍처 52
[그림 4-1] 로지스틱 회귀 모형으로부터 나온 변수별 상대 중요도 112
[그림 4-2] XGBOOST 모형으로부터 나온 변수별 상대 중요도 116
[그림 4-3] 딥러닝 모형으로부터 나온 변수별 상대 중요도 118
[그림 4-4] 퍼셉트론 구조 124
[그림 4-5] 다층 퍼셉트론의 오차역전파(back Propagation) 125
[그림 4-6] 피부양의무자장기요양 변수 임의 튜닝에 따른 상대중요도 변화 127