목차

표제지

목차

요약 11

제1장 서론 26

제1절 연구배경 및 목적 27

제2절 연구범위 및 방법 30

제2장 예측모형 관련 연구 36

제1절 예측모형 배경 및 설명 37

1. 선형회귀모형(Linear Regression Model) 41

2. 일반화선형회귀모형(Generalized Linear Regression Model, GLM) 42

3. Shrinkage 모형 46

제2절 예측모형 검증 방법론 48

제3절 성향점수 매칭 방법론 53

1/2. 성향점수 추정 54

2/3. 성향점수 활용 56

제4절 XGBoost 알고리즘 66

제5절 XGBoost 알고리즘 활용 예측모형 관련연구 74

제6절 기초생계수급자 중심의 발굴대상자 재정의 80

제3장 신규 예측모형 분석ㆍ설계 및 개발 82

제1절 복지사각지대 발굴관리시스템의 단계별 문제점 도출 83

제2절 복지사각지대 학습데이터 분석 101

제3절 성향점수 매칭 방법론 활용 및 분석 111

제4절 사각지대 발굴대상자 재정의 및 예측모형 설계 128

제5절 최종 예측모형 결과 분석 149

제4장 신규 예측모형 검증 156

제1절 예측모형 검증을 위한 설계 157

제2절 공공서비스 중심 비교 161

제3절 변수별 분포도 비교 168

제4절 예측모형 가중치 비교 175

제5절 전체 분석대상자 기준 분석 180

제6절 지자체 조치결과 분석 200

제5장 결론 207

제1절 요약 및 시사점 208

참고문헌 213

판권기 218

〈표 1-1〉 연구 내용 31

〈표 2-1〉 랜덤성분과 정준연결함수에 따른 일반화 선형모형 43

〈표 2-2〉 이분형 결과변수의 예측모형 성능 평가지표(1) 48

〈표 2-3〉 이분형 결과변수 예측에서의 성능 평가지표(2) 49

〈표 2-4〉 연속형 결과변수 예측에서의 성능 평가지표 51

〈표 2-5〉 성향점수 적용방법에 따른 특징 57

〈표 2-6〉 순도와 불순도 71

〈표 2-7〉 국민기초생활보장제도에서 사각지대 문제가 가장 심각한 급여 81

〈표 3-1〉 예측모형 훈련, 검증, 구동, 개선 각 단계 문제점 및 개선방안 87

〈표 3-2〉 14단계의 예측모형 도출에서 발생하는 문제점 및 개선방안 88

〈표 3-3〉 예측모형 자문결과 요약 90

〈표 3-4〉 학습데이터 정비의 6단계 91

〈표 3-5〉 학습데이터 정비의 세부 16단계 91

〈표 3-6〉 현재 모형과 고도화된 모형의 비교 93

〈표 3-7〉 지원대상자와 미지원대상자의 데이터 균형도 94

〈표 3-8〉 학습데이터의 결측치 처리 방법 98

〈표 3-9〉 예측모형 결과의 쏠림현상 99

〈표 3-10〉 예측모형 결과의 뭉침현상 100

〈표 3-11〉 복지사각지대 실적데이터의 중복사례 수 104

〈표 3-12〉 위험요인의 기여도와 변수별 특성 분석의 개요 104

〈표 3-13〉 분석대상자의 일반적인 특성 105

〈표 3-14〉 속성변수의 구조화 결과 106

〈표 3-15〉 분석대상자의 일반적인 특성 분석결과(외부 속성변수) 107

〈표 3-16〉 속성변수 간 상관관계 분석결과 109

〈표 3-17〉 공공서비스 지원여부에 대한 영향요인 분석결과 110

〈표 3-18〉 성향점수매칭에 활용된 공변량 변수 113

〈표 3-19〉 성향점수매칭 전과후 기술통계 1 114

〈표 3-20〉 성향점수매칭 전과후 기술통계 2 117

〈표 3-21〉 성향점수매칭 전과후 비교 1 118

〈표 3-22〉 성향점수매칭 전과 후 비교 2 125

〈표 3-23〉 성향점수매칭 표준화 차이 127

〈표 3-24〉 학습데이터의 기초생활보장 대상자와 기초생계급여수급자 128

〈표 3-25〉 학습데이터의 차수별 대상자 수 세부 내역 129

〈표 3-26〉 학습데이터 구성 시나리오 131

〈표 3-27〉 테스트데이터 구성 시나리오 131

〈표 3-28〉 학습데이터의 2계층 구조 132

〈표 3-29〉 변수 선택 결과의 비교분석 133

〈표 3-30〉 변수 정의 134

〈표 3-31〉 각 변수의 빈도 분포 135

〈표 3-32〉 단전여부 변수 선택 136

〈표 3-33〉 단수여부 변수 선택 136

〈표 3-34〉 단가스여부 변수 선택 137

〈표 3-35〉 전기료여부 변수 선택 137

〈표 3-36〉 국민연금체납여부 변수 선택 138

〈표 3-37〉 건강보험료여부 변수 선택 138

〈표 3-38〉 화재피해여부 변수 선택 139

〈표 3-39〉 피부양의무자장기요양여부 변수 선택 139

〈표 3-40〉 전세금액기준이하가구여부 변수 선택 140

〈표 3-41〉 월세금액기준이하가구여부 변수 선택 140

〈표 3-42〉 공공임대주택체납자여부 변수 선택 141

〈표 3-43〉 산재요양종결후근로단절자여부 변수 선택 141

〈표 3-44〉 금융연체대상자여부 변수 선택 142

〈표 3-45〉 의료비용과다지출가구여부 변수 선택 142

〈표 3-46〉 일용근로대상자여부 변수 선택 143

〈표 3-47〉 영양플러스미지원가구여부 변수 선택 143

〈표 3-48〉 시나리오 1, 2, 3과 변수 선택 모형의 혼동행렬 값 144

〈표 3-49〉 시나리오 1, 2, 3과 변수 선택 모형의 혼동행렬 결과 비교 145

〈표 3-50〉 시나리오 1, 2, 3과 변수 선택 모형의 ROC 커브 결과 146

〈표 3-51〉 시나리오 1, 2, 3과 변수 선택 모형의 AUC 값 비교 146

〈표 3-52〉 시나리오 1, 2, 3과 변수 선택 모형의 리프트 차트 결과 비교 147

〈표 3-53〉 시나리오 1, 2, 3과 변수 선택 모형의 가중치 TOP 10 148

〈표 3-54〉 복지사각지대 학습데이터의 탐색 149

〈표 3-55〉 복지사각지대 학습데이터의 1:1과 3:7비율 152

〈표 3-56〉 복지사각지대 테스트데이터 152

〈표 3-57〉 복지사각지대 혼동행렬 평가 결과(1:1, 3:7) 153

〈표 3-58〉 복지사각지대 ROC, AUC 평가 결과(1:1, 3:7) 154

〈표 3-59〉 복지사각지대 리프트 차트 평가 결과(1:1, 3:7) 155

〈표 4-1〉 예측모형 테스트데이터 1인가구 전체 서비스 내역 158

〈표 4-2〉 예측모형 테스트데이터 1인가구 기초생활보장(맞춤형) 세부 서비스 내역 159

〈표 4-3〉 예측모형 테스트데이터 다인가구 전체 서비스 내역 159

〈표 4-4〉 예측모형 테스트데이터 다인가구 기초생활보장(맞춤형) 세부 서비스 내역 160

〈표 4-5〉 1인가구 예측모형 전체 서비스 내역 비교(2000명 기준) 163

〈표 4-6〉 1인가구 예측모형 기초생활보장(맞춤형) 서비스 내역 비교(2000명 기준) 163

〈표 4-7〉 1인가구 예측모형 중복포함된 대상자의 기초생활보장(맞춤형) 서비스 내역 비교(2000명 기준) 164

〈표 4-8〉 다인가구 예측모형 전체 서비스 내역 비교(3000명 기준) 166

〈표 4-9〉 다인가구 예측모형 기초생활보장(맞춤형) 서비스 내역 비교(3000명 기준) 167

〈표 4-10〉 다인가구 예측모형 중복포함된 대상자의 기초생활보장(맞춤형) 서비스 내역 비교(3000명 기준) 167

〈표 4-11〉 19년 테스트데이터기준 상위 2천명 분포도 비교(1인가구) 168

〈표 4-12〉 20년 3차 분석대상자기준 상위 2만명 분포도 비교(1인가구) 169

〈표 4-13〉 20년 3차 분석대상자기준 상위 2만명 분포도 중복대상자와 그렇지 않는 대상자의 분포도 비교(1인가구) 170

〈표 4-14〉 19년 테스트데이터기준 상위 3천명 분포도 비교(다인가구) 171

〈표 4-15〉 20년 3차 분석대상자기준 상위 3만명 분포도 비교(다인가구) 172

〈표 4-16〉 20년 3차 분석대상자기준 상위 3만명 분포도 중복대상자와 그렇지 않는 대상자의 분포도 비교(다인가구) 173

〈표 4-17〉 신규모형 기준 정렬 수행한 TOP 10 가중치(1인가구) 175

〈표 4-18〉 기존모형 기준 정렬 수행한 TOP 10 가중치(1인가구) 175

〈표 4-19〉 신규모형 기준 정렬 수행한 TOP 10 가중치(다인가구) 176

〈표 4-20〉 기존모형 기준 정렬 수행한 TOP 10 가중치(다인가구) 177

〈표 4-21〉 기존모형과 신규모형의 생계급여대상자의 가중치(1인가구) 177

〈표 4-22〉 기존모형과 신규모형의 생계급여대상자의 가중치(다인가구) 178

〈표 4-23〉 (1인가구) 시나리오 1 변수별 대상자 분포도 181

〈표 4-24〉 (1인가구) 시나리오 2 변수별 대상자 분포도 184

〈표 4-25〉 (1인가구) 시나리오 3 변수별 대상자 분포도 186

〈표 4-26〉 (1인가구) 시나리오1의 모형간 중복대상자 수 비교 188

〈표 4-27〉 (1인가구) 시나리오별 모형간 대상자의 위험요인 보유 변수 수 비교 189

〈표 4-28〉 (1인가구) 시나리오별 모형간 대상자의 연령 분포도 비교 190

〈표 4-29〉 (다인가구) 시나리오 1 변수별 대상자 분포도 191

〈표 4-30〉 (다인가구) 시나리오 2 변수별 대상자 분포도 193

〈표 4-31〉 (다인가구) 시나리오 3 변수별 대상자 분포도 195

〈표 4-32〉 (다인가구) 시나리오1의 모형간 중복대상자 수 비교 197

〈표 4-33〉 (다인가구) 시나리오별 모형간 대상자의 위험요인 보유 변수 수 비교 198

〈표 4-34〉 (다인가구) 시나리오별 모형간 대상자의 연령 분포도 비교 199

〈표 4-35〉 신규모형 조치결과를 확인하기 위한 대상자 추출 순서 비교 200

〈표 4-36〉 신규모형의 중복대상자와 미중복대상자 비교 201

〈표 4-37〉 지자체 조치 결과의 세부 공적 서비스 내역 비교 202

〈표 4-38〉 지자체 조치 결과의 기초생활보장 서비스 상세 분석 203

〈표 4-39〉 모형별 중복대상자의 실적비교 204

〈표 4-40〉 모형 중복되지 않는 대상자의 실적비교 205

[그림 1-1] 연구 흐름도 35

[그림 2-1] 통계모형 설명을 위한 기본 표기 37

[그림 2-2] 과적합 문제에 대한 설명 38

[그림 2-3] 모형 선택의 기준 설명 40

[그림 2-4] 성향점수 매칭 방법 설명 53

[그림 2-5] 성향점수 추정방법 55

[그림 2-6] 치료효과의 종류 58

[그림 2-7] 모형 최적화를 위한 에러와 복잡도 그래프 69

[그림 2-8] 순도, 불순도와 지니불순도 간의 관계 72

[그림 2-9] 복지사각지대 발굴관리시스템에서의 변수선택 72

[그림 3-1] 복지사각지대 단계별 발굴과정 84

[그림 3-2] 모델링 구동 단계의 세부 단계 85

[그림 3-3] XGBoost 알고리즘을 활용하는 모델링 세부 단계 86

[그림 3-4] 성향점수 방법의 적용 단계(한국보건의료연구원, 2013: 125) 111

[그림 3-5] 성향점수매칭 전과 후 성향점수 비교 116

[그림 3-6] 1:1 비율과 3:7 비율의 향상도 그래프 비교 155

[그림 4-1] 결과도출 방법 틀 160

[그림 4-2] 기존모형과 신규모형 1인가구 검증결과 161

[그림 4-3] 기존모형과 신규모형 1인가구 검증결과(기초생계급여대상자) 162

[그림 4-4] 기존모형과 신규모형 1인가구 검증결과(긴급복지대상자) 162

[그림 4-5] 기존모형과 신규모형 1인가구 검증결과(기초생활보장(맞춤형)) 162

[그림 4-6] 기존모형과 신규모형 다인가구 검증결과 164

[그림 4-7] 기존모형과 신규모형 다인가구 검증결과(기초생활보장(맞춤형)) 165

[그림 4-8] 기존모형과 신규모형 다인가구 검증결과(기초생계급여대상자) 165

[그림 4-9] 기존모형과 신규모형 다인가구 검증결과(긴급복지대상자) 166

[그림 4-10] 기존모형과 신규모형의 가중치 밀도차이(1인가구 중심) 178

[그림 4-11] 기존모형과 신규모형의 가중치 밀도차이(다인가구 중심) 179