표제지
목차
Abstract 12
요약 14
제1장 서론 22
제1절 연구의 배경 및 목적 23
제2절 연구의 내용 및 방법 28
1. 연구 내용 28
2. 연구 방법 30
제2장 데이터 연계ㆍ통합 개념 및 통계적 방법론 32
제1절 데이터 연계ㆍ통합 개념 33
제2절 자료연계 방법론 38
1. 기본 용어, 개념 및 모형 가정 41
2. Fellegi and Sunter 연계 모형 46
3. 거리기반 방법론 50
4. 군집모형 기반 방법론 53
제3절 통계적 매칭 방법론 55
1. 거시적 결합 56
2. 미시적 결합 62
제3장 국내외 데이터 통합 사례 연구 73
제1절 국내외 데이터 통합 현황 74
1. 덴마크 75
2. 미국 76
3. 호주 78
4. 국내 81
제2절 국내외 통합데이터 활용 사례 84
1. 자료연계 방법론을 이용한 통합데이터 사례 84
2. 통계적 매칭 방법론을 이용한 통합데이터 사례 88
제3절 소결 93
제4장 활용 가능한 데이터 현황 95
제1절 우리 연구원에서 제공 중인 조사데이터 96
1. 주요 조사데이터의 개요, 응답자 특성 및 조사내용 101
2. 주요 조사데이터의 응답자 특성 및 조사 목적 관련 변수 검토 111
제2절 국내 데이터 포털 및 플랫폼 현황 136
1. 통합데이터 지도(www.bigdata-map.kr) 136
2. 공공데이터포털(www.data.go.kr) 141
3. 서울 열린데이터 광장(https://data.seoul.go.kr/) 143
4. 보건의료빅데이터개방시스템(opendata.hira.or.kr) 144
제3절 소결 146
제5장 데이터 통합 실증 분석 148
제1절 통계적 매칭 방법에 대한 데이터 통합 모의실험 149
1. 모의실험 설계 149
2. 통계적 매칭 방법 및 평가지표 151
3. 데이터 통합 방법 및 모의실험 결과 154
제2절 통계적 매칭을 활용한 데이터 통합 161
1. 데이터 통합 방법 161
2. 통합데이터 품질 평가 170
3. 통합데이터 분석 결과 178
제3절 소결 195
제6장 결론 202
제1절 연구 결과 요약 및 함의 203
제2절 향후 연구 방향 211
참고문헌 214
[부록 1] 블록화 230
[부록 2] 우리 연구원 및 보건복지부 국가승인통계 현황 232
[부록 3] 조사데이터별 주요 조사 내용 237
[부록 4] 민간데이터 기초분석 248
[부록 5] 전문가 대상 통합데이터를 활용한 연구 주제 관련 설문조사 결과 259
판권기 2
〈표 1-1〉 주요 용어 정리 31
〈표 2-1〉 데이터 구조 예시 1 35
〈표 2-2〉 데이터 구조 예시 2 36
〈표 2-3〉 데이터 구조 예시 3 36
〈표 2-4〉 결정적 연계와 확률적 연계 비교 44
〈표 2-5〉 연계 점수를 활용한 자료연계 결과 분할 49
〈표 3-1〉 소득 다이내믹스 패널연구와 연계하는 행정데이터 78
〈표 3-2〉 MDIS에서 제공하고 있는 서비스유형 82
〈표 4-1〉 우리 연구원에서 생산 및 제공 중인 조사데이터 현황(2022.10.27. 기준) 98
〈표 4-2〉 한국의료패널조사 개요 103
〈표 4-3〉 한국복지패널조사 개요 105
〈표 4-4〉 가족과 출산 조사 개요 106
〈표 4-5〉 노인실태조사 개요 107
〈표 4-6〉 장애인실태조사 개요 109
〈표 4-7〉 의료서비스경험조사 개요 110
〈표 4-8〉 주요 조사데이터(6개 조사)의 응답자 특성 비교 상세 115
〈표 4-9〉 주요 조사데이터(6개 조사)의 응답자 특성 요약 121
〈표 4-10〉 주요 조사데이터(6개 조사)의 조사 목적 관련 변수 상세 123
〈표 4-11〉 주요 조사데이터(6개 조사)의 조사 목적 관련 변수 요약 134
〈표 4-12〉 빅데이터 플랫폼 및 센터 현황(2022년 4월 기준) 137
〈표 5-1〉 거리 함수 151
〈표 5-2〉 모의실험에서 고려된 통계적 매칭 방법 152
〈표 5-3〉 첫 번째 통합데이터의 의료비 분포 159
〈표 5-4〉 한국의료패널조사와 생활시간조사의 유일변수 163
〈표 5-5〉 한국의료패널조사와 생활시간조사의 공통변수 163
〈표 5-6〉 통합데이터와 제공데이터의 필수시간 분포 비교 173
〈표 5-7〉 통합데이터와 제공데이터의 의무시간 분포 비교 174
〈표 5-8〉 통합데이터와 제공데이터의 여가시간 분포 비교 176
〈표 5-9〉 통합데이터와 제공데이터의 운동시간 분포 비교 177
〈표 5-10〉 성별과 연령대별 집단의 시간 사용에 대한 기초통계 179
〈표 5-11〉 주관적 건강상태에 따른 집단별 필수시간에 대한 평균 183
〈표 5-12〉 주관적 건강상태에 따른 집단별 의무시간에 대한 평균 184
〈표 5-13〉 주관적 건강상태에 따른 집단별 여가시간에 대한 평균 186
〈표 5-14〉 주관적 건강상태에 따른 집단별 운동시간에 대한 평균 186
〈표 5-15〉 스트레스 인지 정도에 따른 집단별 필수시간에 대한 평균 188
〈표 5-16〉 스트레스 인지 정도에 따른 집단별 의무시간에 대한 평균 189
〈표 5-17〉 스트레스 인지 정도에 따른 집단별 여가시간에 대한 평균 190
〈표 5-18〉 스트레스 인지 정도에 따른 집단별 운동시간에 대한 평균 191
〈표 5-19〉 여가만족도에 따른 시간 사용에 대한 기초통계 194
〈표 5-20〉 시간 사용 소비행태에 대한 회귀분석 결과 194
〈표 5-21〉 매칭변수에 따른 통합데이터의 평가지표 결과 197
[그림 1-1] 연차별 연구 목적 29
[그림 2-1] 데이터 연계ㆍ통합 예시 34
[그림 2-2] 데이터 통합 방법론 37
[그림 2-3] 다중 매칭 예시 39
[그림 2-4] 데이터 연계 예시 40
[그림 2-5] 데이터 연계 작업흐름도 41
[그림 2-6] 데이터 유사성 척도 예시 52
[그림 2-7] 2SLS 방법론에서 도구변수 가정 64
[그림 2-8] 최근접 이웃 대체 방법 예시 65
[그림 2-9] 다중대체 방법론 예시 67
[그림 2-10] 분할대체 방법론 예시 70
[그림 2-11] 분할대체 identifiability 가정 71
[그림 3-1] 건강보험 빅데이터와 통계청 사망원인통계 자료 연계 절차 흐름도 83
[그림 4-1] 통합데이터 지도 메인화면 140
[그림 4-2] 공공데이터포털 메인화면 141
[그림 4-3] 열린데이터광장 메인화면 143
[그림 4-4] 보건의료빅데이터개방시스템 메인화면 145
[그림 5-1] 만성질환 유무에 대한 오분류율 155
[그림 5-2] 의료비의 개체에 대한 제곱근평균제곱편차 156
[그림 5-3] 의료비의 편향 156
[그림 5-4] 의료비의 제곱근평균제곱오차 157
[그림 5-5] 첫 번째 통합데이터의 만성질환 유무 분포 158
[그림 5-6] 첫 번째 통합데이터의 의료비 분포 159
[그림 5-7] 공통변수 분포: 3개 권역 165
[그림 5-8] 공통변수 분포: 성별 166
[그림 5-9] 공통변수 분포: 연령대 167
[그림 5-10] 공통변수 분포: 최종학력 167
[그림 5-11] 공통변수 분포: 배우자 유무 168
[그림 5-12] 공통변수 분포: 경제활동 상태 169
[그림 5-13] 통합데이터에서의 공통변수 분포: 연령대 170
[그림 5-14] 통합데이터에서의 공통변수 분포: 최종학력 171
[그림 5-15] 통합데이터에서의 공통변수 분포: 경제활동 상태 171
[그림 5-16] 통합데이터에서의 공통변수 분포: 성별 172
[그림 5-17] 통합데이터에서의 공통변수 분포: 배우자 유무 172
[그림 5-18] 통합데이터에서의 공통변수 분포: 3개 권역 173
[그림 5-19] 통합데이터와 제공데이터의 필수시간 분포 비교 174
[그림 5-20] 통합데이터와 제공데이터의 의무시간 분포 비교 175
[그림 5-21] 통합데이터와 제공데이터의 여가시간 분포 비교 176
[그림 5-22] 통합데이터와 제공데이터의 운동시간 분포 비교 177
[그림 5-23] 통합데이터와 제공데이터의 여가만족도 분포 비교 178
[그림 5-24] 성별과 연령대별 집단의 필수시간 평균 비교 180
[그림 5-25] 성별과 연령대별 집단의 의무시간 평균 비교 181
[그림 5-26] 성별과 연령대별 집단의 여가시간 평균 비교 181
[그림 5-27] 성별과 연령대별 집단의 운동시간 평균 비교 182
[그림 5-28] 여가만족도에 따른 시간 사용에 대한 평균 비교 193
〈부표 2-1〉 우리 연구원 승인통계 현황 232
〈부표 2-2〉 보건복지부 승인통계 중 우리 연구원 관련 승인통계 235
〈부표 3-1〉 한국의료패널조사 주요 조사 내용(가구 조사, 가구원 응답 대표자) 237
〈부표 3-2〉 한국의료패널조사 주요 내용(가구원 조사) 238
〈부표 3-3〉 한국복지패널조사 주요 내용(가구용 설문) 239
〈부표 3-4〉 한국복지패널조사 주요 내용(가구원용 설문) 241
〈부표 3-5〉 한국복지패널조사 주요 내용(부가조사표(아동)) 242
〈부표 3-6〉 가족과 출산 조사 주요 조사 내용 243
〈부표 3-7〉 노인실태조사 주요 조사 내용 244
〈부표 3-8〉 장애인실태조사 주요 조사 내용 245
〈부표 3-9〉 의료서비스경험조사 주요 조사 내용 247
〈부표 4-1〉 성별 및 연령대별 회원 분포 248
〈부표 4-2〉 성별 연령대별 전체 대비 의료비 결제 금액에 대한 비중 249
〈부표 4-3〉 성별 연령대별 연간 의료비 결제 금액 및 건수 250
〈부표 4-4〉 성별 연령대별 월별 평균 의료비 결제 금액 251
〈부표 4-5〉 의료기관 기준 지역별 결제 건당 평균 의료비 현황 255
〈부표 4-6〉 지역별 유입이 높은 지역 1~5순위 257
〈부표 4-7〉 지역별 유입이 높은 지역 1~5순위의 의료비 결제 금액 비중 258
〈부표 5-1〉 전문가 대상 통합데이터를 활용한 연구 주제 관련 설문조사 결과 259
부도목차
[부도 1-1] 블록화 예시 230
[부도 4-1] 성별 연령대별 월별 평균 의료비 결제 금액 추이 251
[부도 4-2] 성별에 따른 추정 소득별 연간 인당 평균 의료비 결제 금액 현황 252
[부도 4-3] 성별에 따른 추정 소득별 결제 건당 평균 의료비 현황 253
[부도 4-4] 성별에 따른 추정 소득별 연간 의료기관 이용 횟수 현황 253
[부도 4-5] 거주지역별 연간 인당 평균 의료비 결제 금액 현황 254
[부도 4-6] 지역별 유입ㆍ거주 비중 256