표제지
목차
발간사 3
Abstract 11
요약 13
제1장 서론 20
제1절 연구배경 및 목적 21
1. 연구배경 및 필요성 21
2. 연구목적 24
제2절 연구내용 및 방법 24
1. 연구내용 24
2. 연구방법 27
제2장 데이터 연계 개념 및 유형 구분 29
제1절 개념 정의 30
제2절 데이터 특성에 따른 분류 34
제3절 데이터 연계 방법에 따른 분류 39
1. 정확 매칭(Exact Matching) 41
2. 통계적 매칭(Statistical Matching) 50
제3장 데이터 연계 유형별 활용사례 56
제1절 국내 사례 57
1. 정확 매칭 사례 58
2. 통계적 매칭 사례 64
제2절 해외 사례 66
1. 정확 매칭 사례 66
2. 통계적 매칭 사례 72
제4장 통계적 매칭기법에 따른 Simulation 74
제1절 통계적 매칭기법 75
제2절 통계적 매칭 Simulation 81
제5장 통계적 매칭에 의한 데이터 연계 모의분석 87
제1절 한국복지패널과 재정패널조사 연계 및 결과분석 88
(a) 근로능력이 있는 사람에 대한 최저생활보장 필요성 104
(b) 보편적 복지 vs. 선별적 복지 105
(c) 무상보육 107
(d) 대학 무상교육 108
(e) 현재 우리나라 중간계층의 세금수준에 대한 인식 109
(f) 사회복지 확대를 위한 증세 필요성 111
제2절 한국복지패널과 한국의료패널 연계 및 결과분석 114
제6장 데이터 연계 및 활용을 위한 개인정보보호 필요성과 방법론 129
제1절 빅데이터 활용과 개인정보보호의 필요성 130
1. 데이터 연계를 통한 빅데이터 구축 및 활용 130
2. 개인정보보호에 관한 법률적 검토 136
3. 데이터 연계 및 활용을 위한 개인정보보호의 필요성 142
제2절 데이터 연계 및 활용 관련 개인정보보호 방법론 146
1. 개인정보보호 방법론의 필요성 147
2. 데이터 공개 및 연계 활용에 따른 노출 위험 148
3. 데이터 연계에 대한 개인정보보호 방법론 153
4. 데이터 공개에 대한 개인정보보호 방법 160
5. 데이터 공개 및 연계 활용을 위한 개인정보보호 관련 제언 177
제7장 결론 180
제1절 요약 및 데이터연계방법론 대안 모색 181
제2절 정책제언 188
참고문헌 190
용어 정리 194
판권기 2
〈표 2-1〉 데이터 특성 및 매칭 방법에 따른 8가지 유형 35
〈표 2-2〉 데이터 연계 오류 43
〈표 3-1〉 보건복지분야 데이터 연계 8가지 유형 활용사례 57
〈표 3-2〉 주요 국가별 데이터 연계 시스템 68
〈표 4-1〉 기준파일 A과 연계파일 B의 예 76
〈표 4-2〉 랜덤 핫덱을 이용한 통합파일의 예 77
〈표 4-3〉 블로킹 후 랜덤 핫덱을 이용한 통합파일의 예 77
〈표 4-4〉 블로킹 후 비제한적 최근접 이웃 랜덤 핫덱을 이용한 통합파일의 예 78
〈표 4-5〉 블로킹 후 제한적 최근접 이웃 랜덤 핫덱을 이용한 통합파일의 예 79
〈표 4-6〉 통계적 매칭 Simulation 비교 방법 81
〈표 5-1〉 한국복지패널과 재정패널 사회경제적 요인 관련 공통변수 표준화 90
〈표 5-2〉 사회경제적 요인 관련 매칭변수 표준화 116
〈표 6-1〉 연령 순서로 정렬된 원자료 166
〈표 6-2〉 순위자료교환방법이 적용된 자료 167
[그림 1-1] 빅데이터와 정부 3.0 22
[그림 2-1] 데이터 매칭 개요 32
[그림 2-2] 데이터 특성 및 매칭 방법에 따른 8가지 유형 35
[그림 2-3] 표본조사, 센서스, 행정자료에 기반한 조사의 비교 38
[그림 2-4] 측정오차 - 데이터 수집방법의 비교 39
[그림 2-5] 정확 매칭 예시 1 41
[그림 2-6] 정확 매칭 예시 2 42
[그림 2-7] 데이터 연계과정 흐름도 45
[그림 2-8] 정확 매칭 항목가중치 예시 48
[그림 2-9] 정확 매칭 종합가중치 예시 48
[그림 2-10] 종합가중치의 분포 49
[그림 2-11] 통계적 매칭 예시 51
[그림 2-12] 고전적인 통계적 매칭 52
[그림 2-13] 비제한적 매칭(Unconstrained Matching) 53
[그림 2-14] 제한적 매칭(Constrained Matching) 54
[그림 3-1] 사회보장정보시스템 59
[그림 3-2] 중증장애인등록DB 구성 및 중증장애인실태조사 조사항목 구성내용 62
[그림 3-3] 한국의료패널의 개념적 틀 및 조사항목 구성내용 63
[그림 3-4] 환자표본자료 데이터 구조 64
[그림 3-5] Blue Matrix 데이터 흐름도 69
[그림 3-6] 인구 집단별 분포 70
[그림 3-7] Blue Matrix 인구집단별 health care 예산별 분포 71
[그림 3-8] Blue Matrix 인구집단별 health care 예산 비교 71
[그림 4-1] 매칭 된 통합파일 log소득분포 비교 84
[그림 4-2] 기준파일과 연계파일의 log소득 분포 비교 85
[그림 4-3] 통계적 매칭 simulation 결과 86
[그림 5-1] 한국복지패널과 재정패널 데이터연계 흐름도 89
[그림 5-2] 한국복지패널과 재정패널 데이터 성별 분포 비교: 매칭 전 91
[그림 5-3] 한국복지패널과 재정패널 데이터 교육수준별 분포 비교: 매칭 전 92
[그림 5-4] 한국복지패널과 재정패널 데이터 연령별 분포 비교: 매칭 전 92
[그림 5-5] 한국복지패널과 재정패널 데이터 연령대별 분포 비교: 매칭 전 93
[그림 5-6] 한국복지패널과 재정패널 데이터 혼인상태별 분포 비교: 매칭 전 93
[그림 5-7] 한국복지패널과 재정패널 데이터 경제활동상태별 분포 비교: 매칭 전 94
[그림 5-8] 한국복지패널과 재정패널 데이터 경상소득별 분포 비교: 매칭 전 94
[그림 5-9] 한국복지패널과 재정패널 데이터 개인소득별 분포 비교: 매칭 전 95
[그림 5-10] 한국복지패널과 재정패널 데이터 성별 분포 비교: 매칭 후 96
[그림 5-11] 한국복지패널과 재정패널 데이터 교육수준별 분포 비교: 매칭 후 97
[그림 5-12] 한국복지패널과 재정패널 데이터 연령별 분포 비교: 매칭 후 97
[그림 5-13] 한국복지패널과 재정패널 데이터 연령대별 분포 비교: 매칭 후 98
[그림 5-14] 한국복지패널과 재정패널 데이터 혼인상태별 분포 비교: 매칭 후 98
[그림 5-15] 한국복지패널과 재정패널 데이터 경제활동상태별 분포 비교: 매칭 후 99
[그림 5-16] 한국복지패널과 재정패널 데이터 경상소득별 분포 비교: 매칭 99
[그림 5-17] 한국복지패널과 재정패널 데이터 개인소득별 분포 비교: 매칭 후 100
[그림 5-18] 복지수혜 여부 No 인 집단 개인소득분포 101
[그림 5-19] 복지수혜 여부 Yes 인 집단 개인소득분포 102
[그림 5-20] 복지수혜 여부와 납세 여부에 따른 4 집단 개인소득분포 103
[그림 5-21] 한국복지패널과 한국의료패널 데이터연계 흐름도 115
[그림 5-22] 한국복지패널과 한국의료패널 데이터 성별 분포 비교: 매칭 전 117
[그림 5-23] 한국복지패널과 한국의료패널 데이터 연령대별 분포 비교: 매칭 전 117
[그림 5-24] 한국복지패널과 한국의료패널 데이터 만성질환 유무별 분포 비교: 매칭 전 118
[그림 5-25] 한국복지패널과 한국의료패널 데이터 경제활동 참여형태별 분포 비교: 매칭 전 118
[그림 5-26] 한국복지패널과 한국의료패널 데이터 성별 분포 비교: 매칭 후 119
[그림 5-27] 한국복지패널과 한국의료패널 데이터 연령대별 분포 비교: 매칭 후 120
[그림 5-28] 한국복지패널과 한국의료패널 데이터 만성질환 유무별 분포 비교: 매칭 후 120
[그림 5-29] 한국복지패널과 한국의료패널 데이터 경제활동 참여형태별 분포 비교: 매칭 후 121
[그림 5-30] 복지패널과 의료패널 분석변수 122
[그림 5-31] 소득수준별 가구 균등화 경상소득 대비 의료비 지출 배율 123
[그림 5-32] 소득수준별 만성질환 유무 분포 124
[그림 5-33] 연령대별 만성질환 유무 분포 124
[그림 5-34] 만성질환 유무별 주관적 건강상태 125
[그림 5-35] 만성질환 유무별 건강만족도 125
[그림 5-36] 만성질환 유무별 생활만족도 126
[그림 5-37] 만성질환 유무별 흡연량 126
[그림 5-38] 만성질환 유무별 음주빈도 127
[그림 5-39] 만성질환 유무별 정신적ㆍ신체적 스트레스 127
[그림 5-40] 만성질환 유무별 미래에 대한 불안 128
[그림 5-41] 만성질환 유무별 자살충동 128
[그림 6-1] 개체 식별성과 익명성과의 관계 143
[그림 6-2] 자료의 유용성과 개인정보 노출위험의 관계 144
[그림 6-3] 블룸 필터를 이용한 q-그램 158
[그림 6-4] 자료의 연계, 공유, 공개 방법의 변화 160
[그림 6-5] 30개의 월급 자료에 대한 히스토그램 174
[그림 6-6] 표준편차가 √2인 이중지수분포 176
[그림 6-7] 차등정보 보호방법이 적용된 히스토그램들 177
[그림 7-1] 두 히스토그램 자료 187