표제지
목차
요약 11
제1장 서론 24
제1절 연구배경 및 목적 25
제2절 연구범위 및 방법 28
제2장 빅데이터 최신 기술 및 동향 32
제1절 빅데이터 플랫폼의 개요 33
1. 카산드라(Cassandra) 34
2. 몽고DB(MongoDB) 36
3. HBase 38
제2절 빅데이터 데이터베이스 NoSQL 40
1. 하둡의 특징 및 활용 방안 41
2. NoSQL 특징 및 활용 방안 46
제3절 빅데이터 처리를 위한 분석 방법론 49
1. NoSQL의 3가지 데이터 모델 50
2. 관계형 데이터 베이스와 NoSQL의 차이 53
3. 세부적인 빅데이터 처리기술에 대한 설명 57
제4절 블록체인을 활용한 개인 정보 보호 65
1. 블록체인의 정의 및 작동 원리 65
2/1. 블록체인과 NoSQL(맵리듀스)를 활용한 개인정보보호 76
제5절 빅데이터 플랫폼 국내외동향 89
1. 빅데이터 시장의 변화 89
2. 빅데이터 국내외 시장 규모 90
3. 주요 기업 및 전략 91
제3장 빅데이터 관련 환경 분석 92
제1절 외부 환경 분석 93
1. 보건복지분야 다기관 협력 빅데이터 플랫폼 현황 94
2. 보건복지분야 단일기관 빅데이터 플랫폼 현황 102
제2절 내부 환경 분석 120
1. 정보시스템별 환경 분석 120
2. 정보시스템 내 자료 활용가능성 분석 133
3. 복지사업에 따른 분류 136
4. 정보시스템별 운영 현황 146
5. 한국사회보장정보원 통계관련 자료현황 149
제4장 빅데이터 플랫폼 구축 추진전략 계획 158
제1절 비전 및 목표 159
제2절 빅데이터 활용 법제도 현황 160
제3절 자료제공 규정과 개인정보보호 163
1. 사회보장정보 자료제공 운영규정 수립 163
2. 개인정보 비식별(익명화, 가명화) 처리 164
제4절 사회보장분야 빅데이터 플랫폼 거버넌스 구축 165
1. 사회보장정보 이용ㆍ제공 제도 마련 165
2. 사회보장정보 이용ㆍ활용 지원 전담조직 구성 168
3. 사회보장 데이터 제공 심의ㆍ결정 기구 구성 169
제5장 분야별 전략과제 171
제1절 사회보장정보시스템 운영 및 취약계층 발굴 172
제2절 사회ㆍ보육 전자바우처시스템 운영 178
제3절 지역보건의료정보시스템 운영 179
제4절 정보보호체계 및 시스템 인프라 운영 180
제5절 고객중심서비스 운영 181
제6절 사회보장정책 지원 182
제7절 빅데이터 플랫폼 구축 방향성 187
제6장 결론 198
제1절 요약 및 시사점 199
참고문헌 205
판권기 208
〈표 1-1〉 데이터 3법 개정에 따른 업무 상 변화 26
〈표 1-2〉 연구 내용 29
〈표 3-1〉 보건의료 빅데이터 플랫폼의 법적근거 95
〈표 3-2〉 보건의료 빅데이터 데이터셋 현황 96
〈표 3-3〉 보건의료 빅데이터 연도별 데이터셋 제공현황 97
〈표 3-4〉 보건의료 빅데이터 정책심의위원회 구성 100
〈표 3-5〉 보건의료 빅데이터 공공성 평가기준 101
〈표 3-6〉 건강보험공단 표본연구DB 종류 104
〈표 3-7〉 국민건강정보자료 제공 심의위원회 구성 107
〈표 3-8〉 건강보험심사평가원 보유데이터 현황 108
〈표 3-9〉 공공데이터 제공 심의위원회 구성 112
〈표 3-10〉 국립암센터 데이터 구성 115
〈표 3-11〉 공공데이터포털 국가중점데이터 117
〈표 3-12〉 급여서비스 보장단위별 복지사업 현황 136
〈표 3-13〉 급여서비스 목록 및 지급단위 139
〈표 3-14〉 제18회 사회보장급여 확인조사 결과 146
〈표 3-15〉 어린이집 운영현황('16.12~'20.2) 147
〈표 3-16〉 보육교직원 현황 147
〈표 3-17〉 2020년도 총괄현황(2020년 2월 기준) 148
〈표 3-18〉 차상위 및 한부모가족 수급자 현황 국가승인통계 149
〈표 3-19〉 기초생활보장통계 현황 150
〈표 3-20〉 의료급여통계 현황 150
〈표 3-21〉 한부모가족통계 현황 151
〈표 3-22〉 장애인복지통계 현황 151
〈표 3-23〉 아동청소년통계 현황 152
〈표 3-24〉 차상위계층통계 현황 152
〈표 3-25〉 기초연금통계 현황 152
〈표 3-26〉 복지시설통계 현황 153
〈표 3-27〉 연도별 사회보장통계 현황 154
〈표 3-28〉 월별 시스템 통계 현황 157
〈표 3-29〉 개방데이터 목록(2020.6.28 기준) 157
〈표 4-1〉 데이터 3법 주요 개정 내용 162
〈표 4-2〉 주요 협의 내용(안) 166
〈표 4-3〉 개인정보 보호법 하위 고시ㆍ가이드ㆍ해설서 정비 계획 166
〈표 4-4〉 내부 협의체 구성안 167
〈표 4-5〉 유관기관 심의위원회 운영 현황 169
〈표 5-1〉 행복e음 통합업무, 소득재산, 변동정보 관련 통계 목록 173
〈표 5-2〉 행복e음 급여관리, 사후관리, 사망의심자 등 세부 통계 목록 174
〈표 5-3〉 복지사각지대 발굴관리시스템 연계기관 및 정보 175
〈표 5-4〉 보육통합정보시스템의 세부 통계 목록 178
〈표 5-5〉 지역보건의료정보시스템의 세부 통계 목록 179
〈표 5-6〉 정보보호시스템의 세부 통계 목록 180
〈표 5-7〉 고객 서비스의 세부 통계 목록 181
〈표 5-8〉 사회보장정책지원 자체연구 수행 현황 182
〈표 5-9〉 2010년도 자체과제 목록 182
〈표 5-10〉 2011년도 자체과제 목록 182
〈표 5-11〉 2012년도 자체과제 목록 183
〈표 5-12〉 2013년도 자체과제 목록 183
〈표 5-13〉 2014년도 자체과제 목록 183
〈표 5-14〉 2015년도 자체과제 목록 184
〈표 5-15〉 2016년도 자체과제 목록 184
〈표 5-16〉 2017년도 자체과제 목록 184
〈표 5-17〉 2018년도 자체과제 목록 185
〈표 5-18〉 2019년도 자체과제 목록 185
〈표 5-19〉 2020년도 자체과제 목록 186
[그림 1-1] 연구흐름도 및 방향성 30
[그림 1-2] 빅데이터 플랫폼 구축의 방향성 31
[그림 2-1] 카산드라 데이터 모델 35
[그림 2-2] 몽고DB 아키텍쳐 37
[그림 2-3] MongoDB 저장구조 38
[그림 2-4] 구글 빅테이블(BigTable)의 각 노드 구조 39
[그림 2-5] Hbase의 기본인 구글 빅테이블(BigTable)(Google Cloud 사이트) 39
[그림 2-6] 구글 빅테이블의 내부 아키텍쳐 40
[그림 2-7] 맵리듀스 처리 41
[그림 2-8] 하둡 분산 파일 시스템 읽기 44
[그림 2-9] 하둡 분산 파일 시스템의 쓰기 44
[그림 2-10] 하둡이 커브로스를 통해서 하는 보안의 예시 47
[그림 2-11] 커브로스를 사용하는 하둡 보안 모델 48
[그림 2-12] NoSQL중에 하나인 아파치 HBase의 칼럼 패밀리 구조 50
[그림 2-13] 키/값 모델 50
[그림 2-14] 순서화된 키/값 저장 모델 52
[그림 2-15] 도큐먼트 키/값 저장 모델 52
[그림 2-16] NoSQL 도메인 파악 54
[그림 2-17] 출력 디자인의 형태 55
[그림 2-18] 도메인의 델리미네이터로 된 키 56
[그림 2-19] 디노멀라이제이션(Denormlization)을 이용해서 중복을 허용한 우편번호 테이블 58
[그림 2-20] 관계형 데이터 베이스와 NoSQL의 Aggregation비교 59
[그림 2-21] 어플리케이션 자체에서 하는 조인(Join) 60
[그림 2-22] (a)원자성 문제가 일어날 수 있는 상황 (b)원자성 문제를 새로운 테이블을 생성하여 해결한 상황 61
[그림 2-23] 사람테이블에서 사람의 주소만으로 서치가 빈번한 경우, 주소만을 인덱스로 해서 테이블을 새로 만드는 경우 62
[그림 2-24] 텔리미네이터(:)를 사용한 복합 키 62
[그림 2-25] 자주 검색되는 단어로 역 서치 인덱스 테이블을 만듬 63
[그림 2-26] 중첩 집합의 예제 64
[그림 2-27] 비잔틴 포용에 기반한 블록체인 합의 65
[그림 2-28] 첫 번째 블록부터 블록이 체인처럼 연결되는 모양. 해쉬 함수를 사용하여 연결을 이루고 있음 67
[그림 2-29] 채굴(마이닝)과 보상인 가상화폐 및 트랜잭션의 관계 67
[그림 2-30] 블록체인의 3요소 68
[그림 2-31] 파일을 저장해 주는 서비스를 하고 대신 가상화폐를 받는 파일코인 69
[그림 2-32] IBM의 블록체인으로 재고관리 70
[그림 2-33] DHL의 블록체인으로 약품 공급 관리 71
[그림 2-34] 구글 연합학습(Fedeated Learning) 개념도 73
[그림 2-35] 엔비디아의 연합학습을 사용하여 개발자와 조직이 여러 위치에 블록체인으로 분산된 의료 데이터를 딥러닝이나 머신러닝을 사용하여 학습하는 모습 74
[그림 2-36] 엔비디아의 블록체인 기반 의료서비스 훈련 및 개선 모델 75
[그림 2-37] 분산 데이터 베이스에 기반한 AI 학습(딥러닝/머신러닝) 모델 75
[그림 2-38] SHDFS에서 제안하는 메타 데이터를 블록체인으로 저장하는 방법론 79
[그림 2-39] SHDFS(단순화된 블록체인 기반의 하둡 분산 파일 시스템) 아키텍쳐 79
[그림 2-40] HBasechainDB의 트랜잭션 흐름도 89
[그림 3-1] 보건의료 빅데이터 플랫폼 운영처리 프로세스 99
[그림 3-2] 표본연구DB 자료제공 세부절차 105
[그림 3-3] 맞춤형연구DB 자료제공 세부절차 106
[그림 3-4] 건강보험심사평가원 주요테이블 관계도 110
[그림 3-5] 건강보험심사평가원 빅데이터 자료이용 절차 112
[그림 3-6] NCDC 보유 및 연계 데이터 114
[그림 3-7] 국립암센터 국가암데이터센터 조직구성 116
[그림 3-8] 국립암센터 국가암데이터센터 추진전략 117
[그림 3-9] 사회보장정보시스템 구성도 121
[그림 3-10] 행복e음 주요서비스 121
[그림 3-11] 행복e음의 운영성과 123
[그림 3-12] 지역보건의료정보시스템 구성도 124
[그림 3-13] 지역보건의료정보시스템의 운영성과 125
[그림 3-14] 사회복지시설정보시스템 구성도 126
[그림 3-15] 보육통합정보시스템 구성도 128
[그림 3-16] 보육통합정보시스템의 운영효과(1) 129
[그림 3-17] 보육통합정보시스템의 운영효과(2) 130
[그림 3-18] 사회서비스전차바우처시스템 구성도 131
[그림 3-19] 취약노인지원시스템 구성도 132
[그림 3-20] 한국사회보장정보원 보유 시스템의 데이터 사이즈 분석결과 133
[그림 3-21] 한국사회보장정보원 보유 시스템 내 테이블 수 분석 134
[그림 3-22] 시스템별 데이터사이즈 및 테이블 수 비교결과 135
[그림 4-1] 빅데이터 플랫폼 구축 추진전략 요약 159
[그림 4-2] 사회보장정보 운영 전담 조직 구성(안) 168
[그림 5-1] 복지사각지대 발굴관리시스템 흐름도 175
[그림 5-2] 2010~2020년 정보분석연구센터의 연구 수행 건수 187
[그림 5-3] 2010~2020년 정보분석연구센터의 년도별 연구 수행 건수 187
[그림 5-4] 2010~2020년 정보분석연구센터의 시스템별 연구 수행 건수 188
[그림 5-5] 2010~2020년 정보분석연구센터의 연구분야별 년도별 연구 건수 188
[그림 5-6] 2010~2020년 복지사각지대, e아동시스템, 플랫폼 연구 수행 건수 189
[그림 5-7] 웹 검색엔진 (네이버)의 복지사각지대, e아동행복지원시스템 트렌드 현황 190
[그림 5-8] 빅데이터 활용 연구과제 목록(안) 191
[그림 5-9] 빅데이터 활용 연구과제 제목 및 목록(안) 192
[그림 5-10] 빅데이터 플랫폼 구축의 방향성(단방향 중심의 도면) 193
[그림 5-11] 분절된 한국사회보장정보원의 대표 시스템 194
[그림 5-12] 한국사회보장정보원 7대 시스템이 통합된 복지분야 빅데이터 플랫폼 195
[그림 5-13] 기능중심의 복지분야 빅데이터 플랫폼 196
[그림 5-14] 차세대 빅데이터 플랫폼과의 연동 197