표제지 1
목차 5
요약 15
제1장 서론 18
제1절 사업의 배경 및 목적 19
제2절 연구의 내용 및 추진 방법 22
제2장 이론적 배경 24
제1절 인공지능(AI)의 개념 및 최신 기술 동향 25
1. 인공지능(AI)의 개념 25
2. 주요 국가의 인공지능(AI) 법률에서 정의하는 인공지능(AI) 29
3. 인공지능(AI) 관련 최신 기술 동향 31
제2절 데이터 오류 탐지 방법론 44
1. 규칙 기반 오류 확인 방법 44
2. 연관규칙 활용 방안 44
3. 머신러닝(ML), 딥러닝(DL) 방법 48
제3절 통계업무프로세스모델 61
제4절 선행연구 검토 71
1. 국외 선행연구 71
2. 국내 선행연구 73
제5절 소결 79
제3장 인공지능(AI)을 활용한 통계작성 사례 분석 82
제1절 주요 외국의 인공지능(AI) 활용 통계작성 사례 83
1. 국가 및 국제기구 통계기관의 머신러닝 활용 실태 83
2. 유엔 유럽경제위원회(UNECE) 머신러닝 파이럿 프로젝트 87
3. 공식 통계를 위한 대형 언어모델(LLM) 92
제2절 우리나라의 인공지능(AI) 활용 통계작성 사례 분석 93
1. 인공지능(AI) 통계분류 자동화 93
2. 해외 한류 콘텐츠 침해 실태조사 97
3. 일상언어로 묻고 답하는 초거대 AI 통계 챗봇 100
제3절 소결 102
제4장 조사데이터 품질관리 내부 현황 분석 104
제1절 조사데이터 품질관리 105
1. 통계자료, 조사자료, 조사데이터 개념 105
2. 통계 품질관리 106
3/4. 조사데이터의 품질관리 114
제2절 한국의료패널 조사데이터 품질관리 절차 및 방법 115
1. 한국의료패널의 개요 115
2. 한국의료패널 조사데이터 품질관리 절차 및 방법 116
3. 한국의료패널 조사데이터의 품질관리 이슈 122
제3절 소결 124
제5장 조사데이터 품질관리 적용 방안 - 한국의료패널 데이터 실증 125
제1절 데이터 오류 수정 방안 126
1. 데이터 오류 유형 126
2. 오류 수정 알고리즘 127
제2절 한국의료패널 데이터 특성 134
제3절 데이터 실증 137
1. 메타정보와 검수 질의문 137
2. 검수 질문의 유형 146
3. 유형별 적용 결과 150
4. 대형 언어모델(LLM)을 활용한 검수 질의문 생성 152
5. 실무 적용 가능성 검토 결과 180
제4절 소결 184
제6장 결론 및 제언 185
제1절 결론 186
제2절 제언 189
참고문헌 193
[부록 1] 검색증강기술(RAG) 분석 결과 200
Abstract 279
판권기 2
표목차 7〈표 1-1〉 한국보건사회연구원 조사데이터 생산 현황(2016~2022년) 20
〈표 2-1〉/〈표 2-2〉 지도 학습 방법 및 응용 사례 32
〈표 2-2〉/〈표 2-3〉 비지도 학습 방법 및 응용 사례 33
〈표 2-3〉/〈표 2-4〉 강화 학습 방법 및 응용 사례 34
〈표 2-4〉/〈표 2-5〉 합성곱 신경망(CNN)과 순환 신경망(RNN) 설명 및 응용 사례 36
〈표 2-5〉/〈표 2-6〉 예시 데이터와 대한 동시출현 빈도표 46
〈표 2-6〉/〈표 2-7〉 연관규칙 X→Y에 대한 지지도, 신뢰도, 향상도 47
〈표 2-7〉/〈표 2-8〉 iForest의 예제 50
〈표 2-8〉/〈표 2-9〉 일반통계업무프로세스(GSBPM)-'요구사항 명세' 단계의 하위 프로세스 63
〈표 2-9〉/〈표 2-10〉 일반통계업무프로세스모델(GSBPM)-'설계' 단계의 하위 프로세스 64
〈표 2-10〉/〈표 2-11〉 일반통계업무프로세스모델(GSBPM)-'구축' 단계의 하위 프로세스 65
〈표 2-11〉/〈표 2-12〉 일반통계업무프로세스모델(GSBPM)-'수집' 단계의 하위 프로세스 66
〈표 2-12〉/〈표 2-13〉 일반통계업무프로세스모델(GSBPM)-'처리' 단계의 하위 프로세스 67
〈표 2-13〉/〈표 2-14〉 일반통계업무프로세스모델(GSBPM)-'분석' 단계의 하위 프로세스 68
〈표 2-14〉/〈표 2-15〉 일반통계업무프로세스모델(GSBPM)-'배포' 단계의 하위 프로세스 68
〈표 2-15〉/〈표 2-16〉 일반통계업무프로세스모델(GSBPM)-'평가' 단계의 하위 프로세스 69
〈표 2-16〉/〈표 2-17〉 1차 데이터의 머신러닝(ML) 활용 가능성(Yung 등, 2018) 72
〈표 2-17〉/〈표 2-18〉 국가통계의 인공지능(AI)ㆍ빅데이터 기술 도입의 두 가지 시각(김정민 등, 2020) 74
〈표 2-18〉/〈표 2-19〉 머신러닝(ML) 활용이 가능한 통계업무프로세스 및 예상 기술군(김정민, 2021) 75
〈표 2-19〉/〈표 2-20〉 통계업무 프로세스 단계별 인공지능(AI) 적용 가능 업무(이상현, 2021) 76
〈표 2-20〉/〈표 2-21〉 통계청의 AI 기법 적용 국가통계사례(이상현, 2021) 77
〈표 3-1〉 주요 국가 통계기관의 머신러닝 활용 실태 83
〈표 3-2〉 머신러닝(프로젝트) 통계 주제 85
〈표 3-3〉 머신러닝(프로젝트) 활용 형태 85
〈표 3-4〉 머신러닝(프로젝트) 알고리즘 방법 86
〈표 3-5〉 유엔 유럽경제위원회(UNECE)의 머신러닝(ML) 파일럿 연구(코딩 및 분류) 87
〈표 3-6〉 유엔 유럽경제위원회(UNECE)의 머신러닝(ML) 파일럿 프로젝트(편집 및 대체) 89
〈표 3-7〉 유엔 유럽경제위원회(UNECE)의 머신러닝(ML) 파일럿 연구(이미지 분석) 90
〈표 3-8〉 국가 및 국제기구의 대형 언어모델(LLM) 도입 사례(UNECE, 2023) 92
〈표 3-9〉 머신러닝 기반 산업분류 예측 성능 평가 94
〈표 3-10〉 한류 콘텐츠 AI 분류기의 장점과 단점 99
〈표 4-1〉 통계청의 통계 품질 차원 107
〈표 4-2〉 통계청의 통계 품질 진단 항목 109
〈표 4-3〉 공공데이터 품질 지표 111
〈표 4-4〉 공공데이터 품질 진단 방법 112
〈표 4-5〉 공공데이터의 품질 지표별 진단 방법 113
〈표 4-6〉 한국의료패널 조사데이터 내검 목록(이상치 탐지 목록) 118
〈표 5-1〉 데이터 오류 유형 126
〈표 5-2〉 데이터 오류를 수정하기 위한 소프트웨어 128
〈표 5-3〉 데이터 오류를 수정하기 위한 대표적 알고리즘 129
〈표 5-4〉 시각화 도구 130
〈표 5-5〉 YData Profiling report 옵션 130
〈표 5-6〉 예제 자료에 대한 YData Profiling 실행 예시 131
〈표 5-7〉 탐색적 자료 분석과 시각화를 위한 python 패키지 133
〈표 5-8〉 한국의료패널 데이터의 조사항목과 내용 134
〈표 5-9〉 데이터 오류를 수정하기 위한 알고리즘 135
〈표 5-10〉 세대 구성 변수의 코드와 설명 138
〈표 5-11〉 데이터 크기와 변수와 수준 수 138
〈표 5-12〉 ID 및 가구원 변동 사항(ID) 변수의 코드와 설명 139
〈표 5-13〉 가구원 데이터(IND) 변수의 코드와 설명 140
〈표 5-14〉 가구 데이터(HH) 변수의 코드와 설명 140
〈표 5-15〉 데이터 병합 예시 142
〈표 5-16〉 사전 검수 질의문 143
〈표 5-17〉 시각화 그래프에 활용되는 툴 151
〈표 5-18〉 변수와 파생변수 및 json 표현 157
〈표 5-19〉 가구데이터(HH)의 사망 가구원 포함 여부(DEATH_YN) 변수에 대한 '보기 문항 내용'과 '사용 주의사항' 변수의 내용을 반영한 json 자료 구조 158
〈표 5-20〉 검수 질의문에 대한 논리적 오류 검토 159
〈표 5-21〉 분포 인지 RAG 기반 검수 질의문 추천 알고리즘 161
〈표 5-22〉 단계 1에서의 RAG 1 이상치 탐지 기준 생성 예시 163
〈표 5-23〉 단계 2에서의 RAG 2 이상치 범위 생성 예시 164
〈표 5-24〉 유형 1) 문항 번호 4 169
〈표 5-25〉 유형 2) 문항 번호 27-1 170
〈표 5-26〉 유형 2) 문항 번호 27-2 171
〈표 5-27〉 유형 2) 문항 번호 27-3 172
〈표 5-28〉 유형 2) 문항 번호 27-4 173
〈표 5-29〉 유형 3) 문항 번호 11 174
〈표 5-30〉 유형 4) 문항 번호 15 175
〈표 5-31〉 유형 5) 문항 번호 24 176
〈표 5-32〉 유형 6) 문항 번호 9 177
〈표 5-33〉 유형 7) 문항 번호 39 178
〈표 5-34〉 유형 8) 문항 번호 3 179
〈표 5-35〉 생성된 탐지 기준 적용 가능성 검토 182
그림목차 13
[그림 1-1] 연구의 내용 및 추진 방법 23
[그림 2-1] 인공지능에 대한 정의와 범주 26
[그림 2-2] 검색증강생성기술(RAG) 모델 아키텍처 55
[그림 2-3] LangChain 파이프라인 구조도 59
[그림 2-4] 일반통계업무프로세스모델(GSBPM) 62
[그림 2-5] 한국형 통계업무프로세스모델(KSBPM) 70
[그림 2-6] 머신러닝(ML) 적용 가능 분야(Beck 등, 2018) 71
[그림 2-7] 조사 연구에서 인공지능(AI) 활용 방안(이기재, 2023) 78
[그림 2-8] 인공지능을 활용한 통계 생산 방식 효율화(김정민, 2023) 78
[그림 2-9] 통계업무 프로세스 단계별 인공지능(AI) 적용 가능 업무(종합) 80
[그림 3-1] 연도별 미국 상해 및 질병 데이터 자동코딩 성공률 89
[그림 3-2] 지도 학습 기반 분류 학습을 위한 초기 기준 모델 93
[그림 3-3] 기존 시스템과 인공지능(AI) 통계분류 시스템 성능 비교(분류 예측 정확도) 95
[그림 3-4] 인공지능(AI) 통계분류 자동화 시스템 개념도 95
[그림 3-5] 인공지능(AI) 통계분류 모델 구축(5개 조사, 5종 분류) 및 성능평가 결과 96
[그림 3-6] 기존 시스템과 인공지능(AI) 통계분류 시스템 성능 비교(분류 예측 정확도) 97
[그림 3-7] 한류 콘텐츠 AI 분류기 모델 개념도 98
[그림 3-8] 한류 콘텐츠 인공지능(AI) 분류기 학습 과정 99
[그림 3-9] 규칙 기반 챗봇의 서비스 개념도 100
[그림 3-10] 대형 언어모델 기반 챗봇의 서비스 개념도 101
[그림 4-1] 한국의료패널 조사데이터 수집 과정 116
[그림 5-1] 예제 자료에 대한 YData Profiling 실행 결과 132
[그림 5-2] 유형 1과 2의 순서도 147
[그림 5-3] 유형 3과 4의 순서도 148
[그림 5-4] 유형 5와 6의 순서도 149
[그림 5-5] 유형 7과 8의 순서도 150
[그림 5-6] 샷 및 학습 전후의 이상치 탐지 예시 154
[그림 5-7] 테이블 구조 데이터와 세 변수의 3차원 텐서 155
[그림 5-8] RAG 2에서 활용되는 DB 예시 162
[그림 5-9] 생성된 규칙에 대한 2차원 결합분포와 주변분포 165
[그림 5-10] SAS 코드 생성 실험 결과 166
[그림 5-11] 이상치 범위 변경 후, SAS 코드 생성 결과 167
[그림 5-12] SAS 코드 대비 질의문의 정보 제한 예시 167
[그림 5-13] 질의문과 SAS 코드 간의 정보 불일치 예시 168
[그림 6-1] 자연어 질의문에 대한 코드 생성 191
[그림 6-2] 대형 언어모델(LLM)을 활용한 데이터 품질평가 시스템 아키텍처 192
부표목차 9〈부표 1〉 유형 1) 문항 번호 1 200
〈부표 2〉 유형 1) 문항 번호 2 201
〈부표 3〉 유형 1) 문항 번호 20 202
〈부표 4〉 유형 1) 문항 번호 29 203
〈부표 5〉 유형 1) 문항 번호 30 204
〈부표 6〉 유형 2) 문항 번호 8 205
〈부표 7〉 유형 2) 문항 번호 25-1 206
〈부표 8〉 유형 2) 문항 번호 25-2 207
〈부표 9〉 유형 2) 문항 번호 25-3 208
〈부표 10〉 유형 2) 문항 번호 25-4 209
〈부표 11〉 유형 2) 문항 번호 26-1 210
〈부표 12〉 유형 2) 문항 번호 26-2 211
〈부표 13〉 유형 2) 문항 번호 28-1 212
〈부표 14〉 유형 2) 문항 번호 28-2 213
〈부표 15〉 유형 2) 문항 번호 44-1 214
〈부표 16〉 유형 2) 문항 번호 44-2 215
〈부표 17〉 유형 2) 문항 번호 44-3 216
〈부표 18〉 유형 2) 문항 번호 44-4 217
〈부표 19〉 유형 2) 문항 번호 45-1 218
〈부표 20〉 유형 2) 문항 번호 45-2 219
〈부표 21〉 유형 2) 문항 번호 50 220
〈부표 22〉 유형 2) 문항 번호 53-1 221
〈부표 23〉 유형 2) 문항 번호 53-2 222
〈부표 24〉 유형 2) 문항 번호 53-3 223
〈부표 25〉 유형 2) 문항 번호 53-4 224
〈부표 26〉 유형 2) 문항 번호 57-1 225
〈부표 27〉 유형 2) 문항 번호 57-2 226
〈부표 28〉 유형 2) 문항 번호 57-3 227
〈부표 29〉 유형 2) 문항 번호 57-4 228
〈부표 30〉 유형 2) 문항 번호 57-5 229
〈부표 31〉 유형 2) 문항 번호 59-1 230
〈부표 32〉 유형 2) 문항 번호 59-2 231
〈부표 33〉 유형 3) 문항 번호 10 232
〈부표 34〉 유형 4) 문항 번호 3 233
〈부표 35〉 유형 4) 문항 번호 5 234
〈부표 36〉 유형 4) 문항 번호 14 235
〈부표 37〉 유형 4) 문항 번호 17 236
〈부표 38〉 유형 5) 문항 번호 16 237
〈부표 39〉 유형 5) 문항 번호 47 238
〈부표 40〉 유형 5) 문항 번호 49 239
〈부표 41〉 유형 6) 문항 번호 6 240
〈부표 42〉 유형 6) 문항 번호 7 241
〈부표 43〉 유형 6) 문항 번호 12 242
〈부표 44〉 유형 6) 문항 번호 13 243
〈부표 45〉 유형 6) 문항 번호 18 244
〈부표 46〉 유형 6) 문항 번호 19 245
〈부표 47〉 유형 6) 문항 번호 21 246
〈부표 48〉 유형 6) 문항 번호 22 247
〈부표 49〉 유형 6) 문항 번호 23 248
〈부표 50〉 유형 6) 문항 번호 31 249
〈부표 51〉 유형 6) 문항 번호 32 250
〈부표 52〉 유형 6) 문항 번호 34 251
〈부표 53〉 유형 6) 문항 번호 35 252
〈부표 54〉 유형 6) 문항 번호 36 253
〈부표 55〉 유형 6) 문항 번호 37 254
〈부표 56〉 유형 6) 문항 번호 38 255
〈부표 57〉 유형 6) 문항 번호 46 256
〈부표 58〉 유형 6) 문항 번호 48 257
〈부표 59〉 유형 6) 문항 번호 51 258
〈부표 60〉 유형 6) 문항 번호 52 259
〈부표 61〉 유형 6) 문항 번호 54 260
〈부표 62〉 유형 6) 문항 번호 55 261
〈부표 63〉 유형 6) 문항 번호 56 262
〈부표 64〉 유형 6) 문항 번호 58_1 263
〈부표 65〉 유형 6) 문항 번호 58_2 264
〈부표 66〉 유형 6) 문항 번호 61 265
〈부표 67〉 유형 6) 문항 번호 62 266
〈부표 68〉 유형 6) 문항 번호 63 267
〈부표 69〉 유형 7) 문항 번호 40~43 268