표제지
목차
요약 6
제1장 서론 7
제1절 연구배경 및 목적 7
제2절 연구추진 방법 9
제2장 데이터 비식별화 방법 10
제1절 용어 정의 10
제2절 비식별화 방법 현황 11
제3장 선행 연구 1
제1절 국내 선행 연구 19
제2절 국외 선행 연구 24
제4장 데이터 유용성 확보 방법론 28
제1절 차분 정보보호의 고전적 정의 28
제2절 가설검증 기반 31
제3절 모형 기반 32
제4절 딥러닝 기반 35
제5절 기타 방법 39
제5장 데이터 유용성 검증(평가) 방법 42
제1절 개념 정의 42
제2절 거리 기반 방법 43
제3절 통계적 추론 기반 방법 48
제4절 모의실험에서 데이터 유용성 방법 선정 51
제6장 모의실험 53
제1절 데이터 소개 53
제2절 데이터 기초 분석 54
제3절 방법론 결과 비교 60
제7장 통계 작성 방안 79
제1절 DP 적용 사례 79
제2절 통계 작성 시 고려사항 88
제8장 결론 및 시사점 91
제1절 결론 91
제2절 시사점 93
참고문헌 94
[부록] 96
Abstract 123
판권기 124
〈표 3-1〉 국내 선행 연구(1) 19
〈표 3-2〉 국내 선행 연구(2) 20
〈표 3-3〉 국내 선행 연구(3) 21
〈표 3-4〉 국내 선행 연구(4) 22
〈표 3-5〉 국외 선행 연구(1) 25
〈표 3-6〉 국외 선행 연구(2) 26
〈표 3-7〉 국외 선행 연구(3) 27
〈표 5-1〉 모의실험 분석 유형 52
〈표 6-1〉 자료 변수 현황(1차 선정) 54
〈표 6-2〉 항목별 기초 통계량(R summary) 55
〈표 6-3〉 극단 값 제거 후 항목별 기초 통계량(R summary) 56
〈표 6-4〉 모의실험 최종 변수 선정(2차 선정) 58
〈표 6-5〉 산업대분류별 데이터 현황(3차 선정) 58
〈표 6-6〉 산업대분류별 최종 데이터 현황(4차 선정) 59
〈표 6-7〉 (∊, δ-DP와 μ-GDP) 당기순이익 평균 비교_전체 데이터 61
〈표 6-8〉 (∊, δ-DP와 μ-GDP) 재무활동 현금흐름표 평균 비교_전체 데이터 62
〈표 6-9〉 (∊, δ-DP와 μ-GDP) 당기순이익 분산 비교_전체 데이터 64
〈표 6-10〉 (∊, δ-DP와 μ-GDP) 재무활동 현금흐름표 분산 비교_전체 65
〈표 6-11〉 (∊, δ-DP와 DPSGD) 당기순이익 MAPE 비교 67
〈표 6-12〉 (∊, δ--DP와 DPSGD) 재무활동 현금흐름 MAPE 비교 68
〈표 6-13〉 x에 적용되는 산업 대분류 별 ι₁ 전역 민감성 71
〈표 6-14〉 s²에 적용되는 산업 대분류 별 ι₁ 전역 민감성 71
〈표 6-15〉 차분 정보보호 수준별 베이지안 추정량(사후 기댓값) 74
〈표 6-16〉 차분 정보보호 수준별 통계량 비교 77
〈표 6-17〉 차분 정보보호 수준별 신뢰구간 중첩성 비교 78
〈표 7-1〉 유용성 측정 방법 86
〈그림 1-1〉 비식별화 기법 연구 현황 8
〈그림 2-1〉 비식별화 방법(개인정보 삭제) 예시 12
〈그림 2-2〉 비식별화 방법(해부화) 17
〈그림 2-3〉 데이터 비식별화 방법 현황 17
〈그림 4-1〉 GDP Algorithm 32
〈그림 4-2〉 Bayesian Multiple Synthesis Algorithm 33
〈그림 4-3〉 Modips Algorithm 34
〈그림 4-4〉 DP-SGD(Mini-Batch) Algorithm 37
〈그림 4-5〉 DP-SYN Algorithm 39
〈그림 4-6〉 DPCopula Algorithm 41
〈그림 5-1〉 신뢰구간 중복도 예시(회귀계수 beta) 49
〈그림 5-2〉 모든 쌍의 상관계수 예시 50
〈그림 5-3〉 성향 점수 방법 예시 51
〈그림 6-1〉 전자공시시스템(DART) 홈페이지 53
〈그림 6-2〉 변수(y04, y07, y09, y11, z03, z05) Q-Qplot(2차 선정) 57
〈그림 6-3〉 변수(y04, y07, y09, y11, z03, z05) Histogram(2차 선정) 57
〈그림 6-4〉 모의실험 최종 변수 선정(Q-Qplot, Histogram) 59
〈그림 6-5〉 (∊, δ-DP와 μ-GDP) 당기순이익 평균 비교_전체 데이터 61
〈그림 6-6〉 (∊, δ-DP와 μ-GDP) 재무활동 현금흐름표 평균 결과_전체 데이터 62
〈그림 6-7〉 (∊, δ-DP와 μ-GDP) 당기순이익 분산 비교_전체 데이터 64
〈그림 6-8〉 (∊, δ-DP와 μ-GDP) 재무활동 현금흐름표 분산 결과_전체 데이터 65
〈그림 6-9〉 (∊, δ-DP와 DPSGD) 당기순이익 MAPE 비교 67
〈그림 6-10〉 (∊, δ-DP와 DPSGD) 재무활동 현금흐름 MAPE 비교 68
〈그림 6-11〉 당기순이익(손실) 내 s=(x,s²)에 추가되는 ℒ(0,Δ₁∊-¹) 밀도 72
〈그림 6-12〉 재무활동으로 인한 현금흐름 내 s=(x,s²)에 추가되는 ℒ(0,Δ₁∊-¹) 밀도 72
〈그림 6-13〉 μ와 λ의 trace plot 74
〈그림 6-14〉 항목별 차분 정보보호를 적용한 μ, λ의 95% 신뢰구간 75
〈그림 6-15〉 항목별 차분 정보보호를 충족시키는 재현자료의 분포 76
〈그림 7-1〉 On the map application 사례(2008년) 79
〈그림 7-2〉 Opportunity Atlas, PSEO 사례 80
〈그림 7-3〉 2020 Census 선거구 재구획 자료의 DP 적용 81
〈그림 7-4〉 선거구 재구획 자료의 변수별 카테고리수 82
〈그림 7-5〉 선거구 재구획 자료의 불가능/불일치 사례의 비율 84
〈그림 7-6〉 인구에 대한 프라이버시 예산 분배 85
〈그림 7-7〉 가구에 대한 프라이버시 예산 분배 85
〈그림 7-8〉 (2020년) 산업대분류별 평균 근로시간 차분 정보보호 적용 예시 87
〈그림 7-9〉 연도별 원자료와 DP 적용 자료의 (전체)평균 근로시간 차이 87
〈그림 7-10〉 원자료와 DP 적용 자료의 (전체)평균 근로시간 증감 차이 88
〈부표 4-1〉 (∊, δ-DP와 μ-GDP) 당기순이익 평균 비교_전체 데이터 102
〈부표 4-2〉 (∊, δ--DP와 μ-GDP) 당기순이익 평균 비교_C(제조업) 102
〈부표 4-3〉 (∊, δ--DP와 μ-GDP) 당기순이익 평균 비교_G(도매 및 소매업) 103
〈부표 4-4〉 (∊, δ--DP와 μ-GDP) 당기순이익 평균 비교_J(정보통신업) 103
〈부표 4-5〉 (∊, δ-DP와 μ-GDP) 당기순이익 분산 비교_전체 데이터 104
〈부표 4-6〉 (∊, δ--DP와 μ-GDP) 당기순이익 분산 비교_C(제조업) 104
〈부표 4-7〉 (∊, δ--DP와 μ-GDP) 당기순이익 분산 비교_G(도매 및 소매업) 105
〈부표 4-8〉 (∊, δ--DP와 μ-GDP) 당기순이익 분산 비교_J(정보통신업) 105
〈부표 4-9〉 (∊, δ-DP와 μ-GDP) 재무활동 현금흐름표 평균 비교_전체 데이터 106
〈부표 4-10〉 (∊, δ--DP와 μ-GDP) 재무활동 현금흐름표 평균 비교_C(제조업) 106
〈부표 4-11〉 (∊, δ--DP와 μ-GDP) 재무활동 현금흐름표 비교_G(도매 및 소매업) 107
〈부표 4-12〉 (∊, δ--DP와 μ-GDP) 재무활동 현금흐름표 평균 비교_J(정보통신업) 107
〈부표 4-13〉 (∊, δ-DP와 μ-GDP) 재무활동 현금흐름표 분산 비교_전체 데이터 108
〈부표 4-14〉 (∊, δ--DP와 μ-GDP) 재무활동 현금흐름표 분산 비교_C(제조업) 108
〈부표 4-15〉 (∊, δ--DP와 μ-GDP) 재무활동 현금흐름표 분산 비교_G(도매 및 소매업) 109
〈부표 4-16〉 (∊, δ--DP와 μ-GDP) 재무활동 현금흐름표 분산 비교_J(정보통신업) 109
〈부표 5-1〉 (∊, δ-DP와 DPSGD) 당기순이익 평균 비교_전체 데이터 110
〈부표 5-2〉 (∊, δ--DP와 DPSGD) 당기순이익 평균 비교_C(제조업) 110
〈부표 5-3〉 (∊, δ--DP와 DPSGD) 당기순이익 평균 비교_G(도매 및 소매업) 111
〈부표 5-4〉 (∊, δ--DP와 DPSGD) 당기순이익 평균 비교_J(정보통신업) 111
〈부표 5-5〉 (∊, δ-DP와 DPSGD) 재무활동 현금흐름표 평균 비교_전체 데이터 112
〈부표 5-6〉 (∊, δ--DP와 DPSGD) 재무활동 현금흐름표 평균 비교_C(제조업) 112
〈부표 5-7〉 (∊, δ--DP와 DPSGD)) 재무활동 현금흐름표 평균 비교_G(도매 및 소매업) 113
〈부표 5-8〉 (∊, δ--DP와 DPSGD) 재무활동 현금흐름표 평균 비교_J(정보통신업) 113
〈부표 6-1〉 차분 정보보호 수준별 베이지안 추정량 114
〈부표 6-2〉 차분 정보보호 수준별 통계량 비교 119
〈부표 6-3〉 차분 정보보호 수준별 신뢰구간 중첩성 비교 120
부그림목차
〈부그림 1-1〉 극단 값 제거 후 변수별(X01~X06) Boxplot 96
〈부그림 1-2〉 극단 값 제거 후 변수별(X07~Y05) Boxplot 96
〈부그림 1-3〉 극단 값 제거 후 변수별(Y05~Y11) Boxplot 97
〈부그림 1-4〉 극단 값 제거 후 변수별(Z01~Z05) Boxplot 97
〈부그림 2-1〉 극단 값 제거 후 변수별(X01~X06) QQplot 98
〈부그림 2-2〉 극단 값 제거 후 변수별(X07~Y05) QQplot 98
〈부그림 2-3〉 극단 값 제거 후 변수별(Y05~Y11) QQplot 99
〈부그림 2-4〉 극단 값 제거 후 변수별(Z01~Z05) QQplot 99
〈부그림 3-1〉 극단 값 제거 후 변수별(X01~X06) 히스토그램 100
〈부그림 3-2〉 극단 값 제거 후 변수별(X07~Y05) 히스토그램 100
〈부그림 3-3〉 극단 값 제거 후 변수별(Y05~Y11) 히스토그램 101
〈부그림 3-4〉 극단 값 제거 후 변수별(Z01~Z05) 히스토그램 101
〈부그림 6-1〉 항목별 차분 정보보호를 적용한 μ, λ의 95% 신뢰구간(C분류) 115
〈부그림 6-2〉 항목별 차분 정보보호를 적용한 μ, λ의 95% 신뢰구간(G분류) 116
〈부그림 6-3〉 항목별 차분 정보보호를 적용한 μ, λ의 95% 신뢰구간(J분류) 117
〈부그림 6-4〉 항목별 차분 정보보호를 충족시키는 재현자료의 분포 118