초록

빅데이터에 시대에 접어들면서, 데이터의 활용이 점점 더 중요시되는 만큼 많은 사람들이 데이터의 제공을 요구하고 있다. 데이터를 제공하는 회사나 국가의 입장에서는 데이터를 쉽게 제공하였을 경우 자칫하면 개인정보를 침해할 수 있다.

이에 개인 정보보호에 대한 중요성이 증가하였으며, 방법론 중 개인정보를 보호하면서도 개인의 민감한 정보를 분석하고자 하는 연구자 및 소비자들에게 데이터를 제공할 수 있는 재현자료(Synthetic Data)가 등장했다. 이에 재현자료를 만들기 위한 다양한 기계학습 방법들이 발달하고, 최근에는 딥러닝의 발전에 맞춰 재현자료를 생성하는 여러 방법들이 발달되었다.

본 연구에서는 재현자료 생성 방법 중 성능과 원자료와의 유용성 그리고 보안성 측면에서 가장 좋다고 알려진 CTGAN을 사용하여 가계금융복지 데이터를 이용한 재현자료 생성 방법들을 제안한다.

특정 구간에서의 재현이 안되는 문제를 해결하기 위해 그룹화를 통한 재현자료를 생성 방법과 RDT 패키지를 통한 데이터 변환 작업 후 재현자료 생성 방법을 통해 문제를 해결하고, 각 생성 방법들을 기초 통계량, 파이썬의 SDV package의 평가 측도, R의 synthpop package의 평가 측도, 다양한 시각화 플롯 등을 통해 재현자료의 결과를 범주형 변수와 연속형 변수로 나누어 유용성 측면과 보안성 측면에서 재현자료를 평가한다.