초록

최근 우리 사회의 핵심적인 이슈로는 빅데이터 및 데이터 분석이 각광을 받고 있다. 기존의 데이터가 단순히 과거에 일어난 사건을 기록하고 이를 보존하는 것을 위한 것이었다면, 데이터 분석 기술은 축적된 데이터를 바탕으로 미래를 예측하고 새로운 가치를 도출하는 것을 목적으로 한다. 데이터 분석에 대한 관심이 높아지면서 그 기반이 되는 데이터 자체의 가치도 높아지고 있는데 이는 결국 축적된 데이터의 품질에 관한 이슈로 이어진다. 사회 각 분야에서는 자체적으로 보유하고 있는 데이터의 품질을 개선하여 데이터의 가치를 높이고 양질의 분석을 하고자 하는 움직임이 늘어나고 있으며 질병 관리 분야에서 이러한 경향이 두드러지게 나타나고 있다.

문제는 현재 대부분의 질병 관련 데이터들은 각종 연구 단체와 정부 산하 기관에서 활용하고 있으며 이를 통합하는 과정에 데이터의 표준화 및 데이터 품질관리에 대한 인식이 부족하여 데이터의 신뢰성과 실효성이 낮다는 점에 있다. 또한 각 데이터베이스의 설계가 효율적으로 진행되지 않아서 오류 데이터가 산재하고 있으며 정보통신 기술이 보급되기 전에 생성된 데이터들에 대해서도 기존의 아날로그 데이터를 단순히 데이터베이스에 입력한 수준으로 관리되고 있어 데이터의 의미와 실질성을 담보할 수 없는 것이 현실이다. 이러한 상황에서는 데이터 분석 기술이 실질적인 효과를 거두기가 매우 어려우며 잘못된 분석과 예측이 이루어질 가능성이 높다. 이는 결과적으로 잘못된 의사결정으로 이어지며 질병 관련 분야의 특성상 정책 실패는 막대한 인명·재산 피해로 이어지기 쉽다.

따라서 본 논문에서는 먼저 현재 관리되고 있는 질병 데이터베이스 시스템에 대하여 데이터 품질관리 체계를 제시하고 데이터 품질관리 체계 도입 방안을 마련함으로써 질병 데이터의 품질 향상에 기여하고자 한다.