초록

OCR(Optical Character Recognition)이란 사람이 쓰거나 기계로 인쇄한 문자를 컴퓨터가 읽을 수 있는 문자로 변환하는 기술로, 오늘날 우편사업, 교육, 금융 및 물류, 의료업 등에 쓰이고 있으며, 최근 우리나라 전통 고서나 고문서 안의 한자를 대상으로 범위를 확장하고 있다. 국내 고서 한자 OCR의 개발은 정부에 의해 2009년 최초로 시도된 이후, 2020년 본격적으로 1,000만자라는 대규모 단위의 체계적인 사업이 시작된 바 있다. 그러나 2020년 시행된 고서 한자 OCR 사업의 경우 다양한 한자를 수집하지 않았으며 대부분 해서만을 수집하였다는 한계점을 가지고 있다. 다양한 한자의 여러 서체를 수집하는 것은 OCR의 성능을 결정짓는 핵심적인 요소이다. 이에, 본 연구는 고서 한자 OCR구축을 위한 데이터 수집의 방안과 고서 한자 OCR의 활용 방안을 탐색해보았다. 먼저, 정확도가 높은 고서 한자 OCR을 구축하기 위해 고서 이외에도 서화, 예술 작품, 생활 용품 등 원천 데이터 종류를 확대할 필요가 있다. 또, 다양한 서체를 수집하기 위해 금속활자, 목활자, 목판본 등 인쇄 도구를 기준으로 할 수도 있다. 또한, 서로 다른 많은 한자를 포함하기 위해 운서나 옥편, 자전을 필수적으로 수집할 필요가 있다. 고서 한자 OCR의 결과물은 번역, 디지털 아카이브의 구축, 글꼴 개발, 관광 산업, 서체 인식을 통한 저자 및 년대 추정, 보존학에 활용될 수 있으며, 이는 사업 계획 단계에서 각 연구 기관, 교육 기관, 지역 박물관이나 역사관 등의 수요 기관과의 논의를 통해 구체적인 목표를 설정하고 진행해야할 필요가 있다.

고서 한자 OCR은 우리 문화를 담고있는 매우 중요한 기록유산으로 이에 대한 접근성을 높이는 것은 우리나라 인문학의 발전을 앞당기며, 이를 기반한 새로운 콘텐츠의 제작으로 학문, 산업 분야의 발전과 다양한 일자리를 창출하는데 기여할 것이다. 본 연구의 성과가 향후 더 높은 정확성과 사용성을 갖춘 고서 한자 인식 OCR을 개발하는데 일조할 수 있기를 기대한다.