초록

인간의 지식은 텍스트 형태로 기록되고 다음 세대로 전해진다. 통신기술의 발달로 전 세계에서 각자의 언어를 사용하여 작성된 지식과 다양한 기록들이 인터넷을 통해 실시간으로 배포되고 있다. 하지만 인간의 노력으로 이러한 방대한 양의 문서를 이해하거나 체계적으로 정리하고 이해하기 쉽게 만드는 일은 경제적으로도 물리적으로도 여러 한계점을 갖고 있다.

최근, 인공지능과 빅데이터, 기계학습과 딥러닝 기술들이 다양한 분야에 적용되어 좋은 성과를 나타내고 있다. 이는 자연어처리 분야뿐만 아니라 문서 요약 시스템 개발에도 많은 발전을 이루었다. 1958년 Luhn에 의해 문서 내 문장과 단어의 빈도를 기반으로 중요도를 측정하여 요약하는 시스템이 제안된 이후로 현재까지 다양한 방법론을 적용한 모델들이 제안되었지만, 인공지능, 특히 기계학습 분야에서 높은 Rouge-score를 보이는 모델들은 대부분 원문과 요약문의 형태로 구성된 데이터를 기반으로 학습하여 좋은 성과를 내었다.

하지만 질 좋은 "원문-요약문" 형태의 학습데이터를 구축하는 것은 시간과 비용이 많이 든다. 이러한 문제점에 착안하여 연구자는 다음의 모델을 제안한다. 문서 요약 모델의 학습데이터로서 원문에 대한 요약문의 구성없이 단순 labeling으로 구성된 데이터를 기반으로 분류학습을 수행하였다. 이를 통해 학습된 모델의 내부 가중치를 활용하여 문서 요약시스템을 구성하였다. 학습을 위한 데이터는 국립국어원에서 운영하는 모두의 말뭉치를 통해 '2020 뉴스 기사 데이터'를 활용하였다. 실험을 통해 확인한 제안 모델의 성능은 Rouge-1, 2, L에서 각각 약 25.35%, 14.25%, 25.25%를 기록하였으며 모델 성능의 신빙성 제고를 위해 다른 측정 방법을 사용하여 결과를 도출하였다.