자동 문서 요약(Automatic Document Summarization)은 문서의 중요한 내용은 유지하면서 길이가 짧은 요약문을 만들어 내는 것을 목표로 하는 연구 분야이다. 최근 다양한 컨텐츠에 걸쳐 중요한 내용을 요약해 서비스를 제공하는 서머리(Summary) 산업에 대한 수요가 증가하고 있으며, 이에 컨텐츠를 자동으로 요약해 제공하는 자동 요약 서비스 또한 개발되고 있다. 그동안 자동 문서 요약은 대용량의 데이터셋을 이용한 지도 학습 기반의 심층 신경망 모델을 사용해왔다. 하지만 늘어나는 산업의 수요와는 달리 자동 요약을 위한 요약 데이터셋이 여전히 부족한 실정이다. 또한 이런 요약 데이터셋은 다른 데이터셋에 비해 제작 비용이 크다는 문제점도 있다. 이런 데이터 부족 문제는 요약 문야 뿐만 아니라 자연어 처리 전반에 걸쳐 새로운 문제점으로 대두되고 있다.
이를 해결하기 위해 이미 보유하고 있는 데이터셋을 외부 정보로 활용해 모델이 접하지 못한 새로운 데이터에 대해서도 예측할 수 있도록 학습하는 Zero-Shot Learning(ZSL), 정답이 없는 원 데이터로부터 데이터 부분들의 관계를 통해 라벨을 자동으로 생성해 마치 지도 학습처럼 모델을 학습하는 자가 지도 학습(Self-Supervised Learning) 등의 기법이 등장했다. 이들의 공통점은 기존의 데이터에 대한 좋은 표현을 만들어 모델이 기존에 보지 못한 데이터에 대해서도 잘 다룰 수 있도록 하는 것을 목표로 한다. 이에 본 논문에서는 토픽 모델을 이용한 비지도 추출 요약 모델 TES(Topic model based Extractive Summarization)에 대해 제안한다.
토픽 모델(Topic Model)은 주어진 문서 집합 내에서 추상적인 주제를 찾아내기 위한 기법이다. 기존에는 통계적 기반 모델들이 대다수였지만, 신경망에 대한 연구가 활발히 진행되며 신경망을 이용해 문서 집합의 잠재 주제 분포를 학습하는 모델들 또한 연구되고 있다. Zero-shot Learning이나 자가 지도 학습과 유사하게 잠재 공간에 문서를 잘 표현해 내는 것을 목표로 하기 때문에 이를 외부 정보로 이용해 추출 요약을 진행한다면, 요약 데이터셋이 없이도 비지도 추출 요약을 할 수 있을 것이다.
제안한 모델의 성능과 장점을 보이기 위해 기존의 추출 요약 모델들과 동일 데이터셋을 이용해 요약을 진행했으며, 요약 분야에서 가장 많이 사용되는 지표 중 하나인 ROUGE 점수를 통해 성능을 확인하였다. 또한 추출 요약을 위해 문장을 선택하는 과정에서 다양한 기법들을 실험해보았으며, 분석을 통해 최적의 방안을 찾았다. 이를 통해 심층 신경망 기반의 End-to-End 모델을 이용해 비지도 추출 요약을 효율적으로 진행할 수 있는 모델을 제시한다.