초록

특허 문서는 개인이나 기업의 지식 재산권 보호에 있어서 중요한 역할을 수행하며 특허 출원은 미래 기술 변화와 매우 밀접한 관계를 가져 기술 발전의 이정표가 된다. 기술이 빠르게 발전하는 현대에서 기술의 척도가 되는 특허의 출원은 매년 증가하고 있으며, 특허 문서를 쉽게 이용할 수 있도록 요약하는 작업의 중요성도 더욱 증가하고 있다. 전문적인 용어로 작성된 긴 길이의 특허 문서를 사람이 요약하기에 많은 어려움이 있어 딥러닝기술을 이용하여 위 문제를 해결하려는 다양한 시도가 있다.

Transformer의 발전 이전의 문서 요약은 문구와 단어의 빈도수를 기반으로 요약문을 선택하는 통계 기반 방식의 모델이 사용되었다. 이러한 방식은 특허 문서와 같이 복잡한 문서의 내용 요약에 한계가 있다.

Transformer 모델은 자연어처리에서 획기적인 성능 향상을 보였다. Transformer 모델을 기반으로 인코더, 디코더 구조를 가지는 BART 모델은 인코더가 문서의 전체적인 내용을 이해하고, 디코더가 이 정보를 기반으로 요약문을 생성함으로써 뛰어난 성능을 보였다. BART와 같은 모델의 발전은 특허 문서의 요약에서도 좋은 성능을 보였다.

기존에 이루어지는 특허 요약 연구는 단순히 특허의 설명문만을 이용하여 요약문을 생성하기 때문에 특허 문서의 다양한 정보를 활용하지 못 하고 있다. 최근 특허 분류 연구에서 청구항, 발명 제목과 같은 다양한 특허의 특성을 사용하는 것이 더 좋은 성능을 보이고 있다.

본 논문은 실제 방대한 특허 데이터를 대상으로 단순한 설명문(Description)이 아닌 특허의 다양한 항목을 이용하여 요약문을 요약할 뿐만 아니라 특허 문서의 다양한 항목을 활용하기 위해 Dual-Encoder 구조를 이용한 요약 기법을 제안한다.

국문과 영문 데이터 세트로 실험을 진행하여 단순히 설명문을 이용하여 문서를 요약하는 것보다 다른 다양한 항목을 이용하여 더욱 높은 성능을 확인하였고, 해결책과 청구항 항목을 각각의 인코더의 입력으로 사용해 문맥 정보를 결합한 Dual-Encoder 구조에서 뛰어난 성능을 확인하여 본 논문이 제안하는 모델 구조가 특허 문서 요약에서 우수한 성능이 보임을 입증했다.