초록

논증 마이닝은 주어진 텍스트에서 인식 가능한 주장과 증거, 논리적 상호작용 등과 같은 인수들을 자동으로 추출하는 과정이다. 논증 마이닝의 과정 중 하나인 증거 추출은 주어진 텍스트에서 주장하는 내용을 뒷받침하는 문장을 추출하는 작업이다. 이 작업은 주장하는 내용이 신뢰성 있는 증거에 기반하고 있는지 판단하기 위한 중요한 역할을 한다. 본 논문에서는 정확한 증거 추출을 위한 세 가지 방법을 제안한다. 첫 번째로, 기존 연구에서는 대부분 문장 수준의 문맥 정보를 활용한 학습이 수행되었다. 이는 문서 전체의 문맥이 반영되지 않아 증거 문장을 정확하게 판단하기 어렵다는 한계가 있다. 이를 극복하기 위해 본 논문에서는 문서 전체를 입력으로 하며, 특히 긴 문서를 처리할 때 정보 손실을 최소화하기 위한 방법을 이용한다. 두 번째로, 기존 연구에서 주장 문장과 증거 후보 문장 간의 관계를 파악하기 위해 문장 수준의 노드를 사용하여 그래프 구조를 구성하였다. 문장 수준의 노드만 사용할 경우, 문장 구조에 내재된 중요한 정보를 무시하게 된다. 따라서 본 논문에서는 토큰 및 단어 수준의 노드를 활용한 네 가지 그래프 구조를 구성하여 학습에 이용한다. 문장 내 노드들의 연결 정보를 통해 세부적인 상호작용 및 의존성을 학습한다. 이는 두 문장 간의 구조적인 관계를 정확하게 추론할 수 있다. 마지막으로 레이블 불균형 문제를 완화하기 위해 데이터 중심 관점에서 데이터의 특징을 반영한 어텐션 메커니즘을 활용하는 방법을 제안한다. 문서에서 증거 문장이 등장하는 위치의 확률 분포로 어텐션 마스크를 생성하여 특정 위치의 문장에 가중치를 높이는 학습 방법이다. 제안 모델은 세 가지 방법을 통해 모두 유의미한 성능 향상을 보인다.