초록

오픈 도메인 질의응답(Open-Domain Question Answering)은 사전에 구축된 거대한 문서 집합으로부터 사용자의 질문에 해당되는 적절한 지식 문서를 찾아 답변을 제공하며, 그중 정보 검색(Information Retrieval)은 사용자의 질문과 관련된 문서를 찾는 작업이다. 본 연구에서는 정보 검색에 사용되는 사전학습 언어모델 기반의 검색 모델에 주목하며, 이를 효율적으로 학습시키는 방법을 탐구한다. 이에 따라 대조학습을 통해 검색 모델 최적화에 사용되는 여러가지 네거티브 샘플링을 조사하고, 어휘적-의미적 정보가 반영된 네거티브 샘플링을 제안한다. 추가적으로, 점진적인 네거티브 샘플의 증가 전략을 통해 자원이 부족한 환경에서도 검색 모델을 효과적으로 학습시키는 방법을 제안한다. 실험은 오픈 도메인 질의응답에서 널리 쓰이는 Natural Questions 그리고 TriviaQA 데이터셋에서 진행되었다. 실험 결과, 제안방법들을 통해 1 GPU와 8 batch size의 학습환경에서 학습된 검색 모델의 성능이 기존 다른 네거티브 샘플링을 통해 8 GPUs와 큰 batch size의 학습환경에서 학습된 검색 모델의 성능과 비교하여 비슷하거나 혹은 더 높은 성능을 보여주었다.