1958년 Luhn에 의해 처음 문서 내의 키워드 추출 연구가 제안되고 현재까지 추출 방법과 추출 목적, 대상에 따라 세분화 될 정도로 다양한 방법으로 연구가 진행되어 왔고 현재도 진행 중이다. 그 중 한국어 문서를 대상으로 하는 연구도 활발히 진행되고 있는데, 한국어 특성상 대부분의 연구가 단일 명사를 기준으로 키워드를 추출하고 있다. 복합 명사를 단일 키워드로 추출하기 위해서는 단어사전 구축이나 복합 명사를 구분하여 형태소를 분석하는 등의 전처리 과정이 필요한데 이 과정이 어렵기 때문이다.
따라서 본 논문에서는 전처리 과정이 없이 복합 명사를 포함하여 키워드를 추출하는 알고리즘을 제안한다. 제안하는 알고리즘은 우선 문서 내에 등장하는 단어 간의 연관성을 측정하여 복합 명사로 판단할 수 있는 단어 쌍을 찾는다. 단어 쌍을 이루고 있는 단어 각각의 키워드 가중치와 연관성 값을 활용하여 복합 명사의 키워드 가중치를 측정하고 이를 통해 단일 명사와 복합 명사를 모두 포함하는 키워드를 추출한다.
본 연구의 실험결과 분석과정에서 파악된 한계점을 해결하기 위해 시멘틱(Semantic) 접근 방법의 활용과 기존의 토픽모델링 기법 중에서 비지도학습을 활용한다. 향후에는 문서요약 연구, 특히 문장 추출 방법의 기반이 될 수 있을 것으로 기대한다.