최근 스마트폰의 보급으로 음악을 다운로드하여 소유하는 시대에서 듣고 싶은 음악의 권리를 사고 음악을 바로 듣는 스트리밍 중심의 시장으로 변하고 있다. 이런 시대 흐름에 맞춰 사용자가 원하는 음악을 찾기 위하여 음악 정보 기술에 대한 중요성이 강조되고 있다. 또한, 데이터를 분석하고 분석된 데이터를 학습하여 판단이나 예측을 하는 머신러닝과 음악 정보 검색 기술이 결합하면서 음악 추천 서비스에 대한 관심과 연구가 늘고 있다.
자연어 처리(NLP, Natural Language Processing)는 인간이 사용하는 언어를 컴퓨터가 이해하고 분석할 수 있게 하는 분야를 말한다. word2vec은 word embedding 학습 모형으로 인공신경망을 적용한 NNLM(Neural Net Language Model)과 RNNLM(Recurrent Neural Net Language model)의 성능을 개선해 자연어 처리에 큰 성능 향상을 가져왔다.
따라서 본 논문에서는 음악 메타데이터인 노래 가사를 word2vec을 이용하여 분석하고 이를 활용하여 노래 간의 거리를 측정한다. 측정된 거리에 따라 노래를 클러스터링하고 음악을 노래 가사의 내용에 따라 분류하고자 한다.