표제지
목차
국문초록 8
ABSTRACT 10
제1장 서론 12
1.1. 연구의 배경 및 목적 12
1.2. 연구의 방법 및 범위 13
1.3. 논문의 구성 13
제2장 관련 연구 14
2.1. 음악 정보 검색 기술(Music Information Retrieval) 14
2.1.1. 음악의 내용에 기반 하는 방법 15
2.1.2. 메타데이터를 활용하는 방법 15
2.1.3. 집단 지성을 활용하는 방법 15
2.2. 음악 가사 관련 연구 16
2.3. word2vec 17
2.4. WMD(Word Mover's Distance) 18
2.5. 계층적 군집화(Hierarchical Clustering) 19
2.5.1. 최장 연결법 19
2.5.2. 평균 연결법 20
2.5.3. 와드 연결법 20
제3장 노래 가사 클러스터링 기법 21
3.1. 노래 가사 데이터 수집 21
3.2. 노래 가사 데이터 전처리 및 단어 분리 23
3.3. word2vec 학습 23
3.4. WMD 거리측정 24
3.5. 클러스터링 적용 24
제4장 노래 가사 분석 및 클러스터링 실험 결과 25
4.1. 노래 가사 데이터 수집 25
4.2. 노래 가사 데이터 전처리 및 단어 분리 26
4.3. word2vec 학습 26
4.4. WMD 거리 측정 27
4.5. 클러스터링 적용 31
4.5.1. 최장 연결법 31
4.5.2. 평균 연결법 33
4.5.3. 와드 연결법 35
제5장 결론 및 향후 연구 과제 38
참고문헌 40
[표 2-1] 음악 정보 검색 방법 사례 14
[표 2-2] NNLM, CBOW, Skip-gram의 성능 비교 18
[표 3-1] 멜론DJ의 플레이리스트 정보 21
[표 3-2] gensim 라이브러리의 word2vec 학습 파라미터 23
[표 4-1] 멜론DJ의 플레이리스트 카테고리 28
[표 4-2] 클러스터링할 40곡의 정보 28
[표 4-3] 2개의 그룹일 때 최장 연결법의 결과 32
[표 4-4] 4개의 그룹일 때 최장 연결법의 결과 32
[표 4-5] 3개의 그룹일 때 최장 연결법의 결과 33
[표 4-6] 2개의 그룹일 때 평균 연결법의 결과 34
[표 4-7] 2개의 그룹일 때 와드 연결법의 결과 36
[표 4-8] 4개의 그룹일 때 와드 연결법의 결과 36
[표 4-9] 3개의 그룹일 때 와드 연결법의 결과 37
[그림 2-1] Vector representation을 통한 추론 예시 17
[그림 2-2] CBOW 모델과 Skip-gram 모델 구조 18
[그림 2-3] Word Mover's Distance의 예시 19
[그림 2-4] 최장 연결법의 최장거리 예시 19
[그림 3-1] word2vec 알고리즘 학습을 위한 코드 23
[그림 3-2] 노래 간의 거리행렬 24
[그림 3-3] Scipy 라이브러리를 이용한 Hierarchical Cluster 코드 예시 24
[그림 4-1] 노래 가사 데이터의 일부 25
[그림 4-2] 학습 데이터 형태 예시 - DEAN의 넘어와 26
[그림 4-3] '사랑' 단어의 100차원 벡터값 26
[그림 4-4] '푸른' 단어의 most_similar 결과 27
[그림 4-5] '사랑'+'강렬'-'이별'의 결과 27
[그림 4-6] 거리 행렬 값의 일부 30
[그림 4-7] 최장 연결법을 이용한 클러스터링 결과 31
[그림 4-8] 최장 연결법의 그룹 개수에 따른 클러스터링 결과 32
[그림 4-9] 평균 연결법을 이용한 클러스터링 결과 34
[그림 4-10] 평균 연결법을 2개의 그룹으로 나타낸 결과 34
[그림 4-11] 와드 연결법을 이용한 클러스터링 결과 35
[그림 4-12] 와드 연결법의 그룹 개수에 따른 클러스터링 결과 35