초록

최근 딥러닝을 다양한 데이터의 분류에 적용하려는 연구가 활발해짐에 따라 대량의 데이터 확보가 더욱 중요해지고 있다. 하지만 레이블 (label)이 존재하는 데이터를 대량으로 확보하는 것은 많은 경우 쉽지 않은 일이다. 따라서 본 논문은 학습에 필요한 데이터가 충분하지 않은 경우 분류 모델의 성능을 효과적으로 향상시키기 위한 대조 학습 기반의 사전 훈련 기법 두 가지를 제안한다.

첫 번째로 시계열 분류 모델의 성능 향상을 위한 대조 학습 기반 사전 훈련 방법을 제안한다. 제안하는 시계열 분류 모델 사전 훈련 기법은 시계열 데이터의 측정 간격 및 특성을 유지하면서 길이가 다른 새로운 데이터를 생성한다. 그리고 생성된 시계열 데이터를 활용하여 시계열 분류 모델이 유사한 시계열 데이터와 유사하지 않은 시계열 데이터를 구분할 수 있도록 사전 훈련시킴으로써 시계열 분류 모델의 성능을 향상시킨다. 제안하는 시계열 분류 모델 사전 훈련 기법을 사용자 행동 분류 모델에 적용한 결과 모델의 정확도를 최대 18%p 향상시킴을 확인하였다.

두 번째로 음악 분류 모델의 성능 향상을 위한 대조 학습 기반 사전 훈련 방법을 제안한다. 제안하는 음악 분류 모델 사전 훈련 기법은 음악의 오디오 신호, 태그, 플레이리스트 제목의 멀티모달 데이터를 이용하여 서로 간의 유사성을 학습시킨다. 따라서 음악 분류 모델은 이러한 사전 훈련을 통해 음악의 오디오 신호뿐만 아니라 음악의 태그 및 플레이리스트 제목 텍스트에 담긴 의미까지 음악의 특징으로 학습할 수 있다. 실제 플레이리스트 데이터를 사용한 실험 결과 음악 태깅 모델의 성능이 상승하는 것을 관찰하였으며, 제안 기법으로 사전 학습된 모델을 사용하여 사용자가 입력한 임의의 텍스트와 어울리는 음악을 검색하는 기능을 구현한 결과 약 42%의 검색 정확도를 보임을 확인하였다.