인간-컴퓨터 상호작용(human-computer interaction, HCI) 분야의 발전과 함께 감정인식 기술에 대한 연구가 활발히 진행되고 있다. 인간의 감정은 주로 얼굴 표정과 같은 비생리적 신호를 사용하여 인식해 왔으나, 이러한 비생리적 신호는 인간이 의도적으로 감정을 숨기거나 조작할 수 있다. 따라서 최근에는 뇌전도(electroencephalogram, EEG) 신호와 같은 생리적 신호를 이용하여 내면의 감정을 인식하고자 하는 연구들이 진행되고 있다.
최근 딥러닝 기술은 이미지뿐만 아니라 생체신호 기반의 감정인식 연구에서도 널리 적용되고 있다. 특히 비전 분야에서 뛰어난 성능을 보인 합성곱 신경망(convolutional neural network, CNN)은 원시(raw) 뇌파 신호로부터 특징을 자동으로 추출하고, 감정을 분류하는 것을 가능하게 한다. 한편, 감정인식 정확도를 높이기 위해 여러 데이터를 함께 사용하는 멀티모달 기술이 발전하고 있지만, 다중 센싱 및 모달리티별 모델 구축에 의한 데이터 처리 부하 등 실제 적용에 있어서는 구현에 한계가 있다. 따라서 본 논문에서는 단일 모달리티 기반 감정인식 시스템의 성능 향상에 초점을 두고 두 가지의 관점에서 딥러닝 기반의 감정인식 연구를 진행하였다.
첫 번째 연구에서는 인간의 내면 감정 인식을 위해 감정적인 상황을 회상하는 동안 측정된 뇌파 신호를 사용하여 자기 유도(self-induced) 감정을 인식하는 프레임워크를 제안한다. 신호의 통계 특성을 사용하여 최소한의 전극을 선택하는 방법을 제안함으로써 정확도 손실 없이 CNN의 연산 복잡도를 약 89% 감소시켰다. 공개 데이터셋인 Imagined Emotion Study Dataset에서 실험한 결과, 감정의 긍정과 부정을 나타내는 원자가(valence) 척도에서는 79.03%, 감정의 강도를 나타내는 각성(arousal) 척도에서는 79.36%의 분류 정확도를 달성하여 이전 연구보다 적은 수의 채널을 사용하지만 더 우수한 성능을 보여준다. 한편 뇌파 신호는 측정 시 두피에 전극을 부착해야 하므로 자연스러운 상호작용이 어렵다는 단점이 존재한다.
따라서 두 번째 연구에서는 접촉이 필요하지 않는 얼굴 영상 기반의 감정인식을 위한 다중 작업 학습(multi-task learning, MTL) 방법을 제안한다. 얼굴 영상으로부터 감정을 예측하는 작업뿐만 아니라 얼굴 피부색의 변화를 기반으로 심박수(heart rate, HR)를 추정하는 작업을 동시에 수행하는 새로운 프레임워크를 제안한다. 다중 작업 학습은 단일 작업에 과적합되는 것을 방지하지 때문에 모델의 일반화 성능을 향상시킬 수 있다. 공개 데이터셋인 DEAP과 MAHNOB-HCI을 사용하여 실험한 결과, valence에서는 96.6%, arousal에서는 96.5%의 평균 분류 정확도를 달성했다. 단일 작업 학습(single-task learning; STL)과 비교해 모델의 크기를 거의 증가시키지 않으면서 성능이 최대 5.9% 향상되었다.
마지막으로 뇌파 신호와 얼굴 영상을 동시에 이용하는 멀티모달 감정인식 시스템에서 앞서 제안된 프레임워크를 추가적으로 검증하여 단일 모달리티의 특성을 고려한 프레임워크가 멀티모달 시스템에도 효과적으로 사용될 수 있음을 실험적으로 입증하였다. 제안하는 뇌파 채널 선택과 다중 작업 학습 방법을 적용함으로써 약 5%의 분류 성능이 향상됨을 확인하였다.