초록

본 논문에서는 음향학적 에코 신호를 효과적으로 제거하기 위한 딥러닝 기반 에코 제거 모델을 제시한다. 기존 에코 제거 모델에 사용되는 적응 필터는 작은 모델 크기와 빠른 처리 속도라는 강점을 가지고 있지만, 잡음이 섞이거나 에코 패스가 변화하는 상황이나, 스피커의 비선형 왜곡, 동시 발화 등에 적절히 대처하지 못한다. 최근 원격 회의 등의 증가로 에코 상황이 다양해지면서, 이러한 비선형 상황에 대해서도 강인한 모델에 대한 수요가 증가하였고, 좋은 성능의 딥러닝 네트워크를 이용한 방법론이 많이 제시되었다. 기존 딥러닝 에코 제거 모델은 음성을 직접 추정하기에 동시 발화 상황 등에서 음성을 과하게 감쇠하거나, 원하지 않는 음성 아티팩트를 생성하는 경우가 있었다. 본 논문에서는 음성과 에코 신호를 동시에 추정하고, 네트워크 중간에 두 신호를 모두 이용하는 상호작용 레이어를 추가하여 보다 정확한 에코 제거를 수행하도록 하였다. Microsoft 사에서 실시하는 Acoustic Echo Cancellation Challenge의 데이터셋을 이용하여 동시 발화 상황과 근단, 원단 단일 발화 상황에서의 평가를 진행하였고, 기존의 딥러닝 기반 모델에 비해 향상된 근단 음성 복원 평가 수치와 에코 제거 수치를 보이는 것을 확인하였다. 추가적으로 논문에서 제시한 네트워크의 ablation study를 통해 네트워크 내의 특정 연산이 각각 에코 제거 성능에 얼마나 영향을 주었는지를 밝힌다.