초록

실생활에서 사람과 사람 간의 통신과 사람과 컴퓨터 간의 상호작용이 가능한 기기들의 필요성이 급증함에 따라, 음성 통신 및 음성 인식 연구가 많은 관심을 받고 있습니다. 그러나 실제 환경에서 마주하게 되는 배경 잡음, 잔향, 그리고 음향 에코 등 다양한 방해요소 또한 음성과 함께 마이크로폰에 입력되어 음성 품질 저항과 음성 인식률 감소를 유발합니다. 이를 해결하기 위해 음성 품질 및 음성 인식률 향상을 위해 단채널 및 다채널 음성 향상, 선형 음향 에코 제거, 잔여 음향 에코 제거 등 여러 신호처리 알고리즘들이 활용되고 있으나, 각 알고리즘은 하모닉 왜곡, 잡음 및 잔향에 왜곡된 공간 정보로 인한 문제들로 해결해야 하는 문제들이 있습니다. 본 학위 논문에서는 잡음, 잔향, 그리고 음향 에코가 있는 환경에서 음성 품질과 음성 인식률 향상을 위한 신호처리 알고리즘을 제안합니다. 본 학위 논문에서 개선한 알고리즘 모듈들은 다음과 같습니다. 배경 잡음 및 잔향이 있는 환경에서 마이크로폰 어레이 신호들로부터 화자의 방향을 추정하는 음원 정위 모듈, 스피커로부터 출력된 신호가 다시 마이크로폰에 입력되는 신호를 제거하는 음향 에코 제거 모듈, 그리고 음성 신호를 최대한 보존하면서 배경 잡음을 제거하는 음성 향상 모듈입니다.

첫 번째로 음원 정위 모듈에서는 마이크로폰 어레이 간 긴 간격으로 인해 발생하는 공간 에일리어싱 문제를 완화하기 위해 모든 위상 래핑의 경우를 고려한 다중 음성 정위 기법을 제안합니다. 마이크로폰에 입력된 신호 간 시간차를 나타내는 공간 정보 중 하나인 IPD (interchannel phase difference)는 마이크로폰 간 간격과 음원의 방향에 따라 고주파수 영역대의 위상 정보가 래핑 되어, 이는 DOA (direction-of-arrivals) 정보를 잘못 추정하게 하여 DOA 정보에 기반한 다채널 음성 향상 기법의 성능을 저하할 수 있습니다. 이를 해결하기 위해, 고주파수 영역대에서 발생할 수 있는 모든 위상 래핑의 경우를 고려하면서 각주파수 별 후보의 개수로 평준화하여 각주파수 별 중요도를 통일하는 방식을 사용하였습니다. 또한 SNR (signal-to-noise ratio) 기반 마스크와 coherence 기반 마스크를 도입하여 배경 잡음 및 잔향에 강인한 화자의 방향 특징을 추출하여 화자의 방향을 추정합니다. 이를 통해 얻어진 공간 에일리언싱 문제, 배경 잡음, 그리고고 잔향에 강인한 방향 정보를 다채널 음성 향상 기법에 사용할 수 있습니다.

두 번째로 음향 에코 제거 모듈에서는 선형 음향 에코 제거의 부정합 또는 비선형 성분으로 인해 남은 잔여 음향 에코를 제거하는 잔여 음향 에코 제거 기법을 제안합니다. 그리고 스피커의 출력에 따른 기기 외관 진동으로 발생하는 하모닉 왜곡 현상을 고려하여 잔여 음향 에코를 모델링 합니다. 또한 선형 음향 에코 과거 추정치, 잔여 음향 에코의 과거 추정치, 그리고 마이크로폰의 현재 신호 등 시간적 상관성을 고려하여 잔여 음향 에코를 추정합니다. 동시 통화 검출기를 결과에 기반하여 싱글 톡 상황과 더블 톡 상황에 맞는 잔여 음향 에코를 각각 추정하여 목표 음성 왜곡을 줄이고 음향 에코를 효율적으로 제거합니다.

세 번째로 다음과 같이 두 가지 딥러닝 기반 단채널 음성 향상 모듈을 제안합니다: (i) 합성곱 토큰 믹싱 모듈과 squeeze-and-excitation 네트워크를 결합한 multiple layer perceptron (MLP) 기반 음성 향상 모듈과 (ii) 자기 지도학습 모델인 WavLM 기반 음성 향상 모듈입니다. 기존 음성 분야에서 좋은 성능을 보인 Conformer에 비해 모델 사이즈와 계산 복잡도를 경량화하기 위해 MLP만 사용하면서 전역 정보를 고려한 음성 향상 모듈을 제안하였습니다. 그리고 다양한 음성신호처리 분야에서 독보적인 성능을 보인 음성 표현 특징 추출 모델인 WavLM을 활용한 음성 향상을 통해 음성의 품질과 음성 인식률을 향상시켰습니다.