초록

음성 통신, 보청기, 음성 인식, 화자 인식, 회의 요약과 같은 많은 애플리케이션에서 환경 잡음은 음성 신호의 청각 품질 및 음성 명료도를 저하한다. 이런 문제를 해결하기 위하여 지난 수십 년간 많은 음성 향상 기술들이 개발되어 왔다. 통계 모델 기반의 음성 향상 기술은 다양한 최적화 기준으로부터 도출된 깨끗한 음성 추정기를 활용하는 방식이며 그 종류에는 위너 필터, 최소 평균 제곱 오차 단시간 스펙트럼 진폭(minimum mean square error short-time spectral amplitude, MMSE-STSA) 및 최소 평균 제곱 오차 로그 스펙트럼 진폭(minimum mean square error log-spectral amplitude, MMSE-LSA) 등이 있다. 이러한 접근은 낮은 알고리즘 지연시간과 낮은 계산 복잡도를 가지기 때문에 모바일 장치에 대한 애플리케이션에 필수적이다. 최근에는 통계 모델 기반 음성 향상에 딥러닝(deep learning)을 통합하는 딥크사이(Deep Xi) 및 DeepMMSE 접근들이 제안되었는데, 이 방법론은 신호대잡음비(signal-to-noise ratio, SNR)를 깊은신경망(deep neural network, DNN)을 이용해 추정하고, 이를 이용해서 잡음의 전력 스펙트럼 밀도(power spectral density, PSD) 와 스펙트럼 이득 함수를 계산하는 방식이다. 한편, 다중 마이크로폰을 장착한 장치들이 등장하면서, 입력 신호의 주파수-시간적 특성뿐 아니라 공간적 정보까지 추가로 이용하는 다채널 음성 향상 기술이 떠오르고 있다. 본 학위논문에서는 통계 모델 기반의 단채널 및 다채널 음성 향상 프레임워크를 소개하고, 향상된 파라미터 추정 기술을 제안하며, 마지막으로 딥러닝 적 접근을 통합하여 프레임워크를 완성한다.

최근에는 음성 PSD 불확실성 모델을 도입한 음성 향상 기술이 제안되었다. 이 접근은 참 음성 PSD와 그것의 추정치를 구분하고, 그 둘을 랜덤 변수로 인지한다. 이 모델에서는 음성 스펙트럼의 사전 분포와 음성 PSD 추정기를 통합하여 PSD 불확실성-인지 클린 음성 추정기를 도출하여 성능 향상을 이끌어냈다. 그러나, 음성 PSD 불확실성 모델은 아직 사후 음성 존재 확률(speech presence probability, SPP), 음성 PSD, 음성 전력 스펙트럼 추정과 같은 파라미터 추정에는 적용되지 않았었다. 본 학위 논문에서는 음성 PSD 불확실성 모델을 통계 모델 기반의 음성 향상 프레임워크의 모든 요소에 통합한다. 구체적으로는, 사후 SPP의 각 가설을 음성 PSD 불확실성에 기반하도록 한다. 이렇게 도출된 새로운 사후 SPP로 새로운 잡음 PSD 추정기를 도출한다. 또한, 음성 PSD 불확실성에 기반한 현재 프레임(frame)의 음성 전력 스펙트럼에 대한 최소평균제곱오차 추정기를 도출하고 이를 다시 음성 PSD 추정기를 정제(refine)하는 데 사용한다. 마지막으로, 정제된 음성 PSD 추정기를 음성 PSD 불확실성에 기반한 스펙트럼 이득 함수에 통합한다. 제안한 접근은 평균 로그 에러 측면에서 향상된 잡음 PSD 추정 성능을 보여주었고, 잡음 제거, 분할한(segmental) SNR, 음성 품질 및 음성 명료도 측면에서 음성 향상 성능이 개선되었음을 보여주었다. 또한 실시간 딥러닝 기반의 음성향상 시스템과 대비해서도 유사한 음성 향상 성능을 보여주었다.

두 번째로 딥러닝을 이용하여 사전 SNR 뿐 아니라 음성 PSD 및 SPP를 추정하고 이를 이용하여 음성 및 잡음 PSD의 최소평균제곱오차 추정을 수행하는 개선된 DeepMMSE(iDeepMMSE)를 제안한다. 사전 및 사후 SNR은 추정된 PSD를 이용하여 정제되고, 이는 다시 스펙트럼 이득 함수를 계산하는 데에 사용한다. DNN은 국소 및 전역적 신호 정보를 효과적으로 처리할 수 있는 컨포머(conformer) 구조를 활용하였다. 실험한 결과 기존 DeepMMSE 기술 대비해서 향상된 음성 향상 성능을 보여주었다.

온라인 다채널 음성 향상 기술은 다수의 잡음이 낀 음성 신호에서 주파수-시간적 특성뿐 아니라 공간적 정보를 같이 활용하여 낮은 레이턴시(latency)로 목표 음성을 추출하는 기술이다. 이를 수행하기 위해 음향학적 전달 함수, 음성 및 잡음 공분산 행렬 등이 인과적(causal)으로 추정되어야 한다. 세 번째로는 향상된 음성 공분산 행렬 추정기법을 제안한다. 음성 공분산 행렬은 음성 PSD와 상대적인 전달 함수(relative transfer function, RTF)로 표현할 수 있다. 일시적 켑스트럼 평활화(temporal cepstrum smoothing, TCS) 기법을 활용하여 음성 PSD를 추정한다. 또한, 상호상관도(cross-correlation) 방법으로 얻어진 시간 도착지연(time difference of arrival, TDoA) 기반의 RTF 추정기를 제안한다. 더욱이, 음성 공분산 행렬의 첫 번째 추정치를 깨끗한 음성 스펙트럼 및 전력 스펙트럼 추정치들을 이용하여 새롭게 정제하는 접근을 제안한다. 실험에서 제안된 기술은 음성 품질 및 음성 명료도 측면에서 향상된 성능을 보여주었다.

다채널 음성 향상 시스템은 최소 분산 비왜곡 응답(minimum-variance distortionless-response, MVDR) 빔포밍(beamforming)과 후처리의 결합으로 종종 구성되며 이때는 RTF, 잡음 공분산행렬 및 사전 SNR과 같은 음향학적 파라미터가 추정되어야 한다. 네 번째로는 MVDR 빔포밍과 후처리를 수행하기 위한 딥러닝 기반의 파라미터 추정 기법을 제안한다. 구체적으로는 딥러닝을 이용하여 클린한 음성의 채널 간 위상 차이(interchannel phase difference, IPD) 및 사후 SPP를 추정하고 이를 RTF 추정과 잡음 공분산 행렬 추정에 활용한다. 후처리를 위해서는 Deep Xi 프레임워크를 활용하여 새로운 DNN을 이용하여 사전 SNR을 추정하고 이를통해 후처리 이득 함수를 계산한다. 제안한 기술은 이전 접근들 대비해서 향상된 음성 품질 성능을 보여주었다.