표제지
국문요약
ABSTRACT
목차
제1장. 서론 18
제2장. VAD 및 음성향상 알고리듬 24
2.1. VAD(Voice Activity Detection)알고리듬 24
2.1.1. 시간영역 VAD 24
2.1.2. 통계적 방법을 이용한 VAD 27
2.1.3. 상태변수 기반 VAD 방법 32
2.2. 음성향상 알고리듬 35
2.2.1. Frequency Subtraction 36
2.2.2. Wiener Filtering 방법 38
2.2.3. MMSE-STSA 41
2.2.4. Maximum Likelihood 44
2.2.5. Soft Decision Maximum Likelihood 46
2.2.6. 정합필터를 이용한 음성 향상 48
제3장. 다양한 잡음환경에서 VAD기반 음성향상 51
3.1. 잡음환경에서 VAD방법 52
3.1.1. VAD를 위한 심리음향 모델에 기반 한 음성에너지 최대화 52
3.1.2. 엔트로피와 하모닉을 이용한 VAD 62
3.2. 잡음환경에서 바이너리 마스크를 이용한 음성향상 방법 73
3.2.1. IBM(Ideal Binary Mask)을 이용한 음성향상 방법 73
3.3. 다양한 잡음환경에서 VAD기반 음성향상 방법 79
3.3.1. 잡음 모델 분석 및 잡음 데이터베이스 구성 81
3.3.2. 다양한 잡음환경에 강인한 VAD 설계 87
3.3.3. VAD기반 Binary Mask를 이용한 음성향상 101
제4장. 실험 및 고찰 106
4.1. 실험 방법 및 실험환경 구성 107
4.2. 잡음환경과 SNR변화에 따른 제안된 VAD 방법의 성능 평가 109
4.2.1. ROC Curve분석을 이용한 개별 알고리듬의 VAD 성능평가 110
4.2.2. ROC Curve분석을 이용한 두 개 조합 알고리듬의 VAD 성능평가 120
4.2.3. ROC Curve분석을 이용한 기존 알고리듬에 대한 VAD 성능평가 129
4.2.4. S-SNR과 SEM에 대한 ZCR과 LE(Log Energy)의 비교 138
4.3. 제안된 VAD기반 음성향상 성능 평가 141
4.3.1. PESQ(Perceptual Evaluation of Speech Quality) 141
4.3.2. Itakura-Saito distance 144
4.3.3. Binary Mask 성능평가 146
4.3.4. SNR 향상 평가 148
4.3.5. 제안된 알고리듬과 EVRC SNR 향상 비교 149
제5장. 결론 151
참고문헌 154
[표 1] 부밴드 주파수 범위 54
[표 2] ETSI 잡음 DB의 분산값과 평균값 86
[표 3] 실험장치 사양 108
[그림 1] 일반적인 주파수 차감법 18
[그림 2] ETSI가 제안한 Aurora 2 잡음 DB의 스펙트로그램 22
[그림 3] Zero Crossing Rate 예시, (a) speech signal, (b) ZCR 25
[그림 4] (a) 음성신호, (b) 에너지, (c) 로그 에너지의 예시 26
[그림 5] Qi Li 의 상태변수 기반 음성 검출 알고리듬 32
[그림 6] 단구간 에너지 궤적의 필터링을 위한 사인 함수의 예시 34
[그림 7] (a)입력 음성파형(한국인 남자 /아/ 발성, 수평축 1칸은 0.5초에 해당) (b)단구간 에너지 궤적 (c) 사인 형태의 함수로 필터링된 단구간 에너지 궤적 34
[그림 8] MMSE-STSA 의 처리과정 43
[그림 9] PSR로 곱한 음성에너지, (a) 입력신호 "The birch canoe slid on the smooth planks." (b) PSR로 곱한 음성에너지 58
[그림 10] 음성 에너지 최대화, (a) SNR 15dB에서 입력신호 "The birch canoe slid on the smooth planks.", (b) 식(3.13)의 결과 59
[그림 11] 음성에너지 최대화에 대한 N-Mask Contour 61
[그림 12] SNR [15∼0dB]에 대한 엔트로피, (a) 입력 잡음 음성"숭실대 입구", (b)[15∼0dB]에 대한 엔트로피 64
[그림 13] 한국어 "한국"에 대한 스펙트로그램과 프레임 매그니튜드 (a) 입력음성의 스펙트로그램, (b)입력음성의 7번째 프레임의 매그니튜드 스펙트럼 66
[그림 14] EH-VAD 방법 70
[그림 15] SNR 15dB에서 "The birch canoe slid on the smooth planks"에 대한 엔트로피, (a) SNR 15dB 입력 음성, (b)입력음성에 대한 엔트로피 71
[그림 16] SNR 15dB에서 "The birch canoe slid on the smooth planks"에 대한 엔트로피와 하모닉스, (a)SNR 15dB에서 입력 신호에 대한 엔트로피, (b) SNR 15dB에서 입력 신호에 대한 엔트로피와 하모닉 71
[그림 17] SNR 15dB에서 "The birch canoe slid on the smooth planks"에 대한 엔트로피와 하모닉스 VAD 결과, (a) SNR 15dB에서 입력신호의 스펙트로그램, (b) 엔트로피-하모닉 결과, (c) VAD 결과 72
[그림 18] MMSE-STSA와 IBM을 이용한 스펙트럼 향상과정 76
[그림 19] SNR 10dB에서 MMSE-STSA 바이너리 마스크 77
[그림 20] SNR 10dB에서 MMSE-STSA + IBM 바이너리 마스크 78
[그림 21] 제안된 VAD 시스템 기반 음성향상 블록도 80
[그림 22] 음성과 잡음의 스펙트럴 파워 분포, (a) 음성 스펙트럴 파워 분포, (b) 트레인 잡음 스펙트럴 파워분포 81
[그림 23] 한국어 “숭실대 입구”에 대한 스펙트럴 파워 분포 82
[그림 24] 백색잡음과 핑크잡음에 대한 스펙트럴 파워 분포, (a) White 잡음에 대한 스펙트럴 파워 분포, (b) Pink 잡음에 대한 스펙트럴 파워 분포 82
[그림 25] ETSI Babble과 Airport 잡음에 대한 스펙트럴 파워 분포 (a) Airport 잡음에 대한 스펙트럴 파워 분포, (b) Babble 잡음에 대한 스펙트럴 파워 분포 83
[그림 26] ETSI Street과 Station 잡음에 대한 스펙트럴 파워 분포 (a) Street 잡음에 대한 스펙트럴 파워 분포, (b) Station 잡음에 대한 스펙트럴 파워 분포 83
[그림 27] ETSI Train과 Restaurant 잡음에 대한 스펙트럴 파워 분포 (a) Train 잡음에 대한 스펙트럴 파워 분포, (b) Restaurant 잡음에 대한 스펙트럴 파워 분포 84
[그림 28] ETSI Exhibition과 Car 잡음에 대한 스펙트럴 파워 분포 (a) Exhibition 잡음에 대한 스펙트럴 파워 분포, (b) Car 잡음에 대한 스펙트럴 파워 분포 84
[그림 29] 백색잡음, 핑크잡음, 음성, ETSI 잡음 DB(8)에 대한 분산 85
[그림 30] (a) VAD 상태 천이 다이어그램, (b) 잡음음성에서 VAD frame 확장 88
[그림 31] VAD 파라미터의 VAD 결정과정 90
[그림 32] SNR 변화에 대한 음성검출 파라미터의 변화, (a) clean 음성, (b) SNR 0dB 음성, (c) SEM 출력값, (d) 엔트로피 출력값, (e) 하모닉 점수. 91
[그림 33] 분산을 이용한 분류기 93
[그림 34] 음성 파라미터와 Segmental SNR을 이용한 끝점 검출과 잡음제거 과정 94
[그림 35] SNR 10dB에서 Speech Energy Maximization 처리 과정, (a) SNR 10dB에서 입력음성, (b) 음성에너지 최대화에 대한 프레임에너지, (c) 음성에너지최대화 결과 97
[그림 36] 한국어 ‘칠’에 대한 S-SNR, (a)Babble 잡음 SNR 15dB에서 입력음성, (b)입력음성에 대한 S-SNR. 98
[그림 37] SNR 15dB Babble 잡음에서 1-pass와 2-pass VAD결과 (a) SNR15dB에 서 입력음성 “숭실대 입구”, (b) 1-Pass 파라미터, (c) S-SNR과 스펙트럴 파워, (d) 제안된 방법의 VAD 결과 100
[그림 38] 바이너리 마스크를 위한 Local Criteria 102
[그림 39] 바이너리 마스크를 위한 LC값 설정 103
[그림 40] Street 잡음 SNR 10dB에 대한 “숭실대 입구” 103
[그림 41] 제안된 알고리듬 처리 후 결과 105
[그림 42] On-line 실험장치 구성 108
[그림 43] ROC 그래프와 판단기준 110
[그림 44] 공항잡음에서 제안된 방법과 단일 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB 112
[그림 45] Babble 잡음에서 제안된 방법과 단일 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB 113
[그림 46] Car 잡음에서 제안된 방법과 단일 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 114
[그림 47] Exhibition 잡음에서 제안된 방법과 단일 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 115
[그림 48] Restaurant 잡음에서 제안된 방법과 단일 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 116
[그림 49] Station 잡음에서 제안된 방법과 단일 알고리듬에 대해 SNR에 따 른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 117
[그림 50] Street 잡음에서 제안된 방법과 단일 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 118
[그림 51] Train 잡음에서 제안된 방법과 단일 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 119
[그림 52] Airport 잡음에서 제안된 방법과 두 개 조합 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 121
[그림 53] Babble 잡음에서 제안된 방법과 두 개 조합 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 122
[그림 54] Car 잡음에서 제안된 방법과 두 개 조합 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 123
[그림 55] Exhibition 잡음에서 제안된 방법과 두 개 조합 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 124
[그림 56] Restaurant 잡음에서 제안된 방법과 두 개 조합 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 125
[그림 57] Station 잡음에서 제안된 방법과 두 개 조합 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 126
[그림 58] Street 잡음에서 제안된 방법과 두 개 조합 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 127
[그림 59] Train 잡음에서 제안된 방법과 두 개 조합 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 128
[그림 60] Airport 잡음에서 제안된 방법과 기존 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. Fig 60. ROC Curve on SNR by proposed method and conventional algorithm for airport noise, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB,... 130
[그림 61] Babble 잡음에서 제안된 방법과 기존 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. Fig 61. ROC Curve on SNR by proposed method and conventional algorithm for babble noise, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB,... 131
[그림 62] Car 잡음에서 제안된 방법과 기존 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. Fig 62. ROC Curve on SNR by proposed method and conventional algorithm for car noise, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d)... 132
[그림 63] Exhibition 잡음에서 제안된 방법과 기존 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 133
[그림 64] Restaurant 잡음에서 제안된 방법과 기존 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 134
[그림 65] Station 잡음에서 제안된 방법과 기존 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 135
[그림 66] Street 잡음에서 제안된 방법과 기존 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 136
[그림 67] Train 잡음에서 제안된 방법과 기존 알고리듬에 대해 SNR에 따른 ROC Curve, (a) SNR 15dB, (b) SNR 10dB, (c) SNR 5dB, (d) SNR 0dB. 137
[그림 68] 클린 음성 한국어 ‘칠’에 대한 ZCR, 로그에너지, (a) 입력음성, (b) ZCR, (c) 로그 에너지 139
[그림 69] 클린 음성 한국어 ‘칠’에 대한 SEM과 S-SNR, (a) 입력음성, (b) 하모닉 피크 트렉, (c) SEM, (d) S-SNR 140
[그림 70] PESQ 척도를 구하는 과정의 블록도 142
[그림 71] SNR 변화와 잡음의 종류에 따른 PESQ 점수, (a) Station과 Car 잡음, (b) Exhibition과 Airport 잡음, (c) Restaurant과 Street 잡음, (d) Train과 Babble 잡음 143
[그림 72] SNR 변화와 잡음종류에 따른 ISD, (a) Station과 Car 잡음, (b) Exhibition과 Airport 잡음, (c) Restaurant과 Street 잡음, (d) Train과 Babble 잡음 145
[그림 74] Street 잡음 SNR 0dB에서 MMSE-STSA에 대한 마스크 패턴 146
[그림 75] Street 잡음 SNR 10dB에서 제안된 알고리듬에 대한 마스크 패턴 147
[그림 76] Street 잡음 SNR 0dB에서 제안된 알고리듬에 대한 마스크 패턴 147
[그림 77] 공항잡음 SNR 10dB에서 (a) 입력신호 (b) MMSE-STSA (c) 제안된 방법의 출력결과 148
[그림 78] EVRC 전처리단 모듈을 이용한 잡음제거 예 (a) 클린음성, (b)SNR 5dB의 백색잡음을 더한 신호 (c) EVRC 전처리단 모듈을 이용해서 잡음이 제거된 신호, (d) 클린음성, (e) SNR 5dB의 Babble잡음을 더한 신호 (f) EVRC 전처리단 모듈을 이용해서 잡음이 제거된 신호. 150