권호기사보기
| 기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
|---|
결과 내 검색
동의어 포함
ASVspoof 5는 진짜 음성과 위조된 음성을 구별하는 대응 기술(Countermeasure, CM) 모델 개발을 촉진하기 위한 가장 큰 글로벌 오디오 보안챌린지 중 하나인 ASVspoof 챌린지의 다섯 번째 시리즈이다. 본 연구에서는 사전 학습된 음성 모델을 사용하여 위조 음성 탐지(SSD)에 대한 데이터증강 및 발화 길이의 영향을 조사한다. XLSR, WavLM, HuBERT를 특징 추출기로 사용하고, 이전 연구에서 제안된 듀얼 브랜치 네트워크를 사용한다.
강건함(robustness)을 평가하기 위해 5가지 데이터 증강 기법과 3가지 다른 발화 길이를 실험했다. 대부분의 증강 기법은 성능을 저하시킨 반면,저주파수 마스킹 증강은 6.36%의 EER과 0.1676의 min-DCF를 달성했다. 또한 발화 길이에 대한 실험 결과 8초 길이가 가장 좋은 성능을 보였다.
이 결과는 증강 전략과 발화 지속 시간 모두 SSD 성능에 상당한 영향을 미친다는 것을 보여주고, 이러한 발견은 ASVspoof 5 기반 위조 음성탐지에서 강건함에 영향을 미치는 요인에 대한 통찰력을 제공한다.
ASVspoof 5 is the fifth edition of the ASVspoof challenge, one of the largest global audio security challenges, aiming to promote thedevelopment of Countermeasure(CM) models by distinguishing between genuine and spoofed speech. In this study, we investigate theimpact of data augmentation and utterance length on spoofed speech detection(SSD) using pretrained speech models. XLSR, WavLM, andHuBERT are used as feature extractors, and a dual-branch network proposed in previous studies is also used. To evaluate robustness,five data augmentation techniques and three different utterance lengths are tested. Most augmentation methods degrade performance,while Low Frequency Mask augmentation achieves an EER of 6.36% and a min-DCF of 0.1676. Experiments on utterance length showthat a 8-second duration yields the best performance. The results demonstrate that both augmentation strategies and utterance durationhave a significant impact on SSD performance. These findings provide insights into the factors affecting robustness in ASVspoof 5-basedspoofed speech detection.*표시는 필수 입력사항입니다.
| 전화번호 |
|---|
| 기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
|---|
| 번호 | 발행일자 | 권호명 | 제본정보 | 자료실 | 원문 | 신청 페이지 |
|---|
도서위치안내: / 서가번호:
우편복사 목록담기를 완료하였습니다.
*표시는 필수 입력사항입니다.
저장 되었습니다.