본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

결과 내 검색

동의어 포함

초록보기

ASVspoof 5는 진짜 음성과 위조된 음성을 구별하는 대응 기술(Countermeasure, CM) 모델 개발을 촉진하기 위한 가장 큰 글로벌 오디오 보안챌린지 중 하나인 ASVspoof 챌린지의 다섯 번째 시리즈이다. 본 연구에서는 사전 학습된 음성 모델을 사용하여 위조 음성 탐지(SSD)에 대한 데이터증강 및 발화 길이의 영향을 조사한다. XLSR, WavLM, HuBERT를 특징 추출기로 사용하고, 이전 연구에서 제안된 듀얼 브랜치 네트워크를 사용한다.

강건함(robustness)을 평가하기 위해 5가지 데이터 증강 기법과 3가지 다른 발화 길이를 실험했다. 대부분의 증강 기법은 성능을 저하시킨 반면,저주파수 마스킹 증강은 6.36%의 EER과 0.1676의 min-DCF를 달성했다. 또한 발화 길이에 대한 실험 결과 8초 길이가 가장 좋은 성능을 보였다.

이 결과는 증강 전략과 발화 지속 시간 모두 SSD 성능에 상당한 영향을 미친다는 것을 보여주고, 이러한 발견은 ASVspoof 5 기반 위조 음성탐지에서 강건함에 영향을 미치는 요인에 대한 통찰력을 제공한다.

ASVspoof 5 is the fifth edition of the ASVspoof challenge, one of the largest global audio security challenges, aiming to promote thedevelopment of Countermeasure(CM) models by distinguishing between genuine and spoofed speech. In this study, we investigate theimpact of data augmentation and utterance length on spoofed speech detection(SSD) using pretrained speech models. XLSR, WavLM, andHuBERT are used as feature extractors, and a dual-branch network proposed in previous studies is also used. To evaluate robustness,five data augmentation techniques and three different utterance lengths are tested. Most augmentation methods degrade performance,while Low Frequency Mask augmentation achieves an EER of 6.36% and a min-DCF of 0.1676. Experiments on utterance length showthat a 8-second duration yields the best performance. The results demonstrate that both augmentation strategies and utterance durationhave a significant impact on SSD performance. These findings provide insights into the factors affecting robustness in ASVspoof 5-basedspoofed speech detection.

권호기사

권호기사 목록 테이블로 기사명, 저자명, 페이지, 원문, 기사목차 순으로 되어있습니다.
기사명 저자명 페이지 원문 목차
클라우드 자원 수명주기 관리를 위한 통합 프레임워크의 설계 및 구현 = Design and implementation of an integrated framework for lifecycle management of cloud resources 박준우, 김재현, 안현, 이성현, 이예승, 조충희 p. 987-996
발화 길이와 증강이 위변조 음성 탐지에 미치는 영향 = Impact of utterance length and augmentation on spoofed sppech[실은 speech] detection 황규한, 석민제, 김우성 p. 997-1003
MLSQ = MLSQ : a multimodal-based system for learning material summarization and question generation : 멀티모달 기반 학습 자료 요약 및 문제 생성 시스템 유건우, 이상윤, 안진영, 우민하, 김수경, 이준구, 최현우, 김예란, 이웅희 p. 1004-1015
실시간 다기준 의사결정 지원을 위한 사용자 인터페이스 = User interface for real-time multi-criteria decision making support 장우영, 김은지 p. 1016-1021
DF-LogGraph = DF-LogGraph : an explainable GraphRAG-based framework for digital forensic log analysis : GraphRAG 기반 설명 가능한 디지털 포렌식 로그 분석 프레임워크 이정인, 민무홍 p. 1022-1029
매터(Matter) 기반의 공용 디바이스 인증 방안에 관한 연구 = A study on authentication methods for shared-access devices based on the Matter standard 김란경, 유민아, 김민석, 이재범, 유동영 p. 1030-1036
정전식 터치스크린 사용 특성에 따른 사용자 분류 방법 = A method for classifying users based on their capacitive touchscreen usage characteristics 임호현, 이세영 p. 1037-1043
소형 언어 모델 모듈을 활용한 생성형 AI 입력 프롬프트의 악성 행위 차단에 관한 연구 = A study on the blocking of malicious behavior of generative AI input prompts using small language model module 문종인, 류동훈, 유동영 p. 1044-1050
ARM 기반 가상화 취약점 분석 자동화에 관한 연구 = Towards automated vulnerability analysis in ARM-based virtualization 이동하, 진규정, 이건하, 고대현, 양재원, 오현규 p. 1051-1057
텍스트 마이닝을 통한 WTO 분쟁 연구 분석 = A text mining analysis of research on WTO disputes 장서준, 김경열, 김지희 p. 1058-1064
사용자 친화적 보안 도구 설계 및 사용성 평가 연구 = Design and usability evaluation of user-friendly security tools 이주혜, 이유진, 양미소, 김성욱 p. 1065-1072
적 물체 추적 기반 실시간 3D 프로젝션 맵 상호작용 = Real-time 3D projection map interaction based on dynamic object tracking 김항기, 김기홍, 백낙훈 p. 1073-1083
확장된 단일 대형그래프를 위한 효율적 그래프 합성곱 신경망 업데이트 = Efficient graph convolutional networks update for expanded single large graph 송지연, 이기용 p. 1084-1090
RTEMS 커스텀 스케줄러를 위한 빌드 자동화 프레임워크 = Build automation framework for RTEMS custom schedulers 김태한, 박성민, 허금숙, 장준혁 p. 1091-1096
딥러닝 기반 비선형 모델을 이용한 항공기 엔진의 수명 예측 = Deep learning-based non-linear prediction of remaining useful life of aircraft engines 김민정, 이강원 p. 1097-1104