본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

초록보기

트랜스포머 모델은 텍스트, 영상 등 순차적 입력 데이터에서 의미 있는 정보를 추출하는 데 뛰어난 성과를 보여주었으며, 음성인식 분야에서도 종단형 모델로서 주목받고 있다. 본 연구에서는 트랜스포머 음성인식 모델과 이를개선한 컨포머, E-브랜치포머 모델을 한국어 음성인식에 적용하여 성능을 비교하였다. AIHub에 공개된 한국어 음성 데이터를 활용하여 약 7,500시간의 훈련셋을 마련하고, ESPnet 툴킷을 활용하여 트랜스포머, 컨포머, E-브랜치포머 모델을 훈련하고 성능을 평가하였다. 또한, 인식 단위로 음절과 서브워드를 사용하는 경우를 비교하고, Byte Pair Encoding의 토큰 수 변화에 따른 성능 차이를 분석하였다. 실험 결과, E-브랜치포머가 한국어 음성인식에서 가장 우수한 성능을 보였으며, 컨포머는 트랜스포머보다 우수하였으나 긴 발화에 대해서는 성능 저하가 확인되었다.

이러한 성능 저하의 원인으로 인코더-디코더의 크로스 어텐션 정렬 과정에 오차가 발생함을 확인하였다. 또한, 서브워드 인식 단위를 사용하면서 토큰 수를 조정할 때의 성능 변화에 대한 분석을 통해 최적의 설정을 찾고자 하였다. 본 연구는 모델의 정확도와 처리 속도를 종합적으로 평가하였으며, 이를 통해 한국어 음성인식의 효율성을 극대화할 수 있는 방법을 모색하였다. 대규모 한국어 음성인식 모델의 학습과 컨포머의 인식 오류 개선 연구에 기여할 수 있을 것으로 기대된다. 또한, 향후 연구 방향으로는 다양한 한국어 음성 데이터셋을 활용한 추가 실험과 더불어, 컨포머의 구조적 개선을 통한 인식 성능 향상을 목표로 한다.

권호기사

권호기사 목록 테이블로 기사명, 저자명, 페이지, 원문, 기사목차 순으로 되어있습니다.
기사명 저자명 페이지 원문 목차
(A) statistical analysis of vowel inventories of world languages Byunggon Yang p. 1-6
Investigating vowel differences in North and South Korea : phonetic analysis of younger speakers in read and conversational speech Jungah Lee, Kaori Idemaru p. 7-23
Effects of number of letters on second language sound length Jeong-Im Han p. 25-31
Exploring stress encoding cues in English by Korean L2 speakers Goun Lee p. 33-38
중학교 읽기부진 학생의 시나리오 글 읽기 유창성 특성 = Characteristics of scenario text reading fluency in middle school students with poor reading skills 박지혜, 성철재 p. 39-48
일반 아동의 감정 발화 모방 능력 = Acousitc analyses in the imitation of emotional speech in children with typical development : 음향학적 분석을 중심으로 김수빈, 김정은, 조수형, 이효선, 문성윤, 이영미 p. 49-57
말소리장애 아동과 일반 아동 간 입술 및 혀 근력 비교 연구 = Tongue and lip strength in children with and without speech sound disorders 방지철, 하지완, 우승탁, 최현주, 나승대, 편성범 p. 59-69
메타분석을 통한 말 처리 분석방법의 효과 연구 = Meta-analysis of the effectiveness of speech processing analysis methods : focus on phonological encoding, phonological short-term memory, articulation transcoding : 음운부호화, 음운단기기억, 조음전환을 중심으로 류은주, 하지완 p. 71-78
트랜스포머 기반 모델의 한국어 음성인식 성능 비교 연구 = A comparative study on the performance of transformer-based models for Korean speech recognition 오창한, 김민서, 박기영, 송화전 p. 79-86
Automatic detection of speech sound disorder in children using automatic speech recognition and audio classification Selina S. Sung, Jungmin So, Tae-Jin Yoon, Seunghee Ha p. 87-94