The purpose of this study was to evaluate the pronunciation score reliability of an automatic pronunciation assessment system for education, SpeechPro, a commercially released and patented system but without a score reliability test. So it is necessary to ensure the commercial system’s reliability. The method is to measure score agreement between SpeechPro and human raters. The database used is a paid English speech corpus of the native speakers and non-native speakers with score annotations of the three English raters. First, the inter-rater agreement was measured, and then the agreement between SpeechPro’s scores and the raters’ average scores were measured. The following 5 metrics were used: Pearson correlation coefficient, standardized mean difference, quadratic weighted kappa, exact percentage agreement, and 1-point adjacent percentage agreement. The results are that human-machine agreement is significantly identical to human-human agreement according to all the metrics used, proving the score reliability of SpeechPro. This provides a logical justification required before the comparison with other automatic pronunciation assessment systems.
이 연구는 교육적으로 활용되는 자동 영어 발음 평가 시스템 SpeechPro의 발음 점수 신뢰도를 평가하는 것을 목적으로 한다. SpeechPro는 특허 출원과 상업적 출시가 이루어졌으나 연구적으로 점수 신뢰도가 확인되지 않았기 때문에, 본 연구에서는 기존 출시 제품의 안정성을 검증하고자 한다. 평가 방법은 SpeechPro와 전문 채점자 간의 점수 상관성을 측정하는 것이다. 이를 위해 원어민과 비원어민의 영어 발화와 3명의 영어 교육 전문가가 채점한 단어별 발음 점수가 함께 태깅되어 있는 유료 데이터베이스를 사용하였다. 먼저 평가자간 점수 차이를 비교하여 상관성을 측정하였고, 다음으로 SpeechPro 점수와 평가자 3명의 평균 점수 간의 상관성을 측정하였다. 측정 방법으로는 피어슨 상관 계수 (Pearson Correlation Coefficient), 표준화된 평균차 (Standardized Mean Difference), 2차 가중 카파 (Quadratic Weighted Kappa), 완전 퍼센트 일치율 (Exact Percentage Agreement), 1점 인접 퍼센트 일치율 (1-point Adjacent Percentage Agreement)를 사용하였다. 평가자간 점수 일치도와 SpeechPro-평가자간 점수 일치도가 5개의 측정치 전부로부터 동일하다는 결과를 보임으로써, SpeechPro의 발음 평가 점수 신뢰성이 입증되었다. SpeechPro와 전문 채점자 간의 상관성이 확인됨으로써 타 자동 발음 평가 시스템과의 비교 연구를 진행할 수 있는 논리적 근거가 마련되었다.