한국어교육 현장에서 교사는 학습자의 한국어 숙달도를 평가하기 위해 학습자쓰기를 평가 대상으로 삼는 경우가 많다. 그러나 쓰기 평가에서 평가자의 타당도와 신뢰도를 확보하는 것은 쉽지 않으며 특히 대규모 숙달도 평가에서 평가자 모집이나 교육 등에 드는 비용과 노력이 적지 않은 것도 사실이다. 이에 최근 한국어교육 분야에서도 인공지능 기반의 쓰기 자동평가와 관련한 논의가 시작되었다.
기계 학습 기반의 쓰기 자동평가는 채점 자질(Feature)을 기반으로 인간 평가자의 채점 결과를 모사하여 평가를 수행하므로 자질 설계(Feature Engineering)는 자동평가에서 가장 핵심적인 과정이라고 볼 수 있다. 그러므로 본 연구에서는 한국어 학습자 말뭉치에서 추출한 논설문 399편을 대상으로 쓰기 자동평가를 위한채점 자질을 추출하고 통계적 방법론을 통해서 선정된 채점 자질과 인간 평가자점수와의 상관관계를 분석하고 채점 자질이 점수에 미치는 영향을 살펴보았다.
그 결과 ‘내용 및 과제 수행’ 점수는 코사인 유사도(Cosine Similarity), 유클리디언 유사도(Euclidean Similarity)와 중간 정도의 상관관계가 나타났으며 단순회귀분석 결과 코사인 유사도의 설명력이 20.4%로 가장 높았다. ‘글의전개 구조’ 점수는 연결어미 타입(Type) 수, 연결어미 토큰(Token) 수, 보조사 토큰 수와 약한 상관관계를 보였으며 다중회귀분석 결과 지시사 토큰 수와1인칭 대명사 토큰 수가 점수에 부적인 영향을 미치는 것으로 나타났다. 상대적 영향력 비교에서는 접속부사 타입 수가 ‘글의 전개 구조’ 점수에 미치는 영향력이 가장 컸다. ‘작문 길이’ 관련 자질은 어절 수, 형태소 수의 순으로 ‘내용 및 과제 수행’ 점수와의 강한 상관관계를 보였고 다중회귀분석 결과 어절수와 문장 수만이 점수에 유의한 영향을 미치는 것으로 나타났다.
본 연구는 내용 및 구조 관련 채점 자질이 인간 평가자의 점수에 미치는 영향을 분석함으로써 한국어 학습자 쓰기 자동채점을 위한 채점 자질의 적용 가능성을 확인하였으며 앞으로 다양한 평가 영역에 적용할 수 있는 다양한 채점자질에 대한 연구가 이어지기를 기대한다.