본 연구의 목적은 국가영어능력평가시험 쓰기 자동채점 프로그램의 성능을 검증하여 공식적인 국가영어능력평가시험에서의 적용 가능성을 탐색하기 위한 것이다. 본 연구의 자동채점 대상인 국가영어능력평가시험 쓰기 2급은 일상생활에 관한 글쓰기(60~80단어 제한, 15분)와 자기 의견 쓰기(80~120단어 제한, 20분)의 두 문항으로 구성되어 있으며, 4개의 채점 영역(과제 완성, 내용, 구성, 언어 사용)별로 분석적인 채점이 이루어진다. 성능 검증을 위해 인간채점과 자동채점에 따른 상관계수와 일치도 통계에 근거한 채점자 간 신뢰도의 차이, 다국면 라쉬 모형에 근거한 채점자 엄격성의 차이, 검사점수의 일반화 가능도 계수의 차이, 시간 및 비용 차이 등에 대한 통계적 분석을 실시하였다 성능 검증 결과, 자동채점이 인간채점과 유사한 수준의 성능을 보이는 것으로 확인되었으며, 특히 시간 및 비용의 효율성은 자동채점이 매우 우수한 것으로 나타났다.