초록

최근 평가 문항 출제 시간 및 비용에 대한 부담을 완화하는 방안의 일환으로, 생성형 인공지능을 활용한 자동문항 생성이 주목받고 있다. 특히, 영어나 한국어와 같은 언어 평가에서는 평가 문항과 함께 지문을 제작해야 한다는 측면에서 문항 개발의 부담이 가중된다고 할 수 있다. 따라서, 언어 평가의 문항 개발 및 검토의 부담을 경감하는 차원에서 인공지능을 활용한 자동 문항 생성의 가능성에 관해 연구할 필요성이 있다. 이에 따라, 본 연구는 ChatGPT를 활용하여 한국어 읽기 평가에서 문항 유형 및 프롬프트 엔지니어링 방식에 따른 자동 문항 생성의 가능성을 탐색하고 ChatGPT가 생성한 문항의 적합성을 분석하는 것을 목적으로 한다. 이를 위해 본 연구에서는 국립국제교육원 주관의 한국어능력시험(TOPIK) 읽기 영역의 평가 문항을 바탕으로 평가 요인별 문항 유형을 분류하고, 각 문항 유형에 따라 프롬프트 엔지니어링 방식을 다양하게 구성하여 문항과 지문을 생성하였다. 또한, ChatGPT가 생성한 문항에 대해 한국어 교육 전문가의 검토를 통해 문항의 질을 평가하였다. 이때, 동일한 유형의 문항에 대해 프롬프트 엔지니어링 방식에 따라 ChatGPT가 생성한 문항의 질이 차이가 있는지를 분석하였으며, 프롬프트 엔지니어링 방식이 동일한 경우 ChatGPT가 높은 질의 문항을 생성할 수 있는 문항 유형에 대해 분석하였다. 이러한 분석 결과를 바탕으로, 한국어 읽기 평가에서 ChatGPT를 활용한 자동 문항 생성의 가능성과 향후 관련 연구의 방향성을 논의하였다.