본 연구는 한국어 텍스트에서 사용되는 조사의 출현 분포를 계량적으로 측정하여, 조사 사용 측면에서 목격되는 텍스트의 구어성과 문어성에 관한 정보를 탐색하는 데 목적이 있다. 본 연구는 한국어 교재의 읽기 지문과 듣기 지문이라는 특수 텍스트에서 나타나는 구어성과 문어성을 균형적 말뭉치에서 나타나는 구어성과 문어성과 대비하는 방식을 통해 조사 사용 측면에서의 텍스트의 구어성과 문어성에 대한 정보를 탐색하였다. 본 연구는 분석을 위한 도구로 python의 konlpy 라이브러리와 함께 딥러닝 기반의 형태소 분석기 bareun을 사용하였다. 또한, 분석된 값을 여러 측면에서 살펴보기 위해 excel의 피벗 테이블과 각종 필터 기능 및 상관계수 함수를 사용하였다. 이를 통해 본 연구에서는 한국어 텍스트의 구어성과 문어성에 관한 기존 논의에 조사 사용 측면에서의 정보를 추가 제공할 수 있었다. 또한, 한국어 교재 텍스트, 특히 듣기 지문이 실제 언어의 양상을 자연스럽게 반영하지 못하고 있는 몇 가지 특성에 대해서도 확인할 수 있었다.
주요 확인 사항은 다음과 같다. 1) 균형 말뭉치에서 구어적 텍스트와 문어적 텍스트 사이에 조사 출현 양상에 차이가 확인되었다. 이는 종래에 구어의 특징으로 논의되던 사항들을 계량적 방식으로 확인했다는 의미가 있다. 2) 균형 말뭉치와 특수 텍스트 말뭉치에서 유형별 조사의 총 출현 횟수는 순위의 측면에서 일치되는 면을 확인했다. 그 순서는 부사격조사 > 보조사 > 주격조사 > 목적격조사 > 관형격조사 > 접속조사 > 인용격조사 > 호격조사였다. 3) 다만, 주격조사와 관형격조사는 두 말뭉치 사이에 구어적 텍스트와 문어적 텍스트에서 조사 출현 비율 차이가 크게 나타났다. 이는 제약된 조건 내에서 인위적으로 가동된 텍스트로서 한국어 교재가 나타내는 특성이며, 이에 대한 개선, 즉 듣기 지문의 실제성을 높이기 위해서는 보조사 ‘은’, ‘는’의 사용과 관형격조사 ‘의’의 사용을 줄일 필요가 있다는 점을 파악했다는 의미가 있다. 4) 균형 말뭉치의 문어 텍스트는 한국어 교재 읽기 텍스트의 급수가 높아질수록 상관성이 높아지는 모습을 보였으며, 6급에 이르러서는 상관성이 1에 가까운 모습을 보였다. 5) 균형 말뭉치의 구어 텍스트 역시 한국어 교재 듣기 텍스트와 상관성이 비교적 높게 나왔으나 초급과 중급 과정인 1~4급까지 상관성이 높아지다가 고급 과정인 5~6급에서는 상관성이 낮아지는 모습을 보였다. 6) 그럼에도 불구하고, 한국어 교재의 듣기 지문이 균형 말뭉치의 문어 텍스트적 특성을 가지고 있다고 볼 정도의 낮은 상관성을 보이는 것은 아니었다. 즉, 기본적으로 균형 말뭉치든 특수 말뭉치든 구어성과 문어성에 기반한 텍스트 유형 내에서의 동일한 특성을 공유하는 면이 크다는 것을 확인하였다.