국내기사
행정 민원 데이터의 위치정보 인식을 위한 LLM 기반 분석기법의 실증적 비교 연구 = Empirical comparative study on large language model(LLM) based analytical methods for location information recognition of administrative civil complaint data
민원 데이터는 주민 생활과 도시문제를 반영하는 주요 자료로, 시민 참여 기반의 계획 수립과 정책 의사결정에 활용되고 있다. 그러나 민원 정보는 비정형 텍스트로 구성되어 실제 위치를 확인하기 어려운 문제가 있다. 본 연구의 목적은 대규모 언어모델(LLM)을 활용한 민원 정보의 위치 추출 방법 개발과 유용성 검증에 있다. 이를 위해, 부산광역시, 천안시, 담양군의 새올행정시스템 민원 127,287건을 수집하고, 텍스트 마이닝만 활용한 방법([방법1])과 텍스트 마이닝과 LLM을 융합 활용한 방법([방법2])으로 위치 키워드를 추출하였다. 두 방법으로 도출된 위치정보를 좌표정보로 추출하여 실제 민원 위치를 확인하였다. 최근린 이웃 분석(Nearest Neighbor Index, NNI)과 커널 밀도 추정(Kenel Density Estimation, KDE)을 통해 두 분석 간의 민원 분포 특성을 비교 하였다. 무작위로 선정한 1,000건의 표본을 대상으로 추출 가능, 추출 오류, 추출 불가능을 확인하여, 두 방법 간의 위치추출 결과를 비교하였다. 분석 결과 텍스트 마이닝과 LLM을 융합 적용한 방법이 텍스트 마이닝만 적용한 방법보다 관측 평균 거리와 NNI값이 모두 낮은 것으로 나타났다. 이는, 텍스트 마이닝만 사용했을 때보다 LLM을 융합 적용하여 추출된 위치 키워드가 공간적으로 집중되었음을 의미한다. 한편, 텍스트 마이닝만 사용한 경우 추출률 85.2%, 오류율 14.4%을 보였으며, 텍스트 마이닝과 LLM을 융합 사용한 경우 추출률 93.4%, 오류율 6.2%로 확인되었다. 이는 오탈자나 축약어가 많은 민원 텍스트에서 LLM에 문맥을 이해하는 능력을 통해 위치 추출 성능이 개선됨을 의미한다. 민원 발생지역의 정확한 위치 파악을 가능케 한 본연구의 결과는 도시계획, 기반시설 관리, 생활 SOC 정책 등에 있어 실제 문제지역 확인과 개선 우선 지역 선정을 위한 기초 자료로 활용될 것으로 기대된다.