권호기사보기
| 기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
|---|
결과 내 검색
동의어 포함
디지털 소통이 일상화되면서 온라인 마약 거래가 심각한 사회 문제로 부상하고 있다. 본 연구는 온라인 대화에서 한국어 기반의 마약을 일컫는 (알려지지 않은) 은어나 변형어를 자동으로 탐지하는 LLM (Large Language Model) 기반 탐지 시스템을 제안한다. 기존의 간단한 키워드 매칭 방식이나 텍스트를 벡터공간에서 의미와 문맥 정보를 파악하는 Word2Vec 기반 단어 임베딩 기술은 지속적으로 진화하는 은어와 의도적인 변형에 대응하기 어려운 한계점이 있다. 본 연구는 단어 빈도-역문서 빈도 (TF-IDF; Term Frequency-Inverse Document Frequency) 기반으로 통계적 가중치를 통해 자동으로 변형어를 생성하고, 이를 이용해 LLM 기반의 대규모 학습 데이터셋을 구축한다. 또한 슬라이딩 윈도우 기반으로 문맥을 인식하는 아키텍처와 이중 손실 함수를 활용한 메시지 수준의 어텐션 학습 모델을 이용한 마약 은어 키워드 탐지 시스템을 제안한다. KLUE/RoBERTa와 KLUE/BERT 모델을 활용한 실험 결과, 제안 시스템은 0.9816의 정확도와 0.9763의 재현율을 달성하였다.
We propose an LLM-based system that automatically detects (unknown) Korean slang and its variations referring to drugs in online conversations. Traditional approaches, such as simple keyword matching or Word2Vec-based word embedding for capturing semantic and contextual information in a vector space, have limitations in coping with continuously evolving slang and intentional word alterations. In this work, we generate linguistic variations using statistical weighting based on Term Frequency–Inverse Document Frequency (TF-IDF), constructing an LLM-based large-scale training dataset. Besides, we introduce a drug-referring slang detection system that employs a sliding-window-based contextual recognition architecture and a message-level attention learning model trained with a dual-loss function. Experimental results using the KLUE/RoBERTa and KLUE/BERT models demonstrate that the proposed system achieves an accuracy of 0.9816 and a recall of 0.9763.*표시는 필수 입력사항입니다.
| 전화번호 |
|---|
| 기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
|---|
| 번호 | 발행일자 | 권호명 | 제본정보 | 자료실 | 원문 | 신청 페이지 |
|---|
도서위치안내: 정기간행물실(524호) / 서가번호: 국내09
2021년 이전 정기간행물은 온라인 신청(원문 구축 자료는 원문 이용)
우편복사 목록담기를 완료하였습니다.
*표시는 필수 입력사항입니다.
저장 되었습니다.