LLM 한국어 탈옥 프롬프트 분류기 연구 = LLM Korean jailbreak prompt classifier research / 박대얼

입법지원서비스

의정활동에 필요한 자료를 어디서 찾을지 고민되셨다면, 입법 지원서비스 메뉴를 확인해보세요. 국회도서관에서 제공하는 의회·법률정보부터 AI 분석까지, 국회의 입법 활동을 뒷받침하는 전문정보를 모았습니다.

국회도서관 홈으로 정보검색 소장정보 검색

결과 내 검색

동의어 포함

고급검색

상세검색
저자 검색
관련 키워드 검색
주제별 검색

완전일치
전방일치
후방일치

인명/단체명

	저자정보	상세정보
인명/단체명을 입력하세요.

전방일치
완전일치
후방일치
부분일치

키워드

대표어
외국어
네이버 백과사전

용어관계 검색결과
대표어	동의어	상위어	하위어	관련어	대립어

대분류

중분류

소분류

소장자료
외부기관 자료

학위논문 LLM 한국어 탈옥 프롬프트 분류기 연구 = LLM Korean jailbreak prompt classifier research

저자명
박대얼
발행사항
서울 : 숭실대학교 대학원, 2025.2
청구기호
TM 005.1 -25-5
형태사항
vi, 37 p. ; 26 cm
자료실 전자자료
제어번호
KDMT12025000011858
주기사항
학위논문(석사) -- 숭실대학교 대학원, 소프트웨어학과, 2025.2. 지도교수: 최대선
원문
연계정보
외부기관 원문
학술연구정보서비스(KERIS)
외부기관 원문

목차보기

표제지 2

목차 6

국문초록 10

ABSTRACT 11

제1장 서론 12

제2장 관련 연구 14

2.1. LLM 탈옥 공격 14

2.2. 텍스트 분류 모델 16

2.2.1. BERT 계열 모델 17

2.3. LLM 탈옥 프롬프트 분류기 18

2.4. LLM 탈옥 프롬프트 데이터셋 18

제3장 한국어 탈옥 프롬프트 데이터셋 19

3.1. 한국어 탈옥 프롬프트 데이터셋 구성 19

3.1.1. Benign 라벨 프롬프트 데이터 구성 21

3.1.2. Harmful 라벨 프롬프트 데이터 구성 22

3.1.3. Jailbreak 라벨 프롬프트 데이터 구성 26

3.1.4. Moderation 라벨 프롬프트 데이터 구성 28

제4장 LLM 탈옥 프롬프트 분류기 31

4.1. LLM 탈옥 프롬프트 분류기 모델 31

4.1.1. mDeBERTa-v3 모델 31

4.2. LLM 탈옥 프롬프트 분류기 학습 32

4.2.1. LLM 탈옥 프롬프트 분류기 학습 전략 비교 32

제5장 실험 33

5.1. 실험 환경 33

5.1.1. 한국어 탈옥 프롬프트 학습, 검증, 테스트 데이터셋 분류 33

5.1.2. 한국어 탈옥 프롬프트 분류기 학습 환경 34

5.1.3. 한국어 탈옥 프롬프트 분류기 학습 결과 34

5.1.4. 한국어 탈옥 프롬프트 분류 성능 평가 지표 35

5.1.5. 기존 LLM 탈옥 프롬프트 분류기 성능 평가 기준 36

5.2. 실험 결과 37

5.2.1. 한국어 탈옥 프롬프트 테스트 데이터셋 성능 평가 결과 37

5.2.2. 추가 한국어 테스트 데이터셋 일반화 성능 평가 결과 41

제6장 결론 43

참고문헌 44

표목차 8

[표 3-1] 한국어 탈옥 프롬프트 데이터셋 데이터 라벨별 개수 구성 20

[표 3-2] Benign 라벨 데이터 출처별 예시 21

[표 3-3] Harmful 라벨 데이터 중 CategoricalHarmfulQA 데이터 예시 23

[표 3-4] Harmful 라벨 데이터 중 ALERT 데이터 예시 24

[표 3-5] Harmful 라벨 데이터 중 S-Eval 데이터 예시 25

[표 3-6] 탈옥 템플릿과 완성된 탈옥 프롬프트 예시 27

[표 3-7] Moderation 템플릿과 완성된 Moderation 프롬프트 예시 29

[표 3-8] Jailbreak 템플릿과 Moderation 템플릿의... 29

[표 5-1] Full fine-tuning으로 학습한 한국어 탈옥 프롬프트... 39

[표 5-2] Frozen fine-tuning으로 학습한 한국어 탈옥 프롬프트... 39

[표 5-3] PromptGuard의 한국어 탈옥 프롬프트 테스트 데이터셋... 40

[표 5-4] Arch-Guard의 한국어 탈옥 프롬프트 테스트 데이터셋... 40

[표 5-5] 한국어 탈옥 프롬프트 분류기의... 42

[표 5-6] PromptGuard와 Arch-Guard의... 42

그림목차 9

[그림 1-1] 현재 서비스되는 LLM 예시 13

[그림 1-2] 한국어 탈옥 프롬프트 분류기 입력 프롬프트 분류 구조도 13

[그림 2-1] 유해 질문에 답변하지 않는 GPT-4o 14

[그림 2-2] 유해 질문을 탈옥 공격으로 변형한... 15

[그림 3-1] Benign, jailbreak 라벨 프롬프트를 학습시켰을... 30

[그림 3-2] Benign, jailbreak, moderation 라벨 프롬프트를... 30

초록보기

본 연구는 대형 언어 모델(LLM)의 한국어 탈옥 프롬프트 공격에 대응하기 위한 새로운 한국어 탈옥 프롬프트 데이터셋 구축과 분류기 개발을 목표로 한다. LLM의 보안성이 탈옥 공격에 취약해지는 현상에 대응하고자, 한국어로 된 탈옥 프롬프트를 포함한 데이터셋을 구축하고, 이를 기반으로 mDeBERTa-v3 기반 텍스트 분류 모델을 학습시켰다. 제안된 분류기는 benign, harmful, jailbreak, moderation 총 4개의 라벨로 데이터를 분류하며, 기존 PromptGuard 및 Arch-Guard 모델에 비해 우수한 정밀도와 재현율을 달성하였다. 또한, 외부 테스트 데이터셋을 사용한 실험에서도 높은 일반화 성능을 보여줌으로써, 본 연구의 모델이 다양한 한국어 프롬프트 유형에 대해 효과적으로 작동할 수 있음을 입증하였다. 이는 향후 한국어 기반 LLM 챗봇의 안전성을 높이는 데 기여할 것으로 기대된다. 따라서 본 연구는 한국어 탈옥 프롬프트 데이터셋 구축 및 분류기 개발로 LLM의 보안성 강화를 위한 새로운 가능성을 제시한다.

자료명
저자사항
제어번호
*요청자 이름
*전화번호	휴대폰 번호를 입력하세요.
*이메일	@
*요청내용
*오류항목

* 서재명
설명
* 공개수준	비공개 완전공개 * 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.

고급검색

다국어입력

학위논문 LLM 한국어 탈옥 프롬프트 분류기 연구 = LLM Korean jailbreak prompt classifier research

목차보기

초록보기

추천서가 (다양한 추천 자료를 만나보세요)

권호

알림톡 발송로 자료명, 기사명/저자명, 수록지명, 자료실, 서가번호, 전화번호로 구성되어 있습니다.




전화번호

연속간행물 상세정보 입니다.
청구기호
자료명/저자사항
발행사항
형태사항
ISSN

고급검색

다국어입력

학위논문 LLM 한국어 탈옥 프롬프트 분류기 연구 = LLM Korean jailbreak prompt classifier research

목차보기

초록보기

추천서가 (다양한 추천 자료를 만나보세요)

MARC 보기

오류 데이터 정정요청

알림톡 발송

권호기사보기

연속간행물 권호 선택

연속간행물 권호 선택

우편복사 안내

도서위치안내(서울관)

저자프로필

목차보기

우편복사 안내

우편복사 목록담기

확인

내서재에 담기

새로운 서재

저장

로그인

권호