본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

결과 내 검색

동의어 포함

목차보기

표제지 2

목차 6

국문초록 10

ABSTRACT 11

제1장 서론 12

제2장 관련 연구 14

2.1. LLM 탈옥 공격 14

2.2. 텍스트 분류 모델 16

2.2.1. BERT 계열 모델 17

2.3. LLM 탈옥 프롬프트 분류기 18

2.4. LLM 탈옥 프롬프트 데이터셋 18

제3장 한국어 탈옥 프롬프트 데이터셋 19

3.1. 한국어 탈옥 프롬프트 데이터셋 구성 19

3.1.1. Benign 라벨 프롬프트 데이터 구성 21

3.1.2. Harmful 라벨 프롬프트 데이터 구성 22

3.1.3. Jailbreak 라벨 프롬프트 데이터 구성 26

3.1.4. Moderation 라벨 프롬프트 데이터 구성 28

제4장 LLM 탈옥 프롬프트 분류기 31

4.1. LLM 탈옥 프롬프트 분류기 모델 31

4.1.1. mDeBERTa-v3 모델 31

4.2. LLM 탈옥 프롬프트 분류기 학습 32

4.2.1. LLM 탈옥 프롬프트 분류기 학습 전략 비교 32

제5장 실험 33

5.1. 실험 환경 33

5.1.1. 한국어 탈옥 프롬프트 학습, 검증, 테스트 데이터셋 분류 33

5.1.2. 한국어 탈옥 프롬프트 분류기 학습 환경 34

5.1.3. 한국어 탈옥 프롬프트 분류기 학습 결과 34

5.1.4. 한국어 탈옥 프롬프트 분류 성능 평가 지표 35

5.1.5. 기존 LLM 탈옥 프롬프트 분류기 성능 평가 기준 36

5.2. 실험 결과 37

5.2.1. 한국어 탈옥 프롬프트 테스트 데이터셋 성능 평가 결과 37

5.2.2. 추가 한국어 테스트 데이터셋 일반화 성능 평가 결과 41

제6장 결론 43

참고문헌 44

표목차 8

[표 3-1] 한국어 탈옥 프롬프트 데이터셋 데이터 라벨별 개수 구성 20

[표 3-2] Benign 라벨 데이터 출처별 예시 21

[표 3-3] Harmful 라벨 데이터 중 CategoricalHarmfulQA 데이터 예시 23

[표 3-4] Harmful 라벨 데이터 중 ALERT 데이터 예시 24

[표 3-5] Harmful 라벨 데이터 중 S-Eval 데이터 예시 25

[표 3-6] 탈옥 템플릿과 완성된 탈옥 프롬프트 예시 27

[표 3-7] Moderation 템플릿과 완성된 Moderation 프롬프트 예시 29

[표 3-8] Jailbreak 템플릿과 Moderation 템플릿의... 29

[표 5-1] Full fine-tuning으로 학습한 한국어 탈옥 프롬프트... 39

[표 5-2] Frozen fine-tuning으로 학습한 한국어 탈옥 프롬프트... 39

[표 5-3] PromptGuard의 한국어 탈옥 프롬프트 테스트 데이터셋... 40

[표 5-4] Arch-Guard의 한국어 탈옥 프롬프트 테스트 데이터셋... 40

[표 5-5] 한국어 탈옥 프롬프트 분류기의... 42

[표 5-6] PromptGuard와 Arch-Guard의... 42

그림목차 9

[그림 1-1] 현재 서비스되는 LLM 예시 13

[그림 1-2] 한국어 탈옥 프롬프트 분류기 입력 프롬프트 분류 구조도 13

[그림 2-1] 유해 질문에 답변하지 않는 GPT-4o 14

[그림 2-2] 유해 질문을 탈옥 공격으로 변형한... 15

[그림 3-1] Benign, jailbreak 라벨 프롬프트를 학습시켰을... 30

[그림 3-2] Benign, jailbreak, moderation 라벨 프롬프트를... 30

초록보기

 본 연구는 대형 언어 모델(LLM)의 한국어 탈옥 프롬프트 공격에 대응하기 위한 새로운 한국어 탈옥 프롬프트 데이터셋 구축과 분류기 개발을 목표로 한다. LLM의 보안성이 탈옥 공격에 취약해지는 현상에 대응하고자, 한국어로 된 탈옥 프롬프트를 포함한 데이터셋을 구축하고, 이를 기반으로 mDeBERTa-v3 기반 텍스트 분류 모델을 학습시켰다. 제안된 분류기는 benign, harmful, jailbreak, moderation 총 4개의 라벨로 데이터를 분류하며, 기존 PromptGuard 및 Arch-Guard 모델에 비해 우수한 정밀도와 재현율을 달성하였다. 또한, 외부 테스트 데이터셋을 사용한 실험에서도 높은 일반화 성능을 보여줌으로써, 본 연구의 모델이 다양한 한국어 프롬프트 유형에 대해 효과적으로 작동할 수 있음을 입증하였다. 이는 향후 한국어 기반 LLM 챗봇의 안전성을 높이는 데 기여할 것으로 기대된다. 따라서 본 연구는 한국어 탈옥 프롬프트 데이터셋 구축 및 분류기 개발로 LLM의 보안성 강화를 위한 새로운 가능성을 제시한다.