권호기사보기
| 기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
|---|
결과 내 검색
동의어 포함
표제지 2
목차 6
국문초록 10
ABSTRACT 11
제1장 서론 12
제2장 관련 연구 14
2.1. LLM 탈옥 공격 14
2.2. 텍스트 분류 모델 16
2.2.1. BERT 계열 모델 17
2.3. LLM 탈옥 프롬프트 분류기 18
2.4. LLM 탈옥 프롬프트 데이터셋 18
제3장 한국어 탈옥 프롬프트 데이터셋 19
3.1. 한국어 탈옥 프롬프트 데이터셋 구성 19
3.1.1. Benign 라벨 프롬프트 데이터 구성 21
3.1.2. Harmful 라벨 프롬프트 데이터 구성 22
3.1.3. Jailbreak 라벨 프롬프트 데이터 구성 26
3.1.4. Moderation 라벨 프롬프트 데이터 구성 28
제4장 LLM 탈옥 프롬프트 분류기 31
4.1. LLM 탈옥 프롬프트 분류기 모델 31
4.1.1. mDeBERTa-v3 모델 31
4.2. LLM 탈옥 프롬프트 분류기 학습 32
4.2.1. LLM 탈옥 프롬프트 분류기 학습 전략 비교 32
제5장 실험 33
5.1. 실험 환경 33
5.1.1. 한국어 탈옥 프롬프트 학습, 검증, 테스트 데이터셋 분류 33
5.1.2. 한국어 탈옥 프롬프트 분류기 학습 환경 34
5.1.3. 한국어 탈옥 프롬프트 분류기 학습 결과 34
5.1.4. 한국어 탈옥 프롬프트 분류 성능 평가 지표 35
5.1.5. 기존 LLM 탈옥 프롬프트 분류기 성능 평가 기준 36
5.2. 실험 결과 37
5.2.1. 한국어 탈옥 프롬프트 테스트 데이터셋 성능 평가 결과 37
5.2.2. 추가 한국어 테스트 데이터셋 일반화 성능 평가 결과 41
제6장 결론 43
참고문헌 44
[그림 1-1] 현재 서비스되는 LLM 예시 13
[그림 1-2] 한국어 탈옥 프롬프트 분류기 입력 프롬프트 분류 구조도 13
[그림 2-1] 유해 질문에 답변하지 않는 GPT-4o 14
[그림 2-2] 유해 질문을 탈옥 공격으로 변형한... 15
[그림 3-1] Benign, jailbreak 라벨 프롬프트를 학습시켰을... 30
[그림 3-2] Benign, jailbreak, moderation 라벨 프롬프트를... 30
*표시는 필수 입력사항입니다.
| 전화번호 |
|---|
| 기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
|---|
| 번호 | 발행일자 | 권호명 | 제본정보 | 자료실 | 원문 | 신청 페이지 |
|---|
도서위치안내: / 서가번호:
우편복사 목록담기를 완료하였습니다.
*표시는 필수 입력사항입니다.
저장 되었습니다.