대한민국 국회도서관

인명/단체명 검색결과
전체 선택	대표형(전거형, Authority)	생물정보	이형(異形, Variant)	소속	직위	직업	활동분야	주기	서지
연구/단체명을 입력해주세요.

소장자료
공공정책정보
외부기관 자료

학위논문 신경망 기반 자연어 처리를 이용한 악성코드 분류 = Malware classification using natural language processing based on neural network

저자명
윤태욱
발행사항
서울 : 중앙대학교 대학원, 2018.2
청구기호
TM 005.1 -18-29
형태사항
iv, 44 p. ; 26 cm
자료실 전자자료
제어번호
KDMT1201807385
주기사항
학위논문(석사) -- 중앙대학교 대학원, 컴퓨터공학과 응용소프트웨어전공, 2018.2. 지도교수: 김성권
연계정보
원문
외부기관 원문

목차보기

표제지

제1장 서론 8

1.1. 연구 배경 8

1.2. 연구 내용 9

1.3. 논문 구성 10

제2장 관련 연구 11

2.1. 악성코드 분류 연구 11

2.2. 자연어 연구 13

2.2.1. 데이터 전처리 13

2.2.2. 신경망 기반 자연어 연구 15

제3장 악성코드 분류 모델 17

3.1. Preprocessing Layer 17

3.1.1. API(Application Programming Interface) 17

3.1.2. Word2Vec(Skip-gram) 18

3.2. Hidden Layer 20

3.3. Attention Layer 22

3.4. Classification Layer 24

제4장 실험 및 평가 25

4.1. 실험 환경 25

4.2. 실험 데이터 26

4.2.1. Cuckoo Sandbox 26

4.2.2. 악성코드 구성 정보 27

4.2.3. API 정보 규정 및 추출 정보 28

4.3. 비교 알고리즘 29

4.3.1. CART(Classification And Regression Trees) 29

4.3.2. Random forest 30

4.3.3. SVM(Support Vector Machine) 31

4.3.4. CNN(Convolutional Neural Network) 33

4.3.5. Malware Classification with Recurrent Networks 35

4.3.6. Deep Learning for Classification of Malware System Call Sequence 36

4.4. 성능 평가 방법 37

4.4.1. 데이터 37

4.4.2. 평가 척도 37

4.5. 실험 39

4.5.1. t-SNE로 표현한 악성코드 API 39

4.5.2. 악성코드 분류 결과 41

4.5.3. 성능 비교 43

4.5.4. 신경망 모델 간의 메모리 점유량 및 학습 시간 비교 45

제5장 결론 및 향후 연구 47

참고문헌 48

국문초록 50

Abstract 51

[표 1] 실험 환경 25

[표 2] 악성코드 데이터셋의 정보 27

[표 3] 추출 정보 28

[표 4] CNN 설정 34

[표 5] 악성코드 분류 결과 41

[표 6] 각 클래스별 재현율과 정밀도 42

[표 7] 제안 모델과 CNN 설정 정보 45

[그림 1] 악성코드 증가 추이 8

[그림 2] 악성코드 분석 방식에 따른 추출 데이터 및 분석 방법 11

[그림 3] 데이터 특성 13

[그림 4] 신경망에 기반한 제안된 기법 14

[그림 5] 문장 분류를 위한 CNN 15

[그림 6] 악성코드 분류 모델 17

[그림 7] Skip-gram에서의 인접 단어 예측 18

[그림 8] Skip-gram 모델이 적용된 API sequence 19

[그림 9] LSTM 구성도 20

[그림 10] 양방향 LSTM 21

[그림 11] Attention Mechanism 22

[그림 12] Cuckoo Sandbox Dashboard 26

[그림 13] 악성코드 API 분석 정보 예시 28

[그림 14] Random forest 구조 30

[그림 15] SVM 원리 31

[그림 16] CNN 구성도 33

[그림 17] 제안 모델 35

[그림 18] 제안 모델 36

[그림 19] 오차 행렬(Confusion matrix) 37

[그림 20] t-SNE로 압축된 API 39

[그림 21] File 관련 API 군집 40

[그림 22] 전통 모델과의 성능 비교 43

[그림 23] 신경망 모델과의 성능 비교 44

[그림 24] VRAM 점유량 및 학습 시간 45

초록보기

스마트폰 및 태블릿 등 디바이스가 다양화되고 무선 인터넷 망의 확대로 악성코드가 빠르게 증가하고 있다. 악성코드의 증가량 대부분은 원본 악성코드를 기반으로 재생성된 변종 악성코드이다. 이에 변종 악성코드를 적절하게 분류하여 대처하는 방식이 요구된다. 본 논문에서는 악성코드를 분류를 위하여 악성코드가 호출하는 API를 입력값으로 사용하고 자원 소모 절약 및 특성값 계산을 목적으로 자연어 처리 기법을 적용하였다. 자연어 처리 기법은 단어 전처리 기법인 Word2Vec를 사용하고 특성값 계산을 위한 신경망은 RNN의 한 기법인 LSTM을 사용한다. 또한 중요 API에 가중치를 주기 위하여 Attention Mechanism을 적용하였다. 악성코드 API 호출과 자연어 처리 기법 이용한 악성코드 분류는 전통적인 분류 기법 또는 다른 신경망 기법보다 나은 분류 정확률을 보여주며 상대적으로 낮은 오탐률을 지닌다.

자료명
저자사항
제어번호
*요청자 이름	회신요청
*전화번호	휴대폰 번호를 입력하세요.
*이메일	@
*요청내용
*오류항목

* 서재명
설명
* 공개수준	비공개 완전공개 * 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.

알림톡 발송로 자료명, 기사명/저자명, 수록지명, 자료실, 서가번호, 전화번호로 구성되어 있습니다.




*전화번호	※ '-' 없이 휴대폰번호를 입력하세요

연속간행물 상세정보 입니다.
청구기호
자료명/저자사항
발행사항
형태사항
ISSN

다국어입력

상세검색

다국어입력

저자 검색

관련 키워드 검색

주제별 검색

학위논문 신경망 기반 자연어 처리를 이용한 악성코드 분류 = Malware classification using natural language processing based on neural network

목차보기

초록보기

추천서가 (다양한 추천 자료를 만나보세요)

MARC 보기

오류 데이터 정정요청

알림톡 발송

권호기사보기

연속간행물 권호 선택

연속간행물 권호 선택

우편복사 안내

도서위치안내(서울관)

저자프로필

목차보기

우편복사 안내

우편복사 목록담기

확인

내서재에 담기

새로운 서재

저장

로그인