표제지
요약
목차
제1장 서론 9
제1절 연구 배경 9
제2절 연구 목적 및 방향 13
제2장 관련 연구 15
제1절 윈도우 PE 포맷 15
제2절 선행 연구 고찰 18
제3절 순환신경망과 LSTM 21
1. 순환신경망 21
1. LSTM(Long-Short Term Memory) 24
3. Bi-LSTM(Bidirectioinal-LSTM) 26
제3장 윈도우 PE 포맷 악성코드 분석기법 28
제1절 EMBER2018 데이터세트 28
1. 데이터세트 구성 28
2. 특성 집합(feature set) 30
제2절 분류모델 작동개념 33
제3절 데이터 전처리 35
제4절 실험 설계 및 모델 학습 37
제4장 실험 결과 분석 40
제1절 성능지표 40
제2절 이진 분류 모델 실험 결과 41
제3절 패밀리 분류 모델 실험 결과 45
제5장 결론 50
참고문헌 52
Abstract 55
〈표 1〉 PE 포맷 대표적 섹션 및 포함 정보 17
〈표 2〉 EMBER2018 데이터세트 특성 집합 구성 31
〈표 3〉 이진 분류 모델 실험 결과 42
〈표 4〉 기존 연구와의 이진 분류 성능 비교 45
〈표 5〉 패밀리 분류 모델 실험 결과 46
〈표 6〉 평가용 데이터세트 1,000건 이상 패밀리 현황 47
〈그림 1〉 2020년 인터넷 성장 규모 9
〈그림 2〉 국방개혁 2.0을 고려한 2019년 국방예산 편성안 11
〈그림 3〉 Mcafee 보안위협 분석 현황(신종 악성코드 위협) 12
〈그림 4〉 윈도우 PE 포맷 구조 16
〈그림 5〉 시스템 호출정보 수집 및 LSTM 네트워크 동작 구조 19
〈그림 6〉 PE Header 정보 통계 분석 예시 20
〈그림 7〉 순환신경망 구조 22
〈그림 8〉 입출력 벡터에 따른 순환신경망 네트워크 형태 23
〈그림 9〉 LSTM 셀 구조 25
〈그림 10〉 Bidirectional LSTM 구조 27
〈그림 11〉 (a) 데이터세트 구성 (b) 추출 및 저장된 특성 29
〈그림 12〉 슬라이딩 윈도우 방식 31
〈그림 13〉 Byte Histogram 32
〈그림 14〉 분류모델 작동개념 33
〈그림 15〉 Bi-LSTM 네트워크 입력 자료 구조 34
〈그림 16〉 제로패딩 절차 34
〈그림 17〉 레이블 인코딩 및 원핫 인코딩 예시 36
〈그림 18〉 데이터 전처리 과정 37
〈그림 19〉 드롭아웃이 적용된 신경망 모델 38
〈그림 20〉 혼동 행렬(Confusion Matrix) 40
〈그림 21〉 이진 분류 모델 혼동 행렬 43