표제지
국문초록
목차
Ⅰ. 서론 11
1. 연구의 배경 및 목적 11
Ⅱ. 이론적 배경 및 선행연구 13
1. 서버 로그 13
2. Elastic Stack을 이용한 로그 수집 17
1) 로그 데몬 18
2) Logstash 18
3) ElasticSearch 19
4) Kibana 19
Ⅲ. 데이터 분석 20
1. 데이터 설명 20
2. 종속변수 Relabeling 21
3. 정규표현식을 활용한 데이터 전처리 24
4. 데이터셋 분리 25
5. 자연어 처리 26
6. 모델 설명 28
1) RNN 28
2) LSTM 29
3) CNN 29
7. 모델링 29
8. 성능 측정 30
1) Confusion Matrix 30
2) 성능 지표 30
9. 분석 결과 32
1) 손실율 비교 분석 32
2) Confusion matrix 비교 분석 34
3) 성능지표 비교 분석 36
Ⅳ. 결론 및 향후 과제 39
참고문헌 41
Abstract 43
〈표-1〉 리눅스/유닉스 기본 로그 종류 13
〈표-2〉 시스템 로그 구성 14
〈표-3〉 시스템 로그 우선순위(Priority) 종류 15
〈표-4〉 시스템 로그 시설(facility)의 종류 15
〈표-5〉 심각도(syslog_severity) Relabeling 정의표 21
〈표-6〉 심각도(syslog_severity) Relabeling 예시 22
〈표-7〉 종속변수 건수 및 비율 23
〈표-8〉 정규표현식 심볼 정의 24
〈표-9〉 전처리 후 종속변수 건수 및 비율 25
〈표-10〉 각 클래스 데이터셋 비율 26
〈표-11〉 Confusion matrix(혼동행렬) 정의표 30
〈표-12〉 RNN Confusion matrix 35
〈표-13〉 LSTM Confusion matrix 35
〈표-14〉 CNN Confusion matrix 35
〈표-15〉 RNN 성능 지표 36
〈표-16〉 LSTM 성능 지표 36
〈표-17〉 CNN 성능 지표 37
〈그림-1〉 시스템 로그 Elastic Stack 구성도 18
〈그림-2〉 시스템 로그 수집 결과값 20
〈그림-3〉 정규표현 추출 로그 메시지(syslog_msg_pattern) 25
〈그림-4〉 syslog_msg_pattern의 전체 길이 28
〈그림-5〉 RNN 손실 그래프 33
〈그림-6〉 LSTM 손실 그래프 33
〈그림-7〉 CNN 손실 그래프 34