표제지
국문요약
목차
제1장 서론 11
제1절 연구 배경 및 목적 11
제2절 연구의 구성 13
제2장 정보수집 기술 14
제1절 웹의 종류 14
1. 표층 웹(Surface Web) 14
2. 딥 웹(Deep Web) 14
3. 다크 웹(Dark Web) 15
제2절 정보수집 기술의 종류 16
1. 웹 크롤링(Web Crawling) 16
2. Open API 18
3. RSS(Rich Site Summary) 19
제3장 빅데이터 및 분산처리 20
제1절 빅데이터 및 분산처리 관련 20
1. Apache Hadoop(High Availability Distributed Object Oriented Platform) 20
2. HDFS(Hadoop distributed file system) 20
3. ElasticSearch 21
제2절 가상화(Virtualization) 종류 24
1. 호스트 가상화(Host Virtualization) 24
2. 하이퍼바이저 가상화(Hypervisor Virtualization) 24
3. 컨테이너 가상화(Container Virtualization) 26
4. 도커스웜(Docker swarm) 26
5. 쿠버네티스(Kubenetes) 27
제4장 인공지능 기술 28
제1절 머신러닝(Machine Learning) 28
1. 지도학습(Supervised Learning) 29
2. 비지도 학습(Unsupervised Learning) 30
3. 강화학습(reinforcement Learning) 30
제2절 딥 러닝(Deep Learning) 31
1. 인공 신경망(Artificial Neural Network) 31
2. 퍼셉트론(Perceptron) 32
3. CNN(Convolutional Neural Network, 합성곱 신경망) 33
제5장 제안하는 수집체계 구성 35
제1절 실험 환경 35
제2절 실험 대상 35
제3절 실험 절차 36
제4절 실험 결과 41
제5절 제안하는 수집분석 체계 구성 44
제6장 결론 46
참고문헌 47
Abstract 48
[표 1] '21년 1월 ~ 6월 Tor 사용자 현황 11
[표 2] 대표적인 Dark Web 15
[표 3] 대표적인 오픈소스 웹크롤러 17
[표 4] 정적 동적 크롤링 비교 18
[표 5] RSS 버전 별 특징 19
[표 6] Elasticsearch 와 RDBMS 비교 22
[표 7] Elasticsearch 용어 23
[표 8] 가상화 솔루션 비교 25
[표 9] 지도학습을 이용한 알고리즘 종류 29
[표 10] 비지도학습을 이용한 알고리즘 종류 30
[표 11] 실험 환경 35
[표 12] Virtualization 성능측정 결과 43
[표 13] 머신러닝 파라미터 변경 전 성능측정 결과 43
[표 14] 머신러닝 파라미터 변경 후 성능측정 결과 44
[그림 1] 다크웹 관련 설문 12
[그림 2] WEB 분류 14
[그림 3] 다크웹에 공개된 유출자료 화면 15
[그림 4] 일반적인 웹크롤러 구조 16
[그림 5] Open API 구조 18
[그림 6] RSS 피드 샘플 19
[그림 7] HDFS Architecture 20
[그림 8] Kibana를 통한 Elasticsearch 검색 화면 22
[그림 9] Host Virtualization 구조 24
[그림 10] Hypervisor Virtualization 구조 25
[그림 11] Container Virtualization 구조 26
[그림 12] Docker Swarm Architecture 27
[그림 13] Kubernetes Architecture 27
[그림 14] 머신러닝 분류 28
[그림 15] 인공신경망의 모델링 구조 32
[그림 16] 출력층의 크기가 1인 단층 퍼셉트론 32
[그림 17] CNN(Convolutional Neural Network) 33
[그림 18] Ahmia에서 제공하는 다크웹 URL List 36
[그림 19] docker-compose.yml 파일 37
[그림 20] Dockerfile 파일 설정 37
[그림 21] docker-Compose 실행 화면 38
[그림 22] URL을 수집하기 위한 프로그램 38
[그림 23] 수집한 URL 목록 39
[그림 24] 가상머신에서 데이터를 수집 하는 화면 39
[그림 25] Newsgroups data set 구축 40
[그림 26] 불용어 제거 및 데이터 전저리 40
[그림 27] CPU 성능측정 결과 41
[그림 28] Memory 성능측정 결과 42
[그림 29] Disk Read/Write 성능측정 결과 42
[그림 30] 제안하는 수집체계 구성도 45