목차

표제지

목차

국문초록 8

ABSTRACT 9

제1장 서론 10

1.1. 연구배경 10

1.2. 연구방법 11

제2장 관련연구 12

2.1. 웹 크롤링 12

2.2. 웹 스크래핑 15

2.3. 분산 처리 17

제3장 설계 20

3.1. 연구환경 20

3.1.1. 하드웨어 20

3.1.2. 소프트웨어 21

3.2. 검색엔진의 설계 22

3.2.1. 클러스터의 설계 22

3.2.2. 스파크 크롤러의 설계 25

3.2.3. 검색엔진의 설계 26

제4장 실험 및 검증 30

4.1. 크롤러의 실행 30

4.2. 스파크 크롤러와 너치 크롤러의 성능 비교 33

4.2.1. 평균 수행시간 비교 33

4.2.2. 깊이에 따른 수행시간 비교 34

제5장 결론 36

참고문헌 37

[표 2-1] 하둡 주요 프로젝트 17

[표 3-1] 하드웨어 사양 20

[표 3-2] 설치된 소프트웨어별 버전 21

[표 4-1] 깊이가 다른 크롤링 테스트 결과 34

[그림 2-1] 크롤러의 기본 구조 12

[그림 3-1] 클러스터 구조 22

[그림 3-2] 네임노드 구성도 23

[그림 3-3] 노드별 프로세스 목록 24

[그림 3-4] 스파크 크롤러 작업 흐름도 25

[그림 3-5] 검색엔진 작업 순서도 27

[그림 3-6] managed-schema 구성 28

[그림 3-7] 솔라클라우드 그래프 29

[그림 4-1] 스파크 크롤러 실행화면 31

[그림 4-2] 수집결과 화면 31

[그림 4-3] 평균 수집시간 비교 33

[그림 4-4] 깊이에 따른 수집시간 비교 35