본문바로가기

자료 카테고리

전체 1
도서자료 0
학위논문 1
연속간행물·학술기사 0
멀티미디어 0
동영상 0
국회자료 0
특화자료 0

도서 앰블럼

전체 (0)
일반도서 (0)
E-BOOK (0)
고서 (0)
세미나자료 (0)
웹자료 (0)
전체 (1)
학위논문 (1)
전체 (0)
국내기사 (0)
국외기사 (0)
학술지·잡지 (0)
신문 (0)
전자저널 (0)
전체 (0)
오디오자료 (0)
전자매체 (0)
마이크로폼자료 (0)
지도/기타자료 (0)
전체 (0)
동영상자료 (0)
전체 (0)
외국법률번역DB (0)
국회회의록 (0)
국회의안정보 (0)
전체 (0)
표·그림DB (0)
지식공유 (0)

도서 앰블럼

전체 1
국내공공정책정보
국외공공정책정보
국회자료
전체 ()
정부기관 ()
지방자치단체 ()
공공기관 ()
싱크탱크 ()
국제기구 ()
전체 ()
정부기관 ()
의회기관 ()
싱크탱크 ()
국제기구 ()
전체 ()
국회의원정책자료 ()
입법기관자료 ()

검색결과

검색결과 (전체 1건)

검색결과제한

열기
논문명/저자명
메모리 사이즈가 하둡과 스파크의 성능에 미치는 영향 분석 = Impact analysis of memory size on Hadoop and Spark processing performance / 한승혜 인기도
발행사항
용인 : 단국대학교 대학원, 2017.2
청구기호
TM 004 -17-126
형태사항
v, 31 p. ; 30 cm
자료실
전자자료
제어번호
KDMT1201728998
주기사항
학위논문(석사) -- 단국대학교 대학원, 데이터사이언스학과 데이터사이언스전공, 2017.2. 지도교수: 나연묵
원문

목차보기더보기

표제지

국문초록

목차

I. 서론 9

II. 하둡과 스파크의 데이터 처리 방법 12

III. 메모리 사이즈가 하둡과 스파크에 미치는 영향 분석 17

1. 실험 환경 17

2. 실험 내용 19

2.1. 노드 메모리 크기에 따른 클러스터 성능 분석 20

2.2. 스토리지 메모리 크기에 따른 클러스터 성능 분석 26

2.3. 셔플 메모리 크기에 따른 클러스터 성능 분석 30

IV. 결론 및 향후 연구 35

참고문헌 37

Abstract 38

표 1. 실험 환경 17

표 2. 노드 메모리 크기에 따른 데이터 처리 시간 22

표 3. 스토리지 메모리 영역의 비율에 따른 데이터 처리 시간 28

표 4. 셔플 메모리 영역의 비율에 따른 데이터 처리 시간 32

그림 1. 하둡의 반복 작업 12

그림 2. 스파크 RDD 반복 작업 13

그림 3. 스파크 메모리 관리 14

그림 4. 하둡 클러스터 18

그림 5. 스파크 클러스터 18

그림 6. 데이터 처리 시간(4GB per node) 20

그림 7. 데이터 처리율(4GB per node) 21

그림 8. 데이터 처리 시간(8GB per node) 23

그림 9. 데이터 처리율(8GB per node) 24

그림 10. 데이터 처리 시간(12GB per node) 25

그림 11. 데이터 처리율(12GB per node) 25

그림 12. 스토리지 메모리 영역에 따른 스파크 처리 시간(4GB per node) 27

그림 13. 스토리지 메모리 영역에 따른 스파크 처리 시간(8GB per node) 29

그림 14. 스토리지 메모리 영역에 따른 스파크 처리 시간(12GB per node) 29

그림 15. 셔플 메모리 영역에 따른 스파크 처리 시간(4GB per node) 31

그림 16. 셔플 메모리 영역에 따른 스파크 처리 시간(8GB per node) 33

그림 17. 셔플 메모리 영역에 따른 스파크 처리 시간(12GB per node) 33

초록보기 더보기

 스마트폰과 PC, 웨어러블 컴퓨팅 기술의 발달에 따라 거대한 양의 데이터가 빠른 속도로 생성되고 있다. 이러한 데이터를 단일 컴퓨터에서 처리하기에는 컴퓨팅 성능의 한계에 대한 부담이 따른다. 분산 처리는 데이터를 여러 서버에 분산하여 저장하고 동시다발적으로 처리하는 기술이다. 분산 처리를 활용하여 데이터를 처리하는 경우 서버의 수평적 확장이 가능하여 컴퓨팅 성능의 한계에 대한 부담이 적다. 대표적인 오픈 소스 분산 처리 플랫폼으로는 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)가 있다.

하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)와 처리 알고리즘인 맵리듀스(MapReduce)를 이용하여 데이터를 저장하고 처리한다. 하둡은 맵리듀스 작업의 여러 단계에 걸쳐 생성되는 중간 결과를 HDFS에 저장하고 재사용하기 때문에 디스크에 대한 접근이 필수적이다. 이러한 디스크 기반의 기술은 물리적인 처리 속도의 한계로 인한 작업 성능의 저하를 일으킨다. 특별히 데이터 세트에 대한 접근이 빈번하게 발생하는 머신러닝과 같은 반복 작업에 취약하다. 이러한 한계를 극복하기 위한 목적으로 아파치 스파크가 설계되었다. 스파크는 메모리 기반의 오픈 소스 빅데이터 플랫폼으로 RDD(Resilient Distributed Dataset)의 개념을 도입하여 메모리에 입력 데이터 세트를 생성하는 방식으로 메모리 속도의 빠른 연산을 가능하게 한다. 하지만 스파크 역시 입력 데이터 세트를 메모리에 저장하여 처리하는 특수성 때문에 처리 성능이 메모리 캐시 크기와 같은 물리적 자원에 의존적이라는 한계가 존재한다.

하둡과 스파크는 분산 빅데이터 처리 플랫폼이라는 측면에서 공통점을 갖지만 그 처리 방법이 다르기 때문에 현재 두 플랫폼의 성능 비교에 관한 연구가 진행 중이다. 스파크는 하둡 반복 작업의 한계를 극복하기 위한 목적으로 설계되었지만 하드웨어 자원에 의존적이기 때문에 물리적으로 제한된 컴퓨팅 환경에서 스파크가 하둡의 처리 성능을 충분히 대체할 수 있는지에 대한 연구가 활발히 진행되고 있다.

본 논문에서는 메모리와 같은 물리적 하드웨어 자원이 빅데이터 처리 성능에 미치는 영향을 확인하기 위한 목적으로 하둡과 스파크 클러스터의 메모리 크기가 제한된 실험 환경을 구성한다. 다양한 컴퓨팅 환경의 클러스터가 여러 크기의 입력 데이터를 처리하는데 소요되는 시간을 측정하고 분석하여 메모리 사이즈가 하둡과 스파크의 처리 성능에 미치는 영향을 확인한다.

권호기사보기

권호기사 목록 테이블로 기사명, 저자명, 페이지, 원문, 기사목차 순으로 되어있습니다.
기사명 저자명 페이지 원문 기사목차
연속간행물 팝업 열기 연속간행물 팝업 열기