본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

목차보기

표제지

목차

ABSTRACT 8

초록 9

제1장 서론 10

제2장 배경지식 및 관련 연구 14

제1절 Secure Hash Algorithm 2 (SHA-2) 14

제2절 Apache Parquet 16

제3절 Apache Spark 18

제4절 관련 연구 21

제3장 SPARK 혼합 기법 24

제1절 연구 동기 24

제2절 순차 혼합 기법 25

제3절 병렬 혼합 기법 26

제4절 구현 28

제4장 성능평가 29

제1절 실험 환경 29

제2절 성능평가 34

제5장 결론 37

참고문헌 38

표목차

표 1. SHA-256의 기본 특성 비교 14

표 2. Time Load Map 26

표 3. System SPEC 29

표 4. spark-env.sh 설정 값 31

표 5. Test Dataset Schema 31

표 6. Main Test Dataset 31

표 7. 순차 및 병렬 혼합 기법 프로세싱 시간 36

그림목차

그림 1. 개인정보, 가명정보의 설명 및 예시 11

그림 2. SHA-256에서의 워드(W) 블록 구조 15

그림 3. 컬럼 기반과 행 기반의 저장 방식 16

그림 4. Parquet 파일 구조 17

그림 5. Parquet의 Block과 Page 구조 18

그림 6. Spark Cluster Architecture 19

그림 7. Job Executing Procedure 20

그림 8. 순차 혼합 기법 Flowchart 25

그림 9. 병렬 혼합 기법 Flowchart 27

그림 10. 순차 혼합 기법 SPARK-SUBMIT Conf 32

그림 11. 병렬 혼합 기법 SPARK-SUBMIT Conf 32

그림 12. 데이터 암호화 Pseudo Code 33

그림 13. SPARK-CPU, SPARK-GPU에서 데이터 건 수에 따른 프로세싱 시간 비교 35

그림 14. 병렬 혼합 기법과 순차 혼합 기법의 프로세싱 시간 비교 36

초록보기

국내 기업의 구조 중에는 지주사를 중심으로 여러 기업이 하나의 그룹을 이루는 그룹사 형태가 존재한다. 4차 산업 혁명 이후, 그룹사 내에 속한 기업들은 빅데이터에 대한 니즈가 증가하여, 그룹 내 데이터를 활용하기 위해 하나의 데이터 플랫폼으로 통합하고 있는 추세이다. 기업이 관리하는 데이터 중에는 개인정보도 포함되며, 데이터 3법이 개정됨에 따라, 데이터를 통합한 플랫폼에서 서로 다른 기업들의 데이터를 활용하기 위해서는 가명처리 과정이 필수적이다. 실무에서는 대용량 데이터를 처리하기 위해 인메모리 기반의 Apache Spark를 활용하고 있으며, 최근에는 GPU를 활용한 RAPIDS Accelerator for Apache Spark가 개발되어 데이터 처리 속도가 더욱 빨라지게 되었다. 하지만 Apache Spark로 여러 데이터 파일에 대한 암호화 처리를 수행할 때에는 CPU 및 GPU 자원을 적절히 분배하여 활용하는 것이 필요한데, 정립된 분배 방식이 없을 뿐 아니라, 그에 대한 연구도 부족한 실정이다. 본 논문에서는 Apache Spark 수행 전 최적으로 자원을 분배할 수 있는 2가지 기법을 설명하고, 실제 데이터 암호화 처리 업무에 활용하기 위해 해당 기법에 대한 검증을 수행하였다. 그 결과, 본 논문에서 제안하는 병렬 혼합 기법은 SPARK-CPU 대비 22.1%, SPARK-GPU 대비 14.5%, 순차 혼합 기법 대비 7% 연산 효율을 높인 것을 확인하였다.