본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

결과 내 검색

동의어 포함

초록보기

최근 유전체 데이터의 급격한 증가로 인해 이를 처리하기 위한 고성능 컴퓨팅 시스템이 필요로 하게 되었으며 대량의 유전체 데이터를 저장 관리할 수 있는 고성능 저장 시스템이 필요하게 되었다. 본 논문에서는 대략 5억 개 정도의 시퀀스 리드 데이터를 분석하는 유전체 분석 파이프라인의 I/O워크로드를 수집 및 분석하였다. 실험은 86시간 동안 수행되었다. 1031.7 GByte 크기의 630개 파일이 생성되었으며 91.4 GByte크기의 535개의 파일이 삭제되었다. 전체 654개의 파일 중 0.3%인 2개의 파일이 전체 접근 빈도의 80%를 차지하여 전체 파일 중 일부분의 파일이 대부분의 I/O를 발생시킨다는 것을 알 수 있다. 요청 크기 단위로는 읽기에서 주로 512 KByte 크기 이상의 요청이 발생했고 쓰기에서 주로 1 MByte 크기 이상의 요청이 발생했다. 파일이 열려있는 동안의 접근 패턴은 읽기와 쓰 연산에서 각각 임의와 순차패턴을 보였다. IOPS와 대역폭은 각 단계마다 고유한 패턴을 보였다.

As size of genomic data is increasing rapidly, the needs for high-performance computing system to process and store genomic data is also increasing. In this paper, we captured I/O trace of a system which analyzed 500 million sequence reads data in Genome analysis pipeline for 86 hours. The workload created 630 file with size of 1031.7 Gbyte and deleted 535 file with size of 91.4 GByte. What is interesting in this workload is that 80% of all accesses are from only two files among 654 files in the system. Size of read and write request in the workload was larger than 512 KByte and 1 Mbyte, respectively. Majority of read write operations show random and sequential patterns, respectively. Throughput and bandwidth observed in each processing phase was different from each other.

권호기사

권호기사 목록 테이블로 기사명, 저자명, 페이지, 원문, 기사목차 순으로 되어있습니다.
기사명 저자명 페이지 원문 목차
대용량 유전체 분석을 위한 고성능 컴퓨팅 시스템 MAHA 김영우, 김홍연, 배승조, 김학영, 유영춘, 박수준, 최완 pp.81-90

MAHA-FS : 고성능 메타데이터 처리 및 랜덤 입출력을 위한 분산 파일 시스템 김영창, 김동오, 김홍연, 김영균, 최완 pp.91-96

HPC 환경을 위한 워크플로우 기반의 바이오 데이터 분석 시스템 안신영, 김병섭, 최현화, 전승협, 배승조, 최완 pp.97-106

HPC 환경의 대용량 유전체 분석을 위한 염기서열정렬 성능평가 임명은, 정호열, 김민호, 최재훈, 박수준, 최완, 이규철 pp.107-112

바이오 응용을 위한 직접 통로 기반의 GPU 가상화 최동훈, 조희승, 이명호 pp.113-118

DNA 서열분석을 위한 거리합기반 문자열의 근사주기 정주희, 김영호, 나중채, 심정섭 pp.119-122

유전체 분석 파이프라인의 I/O 워크로드 분석 임경열, 김동오, 김홍연, 박기한, 최민석, 원유집 pp.123-130

통신 프로세스의 프로세서 친화도 결정을 위한 최적화 도구 조중연, 진현욱 pp.131-136

스트림 데이터에서 동적 가중치를 이용한 순차 패턴 탐사 기법 최필선, 김환, 김대인, 황부현 pp.137-144

광과민성 증후군자를 위한 태블릿 PC와 스마트폰 용 가상 색 오버레이 구현 장영건 pp.145-150

참고문헌 (10건) : 자료제공( 네이버학술정보 )

참고문헌 목록에 대한 테이블로 번호, 참고문헌, 국회도서관 소장유무로 구성되어 있습니다.
번호 참고문헌 국회도서관 소장유무
1 J. Kang, H. Jo, J. Kim, and J. Lee, “A superblock-based flash translation layer for nand flash memory,” pp.161-170, 2006. 미소장
2 The Medicago Genome Initiative: a model legume database 네이버 미소장
3 SNP-PHAGE--High throughput SNP discovery pipeline. 네이버 미소장
4 Seon-Hee Park, “IT based Bioinformatics,” kiise, Vol.21, No.6, pp.20-26, 2003. 미소장
5 Ik-Young Choi, “A review of the technology of genome & expression analysis,” TiBMB, Vol.30, No.2, pp.25-35, 2010. 미소장
6 Initial sequencing and analysis of the human genome. 네이버 미소장
7 The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. 네이버 미소장
8 Fast and accurate short read alignment with Burrows-Wheeler transform. 네이버 미소장
9 The Sequence Alignment/Map format and SAMtools. 네이버 미소장
10 FUSE, “Filesystem in userspace.” http://fuse.sourceforge. net/. 미소장