유전체 분석 파이프라인의 I/O 워크로드 분석 / 임경열, 김동오, 김홍연, 박기한, 최민석, 원유집

입법지원서비스

의정활동에 필요한 자료를 어디서 찾을지 고민되셨다면, 입법 지원서비스 메뉴를 확인해보세요. 국회도서관에서 제공하는 의회·법률정보부터 AI 분석까지, 국회의 입법 활동을 뒷받침하는 전문정보를 모았습니다.

국회도서관 홈으로 정보검색 소장정보 검색

결과 내 검색

동의어 포함

고급검색

상세검색
저자 검색
관련 키워드 검색
주제별 검색

완전일치
전방일치
후방일치

인명/단체명

	저자정보	상세정보
인명/단체명을 입력하세요.

전방일치
완전일치
후방일치
부분일치

키워드

대표어
외국어
네이버 백과사전

용어관계 검색결과
대표어	동의어	상위어	하위어	관련어	대립어

대분류

중분류

소분류

소장자료
외부기관 자료

초록보기

최근 유전체 데이터의 급격한 증가로 인해 이를 처리하기 위한 고성능 컴퓨팅 시스템이 필요로 하게 되었으며 대량의 유전체 데이터를 저장 관리할 수 있는 고성능 저장 시스템이 필요하게 되었다. 본 논문에서는 대략 5억 개 정도의 시퀀스 리드 데이터를 분석하는 유전체 분석 파이프라인의 I/O워크로드를 수집 및 분석하였다. 실험은 86시간 동안 수행되었다. 1031.7 GByte 크기의 630개 파일이 생성되었으며 91.4 GByte크기의 535개의 파일이 삭제되었다. 전체 654개의 파일 중 0.3%인 2개의 파일이 전체 접근 빈도의 80%를 차지하여 전체 파일 중 일부분의 파일이 대부분의 I/O를 발생시킨다는 것을 알 수 있다. 요청 크기 단위로는 읽기에서 주로 512 KByte 크기 이상의 요청이 발생했고 쓰기에서 주로 1 MByte 크기 이상의 요청이 발생했다. 파일이 열려있는 동안의 접근 패턴은 읽기와 쓰 연산에서 각각 임의와 순차패턴을 보였다. IOPS와 대역폭은 각 단계마다 고유한 패턴을 보였다.

As size of genomic data is increasing rapidly, the needs for high-performance computing system to process and store genomic data is also increasing. In this paper, we captured I/O trace of a system which analyzed 500 million sequence reads data in Genome analysis pipeline for 86 hours. The workload created 630 file with size of 1031.7 Gbyte and deleted 535 file with size of 91.4 GByte. What is interesting in this workload is that 80% of all accesses are from only two files among 654 files in the system. Size of read and write request in the workload was larger than 512 KByte and 1 Mbyte, respectively. Majority of read write operations show random and sequential patterns, respectively. Throughput and bandwidth observed in each processing phase was different from each other.

권호기사

권호기사 목록 테이블로 기사명, 저자명, 페이지, 원문, 기사목차 순으로 되어있습니다.
기사명	저자명	페이지
대용량 유전체 분석을 위한 고성능 컴퓨팅 시스템 MAHA	김영우, 김홍연, 배승조, 김학영, 유영춘, 박수준, 최완	pp.81-90

MAHA-FS : 고성능 메타데이터 처리 및 랜덤 입출력을 위한 분산 파일 시스템	김영창, 김동오, 김홍연, 김영균, 최완	pp.91-96

HPC 환경을 위한 워크플로우 기반의 바이오 데이터 분석 시스템	안신영, 김병섭, 최현화, 전승협, 배승조, 최완	pp.97-106

HPC 환경의 대용량 유전체 분석을 위한 염기서열정렬 성능평가	임명은, 정호열, 김민호, 최재훈, 박수준, 최완, 이규철	pp.107-112

바이오 응용을 위한 직접 통로 기반의 GPU 가상화	최동훈, 조희승, 이명호	pp.113-118

DNA 서열분석을 위한 거리합기반 문자열의 근사주기	정주희, 김영호, 나중채, 심정섭	pp.119-122

유전체 분석 파이프라인의 I/O 워크로드 분석	임경열, 김동오, 김홍연, 박기한, 최민석, 원유집	pp.123-130

통신 프로세스의 프로세서 친화도 결정을 위한 최적화 도구	조중연, 진현욱	pp.131-136

스트림 데이터에서 동적 가중치를 이용한 순차 패턴 탐사 기법	최필선, 김환, 김대인, 황부현	pp.137-144

광과민성 증후군자를 위한 태블릿 PC와 스마트폰 용 가상 색 오버레이 구현	장영건	pp.145-150

참고문헌 (10건) : 자료제공( 네이버학술정보 )

참고문헌 목록에 대한 테이블로 번호, 참고문헌, 국회도서관 소장유무로 구성되어 있습니다.
번호	참고문헌	국회도서관 소장유무
1	J. Kang, H. Jo, J. Kim, and J. Lee, “A superblock-based flash translation layer for nand flash memory,” pp.161-170, 2006.	미소장
2	The Medicago Genome Initiative: a model legume database	미소장
3	SNP-PHAGE--High throughput SNP discovery pipeline.	미소장
4	Seon-Hee Park, “IT based Bioinformatics,” kiise, Vol.21, No.6, pp.20-26, 2003.	미소장
5	Ik-Young Choi, “A review of the technology of genome & expression analysis,” TiBMB, Vol.30, No.2, pp.25-35, 2010.	미소장
6	Initial sequencing and analysis of the human genome.	미소장
7	The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data.	미소장
8	Fast and accurate short read alignment with Burrows-Wheeler transform.	미소장
9	The Sequence Alignment/Map format and SAMtools.	미소장
10	FUSE, “Filesystem in userspace.” http://fuse.sourceforge. net/.	미소장

자료명
저자사항
제어번호
*요청자 이름
*전화번호	휴대폰 번호를 입력하세요.
*이메일	@
*요청내용
*오류항목

청구기호
자료명/저자사항
발행사항
형태사항
ISSN

* 서재명
설명
* 공개수준	비공개 완전공개 * 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.

고급검색

다국어입력

국내기사 유전체 분석 파이프라인의 I/O 워크로드 분석

초록보기

권호기사

참고문헌 (10건) : 자료제공( 네이버학술정보 )

추천서가 (다양한 추천 자료를 만나보세요)

권호

알림톡 발송로 자료명, 기사명/저자명, 수록지명, 자료실, 서가번호, 전화번호로 구성되어 있습니다.




전화번호

고급검색

다국어입력

국내기사 유전체 분석 파이프라인의 I/O 워크로드 분석

초록보기

권호기사

참고문헌 (10건) : 자료제공( 네이버학술정보 )

추천서가 (다양한 추천 자료를 만나보세요)

MARC 보기

오류 데이터 정정요청

알림톡 발송

권호기사보기

연속간행물 권호 선택

연속간행물 권호 선택

우편복사 안내

도서위치안내(서울관)

저자프로필

목차보기

우편복사 안내

우편복사 목록담기

확인

내서재에 담기

새로운 서재

저장

로그인

권호