표제지
목차
ABSTRACT 8
제1장 서론 10
제1절 유전체 시퀀싱 데이터 매핑 품질 개선 10
1. 유전체 리드 매핑의 의미 및 필요성 10
2. 유전체 매핑 데이터 품질 평가 방식이 가지는 한계 11
3. 유전체 매핑 데이터 품질 개선 연구 14
제2절 유전체 보존 분석 15
1. 유전체 보존 분석의 의미와 필요성 15
2. 현존하는 유전체 보존 분석 방법의 한계 16
3. 새로운 유전체 보존 분석 파이프라인 개발 17
제2장 유전체 매핑 데이터 품질 개선 연구 18
제1절 유전체 매핑 데이터 품질 개선을 위한 인공 지능 모델 개발 18
1. 데이터 생성 및 전처리 18
2. 모델 구조 및 학습 21
제2절 개발한 인공 지능 모델의 성능 평가 및 품질 개선 결과 분석 25
제3장 유전체 보존 분석 파이프라인 구축 연구 27
제1절 유전체 정렬 데이터를 활용한 보존 분석 파이프라인 구축 27
1. 유전체 내 상동성 지역 보존 분석 파이프라인 구조 27
제2절 상동성 지역 보존 분석 파이프라인의 성능 평가 및 결과 분석 30
제4장 결론 32
참고문헌 33
국문초록 35
〈표 1〉 사용된 특성의 정보 및 분산 20
〈표 2〉 적합한 모델 선정을 위한 회귀 분석 모델 성능 비교 23
〈그림 1〉 MAPQ와 리드 데이터 위치 중첩 간의 상관관계 13
〈그림 2〉 리드 매핑 데이터 품질 개선 모델 구조 24
〈그림 3〉 선택된 XGBoost 모델의 하이퍼파라미터 튜닝 후 성능 비교 및 상관계수 26
〈그림 4〉 유전체 보존 분석 파이프라인 구조 29
〈그림 5〉 유전체 보존 분석 파이프라인 결과[내용누락;p.22] 31