초록

NGS 데이터의 대량 생산은 여러 다양한 유전체 시퀀싱 데이터의 생성 및 분석을 가능하게 했으며 이러한 분석을 위해서는 참조 유전체에 생성된 NGS 리드 데이터를 매핑하는 전처리 과정이 필수적이다. 이 과정에서 생성된 데이터의 품질은 이후 분석 결과의 품질과 직결되어 있다. 현존하는 매핑 프로그램은 MAPQ라는 점수의 형태로 매핑 데이터의 품질을 제시하고 있으나, 이전 연구에서 MAPQ와 실제 리드 생성 위치 간 정확도 간의 상관 관계가 낮음이 밝혀졌다. 본 논문에서는 이를 해결하기 위해 머신 러닝 기법인 XGBoost를 사용하여 실제 매핑 위치를 예측하고 이를 활용해 MAPQ 점수를 수정하는 방법론을 개발하였다. 그 결과 새롭게 수정된 MAPQ 점수는 실제 리드 생성 위치 정확도와 0.89 정도의 높은 상관관계를 보이는 결과를 나타냈다. 본 연구를 통한 유전체 리드 매핑 데이터의 정확도 향상은 이후 분석 단계 품질을 개선하는 효과를 기대할 수 있다.

유전체 어셈블리는 가장 활발히 진행되는 매핑 이후 단계 분석 중 하나이다. 조립된 유전체 염기 서열을 이용해 여러가지 분석이 가능한데 종 간 진화적 관계를 파악하는 진화 분석도 그 중 하나이다. 진화 분석은 유전체 염기 서열 정렬을 통해 신터니라고 불리는 종 간 상동성을 가진 유전체 지역을 찾고 추가 분석을 진행한다. 그러나 추가 데이터 없이 신터니 지역 만으로는 종 간 보존 지역 내 보존 정도를 파악하고 특이 지역을 정의하기 어렵다. 본 논문에서는 신터니 지역 내 염기 간의 보존 정도를 계산하는 파이프라인을 개발하여 이를 해결하려 하였다. 파이프라인을 통해 신터니 내 대응 위치에 존재하는 염기 간의 엔트로피 및 갭 존재 비율을 제시한다. 인간, 생쥐, 침팬지의 신터니에 대해 엔트로피 및 갭 비율을 계산한 결과 다른 신터니에 비해 특이한 보존 정도를 가진 신터니를 찾을 수 있었으며 추가적으로 해당 신터니 내의 엔트로피 분포에 대해서도 살펴보고 신터니 내에서도 보존도가 높은 지역을 파악할 수 있었다. 이러한 보존 정도 파악은 추가 데이터 없이도 유전체 내 특이 지역 파악을 용이하게 하며 해당 데이터를 기반으로 목표 지역을 정의하고 추가 분석을 진행할 수 있다.