최근 시퀀싱 기술의 발전으로 인해 다양한 종의 유전체 어셈블리 생성 및 개선이 가속화되고 있다. 생물학적인 영향을 이해하기 위해서는 정확한 유전체 annotation이 필요하다. 하지만, 새 어셈블리 상에서 유전체 annotation을 확보하려면 이전 버전의 유전체 어셈블리에 대해 수행된 분석과 검증 등이 동일하게 새로 수행되어야 하기 때문에 시간과 비용이 많이 드는 작업이다. 따라서 이전 어셈블리에서 연구되고 검증된 annotation 데이터를 새로운 어셈블리 상의 좌표로 변환하는 것이 새로 분석하는 것보다 더 효율적이다.
현재, annotation 데이터의 좌표를 새로운 어셈블리의 좌표로 변환시키는 좌표 변환 방법론에 대한 연구 및 개발이 진행되고 있으나, 기존 방법론은 입력 좌표 정보를 포함하는 alignment가 여러 개 존재하거나, 입력 좌표와 alignment된 지역이 목표 종에서 여러 지역이 존재할 경우, 목표 어셈블리 좌표로의 변환이 불가능하다는 한계점이 존재한다. 따라서 본 연구에서는 두 어셈블리 사이의 신터니를 입력 좌표를 목표 어셈블리 상의 좌표로 변환할 때 추가적인 근거로 활용하여 기존 방법론의 한계를 보완하는 방법론인 SynLiftOver를 개발했다.
SynLiftOver를 이용한 성능 평가 결과에서, DGV 데이터베이스에서 확보한 GRCh37 구조 변이 파일에서 1kb 이상 길이를 가진 좌표들을 GRCh38 상의 좌표로 변환했다. 기존 방법론에서 제일 성능이 좋았던 UCSC LiftOver와 비교했을 때 최소 4.4% 이상의 검증된 결과를 SynLiftOver에서 추가로 변환한다는 것을 밝혔다.
본 연구에서 개발한 방법론은 어셈블리간 신터니 지역을 근거로 하여 다양한 데이터들의 좌표들을 목표 어셈블리 좌표계 상의 지역 좌표로 변환했고, 기존의 개발된 프로그램보다 더 많고 정확한 결과물의 증가를 확인할 수 있었다. 또한 기존에 활발히 이용이 되는 프로그램들과 성능을 비교했을 때 더 높은 성능으로 목표 어셈블리 상의 좌표로 변환한다는 것을 확인하였다.
SynLiftOver의 활용으로 기존에 잘 연구된 annotation 데이터를 새로운 어셈블리 상의 좌표로 변환하는 작업을 보다 용이하게 수행할 수 있을 것으로 기대된다. 또한 이종 어셈블리 간의 Annotation 좌표를 비교하는데 사용하는 것과 같은 응용을 통해 종 간의 유전체 이해도를 제고할 수 있을 것으로 기대된다.