초록

단일 세포 RNA 시퀀싱은 세포 하나의 유전자 발현량을 측정하는 기술로 최근 급속히 발전하고 있으며, 측정 기술 또한 증가하고 있다. 세포단계에서의 분석을 통해 세포 타입 특이적인 정보를 얻을 수 있으며, 이를 분류하는 것은 단일 세포 RNA 시퀀싱 데이터 분석에서 중요한 역할을 한다. 기존 세포 타입 분류는 세포들을 군집화한 후, 알려진 마커 유전자들을 통해 각 군집의 세포 타입을 분류하였다. 그러나 이 방식은 알려진 마커 유전자가 필요하며, 시간이 오래 소요된다는 단점이 있다. 따라서 최근에는 딥러닝 모델을 활용하여 세포 타입이 있는 데이터셋으로 학습 후, 새로운 데이터셋에 대해 적용하여 세포 타입을 분류한다. 그러나 각 데이터셋은 다른 실험실, 실험자, 측정 기술 등으로 생산되었기 때문에 데이터셋 간의 배치 효과가 존재한다. 배치 효과는 부정확한 세포타입 분류를 야기하므로 배치 효과를 제거하는 과정이 반드시 필요하다.

본 논문에서는 비지도 도메인 적응과 준지도 학습을 활용하여 단일 세포 RNA 시퀀싱 세포 타입 분류 모델을 제안한다. 적대적 학습 기반의 비지도 도메인 적응을 통하여 데이터셋 간의 배치 효과를 제거하고, 준지도 학습을 통해 세포 타입 분류기의 성능을 향상하였다. 모델 성능은 딥러닝 기반의 배치 효과 제거 모델들과 비교하였다. 성능 측정 결과, 본 연구에서 제안한 모델은 배치 효과를 적절히 제거하여 세포 타입 분류의 성능을 향상하였으며, 다른 모델들과 비교하여 우수한 성능을 보였다. 또한, DNA 메틸레이션 기반의 유방암 서브 타입 분류 성능을 측정하였으며, 단일 세포 RNA 시퀀싱 데이터를 포함하여 다른 데이터에서도 활용될 수 있는 일반성을 검증하였다.