광혈류측정(PPG; photoplethysmogram)은 빛의 흡수량의 정도를 통해 맥파를 측정한다. 맥파가 움직이는 속도는 동맥의 두께, 혈액의 밀도와 같은 혈관 상태의 영향을 받아 맥파를 통해 사람의 순환계 또는 심장 상태를 알 수 있다. 따라서 이러한 신호를 이용해 부정맥, 심근 경색 등의 심장 질환을 진단할 수 있고, 더 나아가 우울증 진단, 수면 관리 등 다양한 분야에서 사용할 수 있다. 또한 사람의 신체적, 정신적 건강 상태를 나타내는 주요한 생체 지표로 널리 사용되는 심장 박동을 측정할 수 있다. 그러나 대부분의 생체 신호들은 피부에 센서를 부착하여 측정하는 접촉 기반 측정에 의존하기 때문에 일상생활에서 사용자의 움직임 및 활동을 제약할 수 있다. 따라서 물리적 접촉 없이 얼굴 비디오에서 피부의 미묘한 색상 변화를 감지하여 심장 활동 및 생리적 신호를 측정하는 것을 목표로 하는 원격 광혈류측정기(rPPG; remote photoplethysmogram)가 개발되었다. 특히 코로나19 대유행 이후, 디지털 헬스케어의 중요성이 강조되면서 사람들의 건강 상태에 대한 관심이 증가하였고 원격 진료가 촉진되어 측정비용이 크지 않고, 방법이 간단한 rPPG의 활용성이 커지고 있다.
최근 rPPG 기반의 심박 추정 연구는 일반 RGB 얼굴 비디오에서 지도 학습(supervised learning)을 통한 특징 추출에 크게 의존한다. 그러나 RGB 비디오만을 이용할 때 실험실 환경과 같은 안정적인 환경에서는 심박 추정 성능이 안정되나, 머리의 움직임이 크거나 조명 변화가 다양한 복잡한 환경에서는 환경의 영향을 크게 받아 심박 추정 성능이 불안정하다. 또한 지도 학습 방법은 레이블이 지정된 대규모 데이터를 이용할 때는 효과적이나, rPPG와 같은 생체 신호는 대규모 레이블링된 데이터를 얻기 어렵다는 한계점을 가지고 있다.
따라서 본 논문에서는 이러한 문제들을 해결해 복잡한 환경에서도 강력한 rPPG 기반의 심박을 추정할 수 있도록 RGB와 근적외선(NIR) 얼굴 비디오 모두를 사용하는 최초의 자기 지도 RGB-NIR 융합 학습 프레임 워크를 새롭게 제안한다. 우선, rPPG 표현 향상을 위해서 장거리의 로컬(local) 및 글로벌(global) 시공간 피처(spatiotemporal feature)를 비디오 시퀀스(video sequence)로 추출할 수 있는 트랜스포머 기반 아키텍처 Fusion ViViT를 제안한다. 사용된 트랜스포머의 자기 주의(self-attention) 연산은 RGB와 NIR 비디오로부터 얻어진 rPPG를 위한 시공간 표현을 서로 보완적으로 통합하는 작업에도 유용하다. 자기 지도 학습(SSL; self-supervised learning) 방식으로는 대조 학습(contrastive learning)을 사용해 제안하는 아키텍처가 효과적으로 학습되도록 설계했다.
공개 데이터셋인 VIPL-HR에서 제안하는 융합 학습 프레임워크를 평가한 결과, 약 6.5초의 거의 즉각적인 심박에 대해서 약 30초 평균 심박을 구하는 이전의 최첨단 지도 학습 기반 RGB 전용 방법과 비교했을 때 경쟁력 있는 심박 추정 성능을 달성했다. 또한 MR-NIRP-Car 운전 비디오 데이터셋에서의 전이 학습 결과는 본 논문에서 제안한 프레임워크가 운전 상황과 같은 실제 복잡한 환경에서도 유용하게 활용될 수 있음을 보여주었다.