초록

시선추적은 자연스러운 사용자 인터페이스로 각광받으며, 오래전부터 관련 연구가 진행되고 있다. 일반 모니터에서부터 가상현실 경험을 위한 착용형 기기까지 다양한 환경을 고려한 시선추적 방식이 제안된 바 있다. 가상현실 장비와 같은 착용형 디스플레이 환경과 일반 모니터 또는 스마트기기 등의 적용 환경에 따라 착용형과 비착용형 방식으로 나눌 수 있다. 최근에는 카메라가 포함된 스마트 기기들이 널리 보급되면서 비착용형 시선 추적에 대한 수요가 늘고 있다. 하지만 스마트기기에 포함된 가시광 카메라를 통해 촬영된 눈 영상은 시선 추적을 수행하기에 눈 영역의 해상도가 부족하기 때문에, 얼굴 영역의 기하 정보를 기반으로 시선 위치를 추론해야 하는 복잡한 문제를 다루어야 한다. 얼굴의 주요 포인트를 3차원 랜드마크로 추론하여 제공하는 모델들이 공개되면서, 단일 가시광 카메라를 통해 얼굴의 3차원 오리엔테이션을 추론하는 것이 가능하게 되었다. 그러나 3차원 얼굴 오리엔테이션을 기반으로 생성된 3차원 시선 방향 벡터를 실제 사용자가 응시하는 2차원 디스플레이 평면 좌표계로 매핑하는 것은 월드 좌표계, 화면 좌표계, 카메라 좌표계를 일치시켜 진행해야 하는 어려운 문제이다. 이 논문에서는 3차원 얼굴 랜드마크 정보를 입력 받아 2차원 디스플레이 평면 좌표계상의 시선 위치를 추론하는 기계학습모델을 제안한다. 3차원 기하 정보의 2차원 매핑은 비선형변환 문제로 가정할 수 있으므로, 선형 모델과 비선형 모델을 함께 고려하여 연구를 진행하였다. 사용된 3차원 얼굴 기하 정보 기반의 특징은 총 52개이며, 이를 통해 2차원 모니터 평면상의 X, Y 방향 시선 위치 추론 모델은 각각 구성하였다. 실험결과 선형 모델을 통한 추론 정확도 및 처리시간은 실제 시선추적에 활용하기에 수용 가능한 수준이었으나, 비선형 모델을 사용한 경우 특정 파라미터 환경에서 더욱 우수한 정확도를 보이는 것으로 확인되었다. 선형 및 비선형 모델을 사용하는 경우, 평균 추론시간은 Intel i7-10510U 환경에서 각각 0.019초와 0.022초로 나타났다. 선형 모델의 경우 시선위치 추론 오차는 X 방향으로 0.38cm, Y 방향으로 0.21cm로 나타났으며, 비선형 모델의 경우 X 방향으로 0.08cm, Y 방향으로 0.07cm로 나타났다. 해당 선형 및 비선형 모델 오차는 평균 제곱 각도 오차로 환산하면 각각 0.479도와 0.117도로 계산되었다. 이 연구를 통해 일반 모니터뿐만 아니라 및 스마트 기기에서 고해상도의 눈 영역 정보 없이 내장된 전면 카메라를 통해 시선 추적을 실시간으로 수행할 수 있는 가능성을 확인하였다.