3차원 객체 탐지는 자율주행이나 로봇 비전에서 중요한 분야이다. 주변환경을 더 잘 이해하기 위해 최근에는 다중 뷰 3차원 객체 탐지의 중요성이 대두되고 있다. 다중 뷰 3D 객체 탐지 모델은 크게 조감도 (BEV) 기반과 희소 쿼리 기반 방식 두 가지로 나눌 수 있다. BEV 기반 방식은 여러 이미지들에 걸친 공간적인 정보를 결합하여 BEV 특징으로 변환한다. 그러나 BEV 특징은 2차원 공간으로 표현되기 때문에, 높이 정보가 소실된다. 또한, 이 방식은 2차원 이미지 특징을 조감도 특징으로 뷰 변환이 이루어져야 하기 때문에 희소 쿼리 기반 방식보다 학습과 추론에 오랜 시간이 걸린다. 한편, 희소 쿼리 방식은 효율성 측면에서 더욱 주목을 받고 있다. 이 방식은 3D 희소 쿼리와 2D 이미지 간의 연결성을 강화하는 방법에 대해 연구되고 있다.
본 연구에서는 새로운 희소 쿼리 방식을 제안한다. 이 방식에서는 다른 차원 간의 연결성을 강화하기 위해 객체 쿼리의 목적을 명확하게 설계한 4차원 쿼리를 정의한다. 4차원 쿼리 목표 파라미터인 중심점, 크기, 방향과 속도 모두를 포함하여 정의된다. 그러나 고차원의 정보를 사용하기 때문에 불안정한 학습을 야기할 수 있다. 이 문제를 해결하기 위해 본 논문은 4차원 쿼리 잡음 제거라고 하는 학습 방식을 제안한다. 이 방식은 학습을 안정화하고 학습 수렴이 빨라지도록 하는 것이 목표이다. 또한, 거리에 따른 특징 추출 기법을 제안한다. 이는 거리에 따른 객체의 상대적인 크기를 고려한다. 이 기법은 희소 쿼리의 위치와 이미지 특징으로부터 얻어지는 키 간의 정렬이 정확할 수 있도록 한다. 마지막으로 제안된 구조는 2차원 탐지 모델을 추가적으로 활용하여 2차원 객체 탐지 결과를 기반으로 4차원 쿼리의 초기 위치를 생성할 수 있도록 한다. 객체가 있을 확률이 높은 쿼리를 활용함으로써 기존 방식들 보다는 더 빠르게 쿼리가 학습될 수 있다.
제안한 기법의 효과를 입증하기 위해 nuScenes 데이터에서 성능 평가 실험을 진행하였다. 기존 네트워크인 StreamPETR 과 비교했을 때, 제안된 네트워크는 mAP 에서 0.9%, NDS 에서 0.4%, mATE 에서 0.6%, mASE 에서 0.2%, mAAE 에서 1.6% 향상된다. 또한, 제안된 네트워크가 StreamPETR 보다 2 배 이상 빠른 학습 수렴 속도를 보임을 입증하였다.