초록

객체 검출은 컴퓨터 비전의 근본적인 분야 중 하나로 필수적이다. 과거 몇 년 동안 컨볼루션 신경망 (CNN) 기반 객체 검출 모델은 객체 검출 성능인 평균 정밀도 (AP) 를 크게 향상하였다. 객체 검출 모델은 1단계 객체 검출 모델, 2단계 객체 검출 모델 2가지로 분류할 수 있다. 1단계 객체 검출 모델은 빠른 추론 속도 덕분에 실시간 응용에 적합하다. 이외에도 특징 피라미드 네트워크 (FPN) 는 객체 검출 모델이 객체의 다양한 크기를 학습하는 데 필수적인 모듈이다. FPN은 피라미드와 같이 다양한 해상도의 특징맵으로 구성되며 각 특징맵에서 소형, 중형, 대형 객체를 검출한다.

그러나 소형 객체의 AP는 중형, 대형 물체의 AP보다 상대적으로 낮다. 이러한 작은 객체 감지 문제는 컴퓨터 비전 분야의 대표적인 문제 중 하나이다. 작은 객체는 충분한 정보가 없으므로 객체 검출 모델이 인식하는 데 어려움이 있다. 특징 추출을 위해 CNN 레이어가 깊게 쌓일수록 소형 객체의 경우 정보 손실이 크게 발생한다.

본 학위 논문에서는 다중 스케일 객체를 검출하기 위해, 특히 작은 객체를 집중적으로, 스케일 시퀀스 (S²) 특징 기반 특징 피라미드 네트워크 (ssFPN) 라는 새로운 FPN 모델을 제안한다. ssFPN은 스케일 공간 이론을 바탕으로 작은 객체 정보를 강화하기 위해 FPN으로부터 스케일 시퀀스 특징을 정의하고 추출한다. 스케일 공간이란 객체가 가질 수 있는 모든 스케일을 표현한 공간이다. 스케일 공간에서는 객체의 크기가 변화해도 변하지 않는, 스케일 불변성 특징이 존재한다. 이러한 스케일 불변성 특징은 다양한 크기의 객체를 검출하는 데 사용될 수 있다. 본 연구에서는 스케일 공간 이론을 접목하여 FPN을 스케일 공간으로 간주한 뒤, FPN 레벨 축으로 3D 컨볼루션을 연산해 스케일 시퀀스 특징을 추출한다. 스케일 시퀀스 특징은 스케일 불변성 특징을 가지며, 소형 객체 검출을 위해 고해상도 피라미드 특징맵에서 구축된다. 추가로 특징 차원의 초해상도 접근법을 설계하여 스케일 시퀀스 특징의 효과를 보여준다.

스케일 시퀀스 특징의 효과를 입증하기 위해 1단계 및 2단계 객체 검출 모델에 스케일 시퀀스 (S²) 특징을 포함하여 MS COCO 데이터에서 객체 검출 실험을 진행했다. 또한 다양한 스케일 간의 성능을 비교하기 위해 APS APM, and APL를 계산하였다. Faster R-CNN 및 Mask R-CNN과 같은 2단계 객체 검출 모델의 경우 S² 특징을 포함했을 때 각각 최대 1.6%, 1.4% AP가 향상된다. Faster R-CNN 및 Mask R-CNN과 같은 2단계 객체 검출 모델에 S² 특징을 붙이면 AP는 각각 최대 1.6%, 1.4% 향상된다. 또한 각 모델의 APS는 1.2%, 1.1% 만큼 개선된다. 더 나아가 YOLO 시리즈와 같은 1단계 객체 검출 모델도 개선되었다. S² 특징을 가진 YOLOv4-P5, YOLOR-P6, YOLOR-W6 및 YOLOR-D6의 경우, 0.9%, 0.5%, 0.1%, 0.1%의 AP 향상하는 것을 관찰했다. 작은 객체 검출의 경우: APS 성능은 각각 1.1%, 1.1%, 0.9%, 0.4%, 0.1% 증가한다.

스케일 시퀀스 (S²) 특징을 사용한 특징 차원의 초해상도 접근법 실험은 CIFAR-100 데이터 세트에서 수행하였다. 특징 차원의 초해상도 접근법을 학습함으로써 LR 이미지로 학습된 S² 특징을 갖춘 ResNet-101은 HR 이미지로 학습된 ResNet-101 모델보다 1.6% 높은 55.2%를 달성했다.