초록

최근 CAM 을 이용하여 이미지의 객체에 대한 주의 영역 또는 지역화 영역을 찾는 방법이 WSOL 의 연구로서 다양하게 수행되고 있다. CAM 은 1)넣어준 이미지 내 객체의 히트맵에서 주의 영역 추출은 객체의 특징이 가장 많이 모여 있는 영역만을 주로 집중해서 객체의 전체적인 영역을 찾지 못하며 2)모델의 마지막 레이어를 FC(Fully Cone 레이어에서 GAP(Global Average Pooling) 레이어로 바꾸어 주기 때문에 기존 모델에 비하면 정확도가 낮아진다는 단점이 있다.

이러한 CAM 의 첫 번째 단점을 보완하고 이미지 내 객체의 전체 영역을 검출하기 위해서 많은 연구가 이루어지고 있다. 하지만 지금까지 제안된 CAM 보완 방법들은 몇 번의 재훈련을 통해서 더 나은 CAM 결과를 얻기 때문에 시간과 비용이 많이 든다는 문제를 지니고 있다.

따라서 본 논문에는 한 번의 재훈련을 통해서 CAM 영역을 확장시키기 위해 먼저 CAM 과 Selective Search 를 함께 이용하여 CAM 히트맵의 주의 영역을 확장하고, 확장된 영역에 가우시안 스무딩을 적용하여 재학습 데이터로 이를 학습하여 객체의 주의 영역이 확장되는 방법을 제안한다. 제안 방법은 단 한 번의 재학습만이 필요하며, 학습 후 지역화를 수행할 때는 Selective Search 를 실행하지 않기 때문에 처리 시간이 대폭 줄어든다.

또한 본 논문에서는 CAM 모델을 기반으로 하며 CAM 의 두 번째 단점인 정확도가 낮다는 단점을 보완하는 운전자 행동 검출 방법 역시 제안하고 있다. 교통 사고 원인 중 가장 큰 비중을 차지하는 것이 운전자의 부주의로서, 이를 검출하는 연구가 꾸준히 진행되고 있다. 따라서 운전자의 행동을 분류하고 그 중 특징적인 영역을 선정하여 운전자 부주의 검출 이유를 밝힌다. 이를 위해서는 이미지 내 운전자 행동 검출 정확도를 높이고, 특징 영역을 명확하게 선정해야 한다.

CAM 기반의 전체 클래스를 분류하는 CNN 모델과 이 모델에서 혼동하거나 공통된 특징 영역을 갖는 클래스들에 대한 상세 분류가 가능한 네 개의 서브 클래스 CNN 모델을 계층적으로 구성한다. 각 모델에서 출력한 분류 결과는 CNN 특징맵들과의 매칭 정도를 표현하는 새로운 특징으로 간주해서 수평적으로 결합하고 학습하여 분류의 정확성을 높였다. 그리고 전체 및 상세 분류 모델의 분류 결과를 반영한 히트맵 결과를 결합하여 이미지의 특징적인 주의 영역을 찾아낸다.

본 논문에서는 CAM 과 Selective search 를 이용한 재학습 방법으로 기존 CAM 의 히트맵들과 비교했을 때 핵심 특징 영역으로부터 주의 영역을 확장 시키고 IOU 를 개선하였다. 또한 계층적 및 수평적 분류 모델을 통한 실험을 이용하여 정확도를 높이고 기존의 방법으로 찾은 주의 영역보다 더 의미 있고 정확한 주의 영역을 찾음을 확인하였다.