최근, 비전 트랜스포머를 시작으로 컴퓨터 비전분야에서 컨볼루션을 보완 또는 대체하기 위해 셀프 어텐션을 이용하는 연구들이 등장하고 있다. 그러나, 대부분의 어텐션 기반 아키텍처들은 많은 계산 리소스를 필요로 하며 대부분의 모바일, 저전력 플랫폼에서는 사용하기 어렵다. 본 논문에서는 컨볼루션과 셀프 어텐션의 장점을 결합하고, 경량 다중 브랜치 구조를 이용해 다양한 크기의 객체를 처리할 수 있는 간단하고 효율적인 하이브리드 신경망을 제안한다. 핵심 아이디어는 단일 브랜치에 큰 사이즈의 채널을 할당하는 것 대신 다중 브랜치 각각에 작은 사이즈의 채널을 할당하는 것이다. 구체적으로 다양한 사이즈의 패치를 가진 다중 브랜치 하이브리드 구조는 병렬로 구성되며, 그 후 여러 트랜스포머 인코더 블록와 컨볼루션 레이어를 이용해 각 브랜치에서 포착한 다양한 스케일의 피쳐들을 합진다. 이 구조는 기존 비전 트랜스포머에서 부족했던 일부 유도 편향을 충족할 수 있고 다양한 크기의 패치에서 글로벌 및 로컬 피쳐를 모두 포착할 수 있다. 또한, 본 논문에서는 BOHB 기반의 NAS를 적용하여 CIFAR-10, CIFAR-100, ImageNet-1K 데이터셋에서 최적의 브랜치 수와 브랜치별 하이퍼파라미터를 검색했다. 결과적으로 이미지 분류 실험에서 최신 모델들과 비교했을 때, FLOPs 및 하이퍼파라미터가 크게 감소하면서도 비슷하거나 유사한 성능을 가짐을 입증하였다. 이 논문 내용은 2024 IEEE Robotics and Automation Society (ICRA)에서 리뷰 중이다.