자율주행 차량은 도로 위의 다양한 동적 객체를 인지해야 한다. 카메라 및 라이다 센서 데이터에 의미론적 분할 기술을 적용하면 픽셀 및 포인트 수준으로 동적 객체를 세밀하게 분류할 수 있다. 본 논문에서는 단일 센서 기반 동적 객체 의미론적 분할의 한계점을 파악하고, 정확하고 강건한 인지 성능을 달성하기위해 상호보완적 특성을 갖는 두 센서를 융합한다. 먼저, 이미지 및 포인트 클라우드 의미론적 분할을 동시에 수행하기 위해 멀티 세그멘테이션 데이터셋을 구축하였다. 이를 기반으로 카메라-라이다 융합 기반 멀티 세그멘테이션 네트워크 및 기하학적으로 정확한 매칭을 달성하는 포인트 레벨에서의 이미지-포인트-복셀 융합 모듈을 제안한다. 제안하는 네트워크 및 융합 모듈은 구축된 멀티 세그멘테이션 데이터셋에서 평가되었다. 단일 센서만을 사용하여 달성한 성능보다 이미지 분할 성능은 약 1%, 포인트 클라우드 분할 성능은 약 9% 향상되었다.