초록

산업용으로 많이 사용되는 금속 플레이트는 반사광이 발생하고 두께가 얇아 뚜렷한 특징을 추출하기 어렵다. 이러한 객체를 대상으로 하는 빈 피킹 과정은 가려지지 않은 상단 객체를 인식하고 자세를 추정하는 작업을 필요로 한다. 본 논문에서는 특징이 없는 얇은 금속 원형 플레이트의 빈 피킹 작업을 위한 두 가지 객체 인식 및 자세 추정 방법을 제안한다. 2-STAGE 방법은 객체 인식과 자세 추정을 분할하여 수행하는 방법이다. Mask R-CNN을 사용하여 개별 객체를 분할하고 겹침 처리 알고리즘으로 상단 객체를 검출하였으며, 객체별 평면 추정과 차원 축소를 통해 자세를 추정하였다. 1-STAGE 방법은 객체 검출 딥러닝 모델인 DETR(DEtection TRansformer)을 변형하여 이미지와 포인트 클라우드의 특징을 간접적으로 융합하고 경계 상자, 회전 행렬, 투영 픽셀, 깊이를 예측하여 객체 인식과 자세 추정을 동시에 수행하는 방법이다. 본 논문에서는 두 종류의 금속 원형 플레이트를 대상으로 한 환경을 구성하여 세 가지 실험 및 검증을 진행하였다. 첫 번째는 2-STAGE 방법의 겹침 처리 알고리즘 검증, 평면 추정 알고리즘 비교, G-ICP(Generalized-Iterative Closet Points) 알고리즘과 자세 추정 성능 비교 실험을 수행하였다. 두 번째는 1-STAGE 방법에서 제안하는 딥러닝 모델을 변형하여 RGB-D 이미지의 간접 융합 방법과 투영 픽셀 및 깊이 예측 방법의 효과적인 자세 추정 성능 향상을 확인하였다. 세 번째는 1-STAGE 방법과 2-STAGE 방법의 자세 추정 성능을 비교하였다. 2-STAGE 방법은 고성능 RGB-D 카메라를 사용한 실험환경에서 G-ICP와 유사한 자세 추정 성능을 보이면서 상대적으로 짧은 수행시간을 보장하였다. 1-STAGE 방법은 저성능 RGB-D 카메라를 사용한 실험환경에서 제안하는 RGB-D 이미지의 간접 융합 방법과 예측 방법의 유용성을 입증하였다. 2-STAGE 방법은 평면 형상에 제한되지만 자세 정보가 필요하지 않고 객체 크기에 영향을 받지 않는다. 자세 추정 성능 측면에서는 상대적으로 작은 오차와 느린 수행시간을 보였다. 반면 1-STAGE 방법은 자세 정보를 포함한 많은 학습 데이터가 필요하지만 다양한 형상의 객체에 적용할 수 있다. 자세 성능 추정 측면에서는 상대적으로 빠른 수행시간을 보인 반면에, 큰 오차를 보였다. 따라서 두 방법은 각각의 장단점을 가지고 있어 사용 환경과 목적을 고려한 선택이 필요하다.