MIR(Music Information Retrieval) 분야에서는 인공지능을 이용하는 음악 연구가 활발하게 진행되고 있다. 본논문에서는 판소리의 주요 구성요소인 발림 동작 인식을 목적으로 동영상으로부터 이를 자동으로 분별하는 방법을제안한다. 제안된 방법에서는 동영상을 구성하는 매 프래임에서 소리꾼 객체를 검출 시도하고 이를 포함하는 정지영상에서 객체 영역의 발림 동작을 분별한다. 객체 검출 방법으로는 일정한 객체 크기에 대해 성능이 우수하고 검출객체 수가 작은 속도가 빠른 트랜스포머를 이용하였으며, 검출된 소리꾼의 관절과 부채 위치 등 특징점을 포함하는 골격 정보를 이용하여 강인하게 발림 동작을 분류한다. 부족한 판소리 발림 동작 영상 데이터 때문에 MS COCO 데이터를 활용하여 전이학습과 미세조정을 수행하였으며, 대 부류로 정리된 7개 클래스로 분류한 발림 동작의 분류에서 84.8%의 정확도를 달성하였다.
Artificial intelligence research on music area in MIR(Music Information Retrieval) is being conducted very actively. This paper aims to recognize the Balim motions, an important component of Pansori, and proposes a method to automatically classify them from Pansori video. In the proposed method, the region of a singer is at first detected from every video frame, then the Balim motion is classified based on still image analysis in the detected region. For detecting singer object we use the transformer-based object detection, which has an excellent performance with high speed for the uniform size of small number of objects, and then try to classify Balim motion with skeletal information of key points including the singer's joint and fan position. Due to insufficient Pansori Balim motion data, transfer learning using MS COCO data and fine-tuning are performed. The accuracy of 84.8% has been achieved in the classification of Balim motion largely categorized into 7 classes.