최근 몇 년 동안 고령화 사회의 증가하는 유병률이 여러 국가 및 지역의 발전 과정에서 중요한 요소가 되었습니다. 이 인구 통계학적 변화는 노인 인구의 증가를 특징으로 하며, 사회경제적 발전과 복지 시스템의 지속 가능성에 중대한 영향을 미치고 있습니다. 이에 대응하여 독거 노인을 위한 다양한 보조 생활 기술들이 등장하였으며, 특히 컴퓨터 비전을 기반으로 한 인간 활동 인식(HAR) 기술이 주목을 받고 있습니다. RGB 카메라와 같은 비디오 입력을 통한 HAR은 노인의 건강 관련 사건을 감지하고 적시에 의료 지원을 제공하는 데 도움을 줍니다. 그러나 대부분의 기존 HAR 시스템들은 비디오 프레임에서 공간적 및 시간적 관계를 처리하는 어려움 때문에 신속성과 배포 용이성 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 또한, 이러한 시스템들은 계산 리소스가 제한된 엣지 장치에서의 성능이 종종 요구 사항에 미치지 못합니다. 따라서, 저전력 엣지 장치에 효율적으로 배포될 수 있는 실시간에 가까운 HAR 시스템이 절실히 필요합니다. 이 시스템은 인식 정확도와 신속성을 균형 있게 유지하며, 고령화 사회에서 노인들의 안전하고 보다 안정적인 생활 환경을 보장합니다.
이 연구에서는 컴퓨터 비전 기술과 RGB 카메라를 활용한 경량화되고 실시간에 가까운 활동 인식 모니터링 시스템인 RAR-Net을 제안합니다. RAR-Net은 주로 세 가지 모듈로 구성됩니다: 객체 감지, 자세 추정, 활동 인식. 이 중 객체 감지 모듈은 경계 상자 그리기 및 객체 인식을 포함하며, 가장 많은 컴퓨팅 자원을 필요로 합니다. 따라서, 다양한 컴퓨팅 리소스에서 균형 잡힌 성능을 제공하는 단일 단계 YOLO 시리즈 알고리즘, 특히 YOLO-v5를 선택했습니다. 또한, 정확도를 유지하면서 계산 복잡성을 줄이기 위해 YOLOv5l을 교사 모델로, YOLOv5s를 학생 모델로 사용하여 지식 증류 훈련을 수행했습니다. 객체 감지에서 얻은 인간만 포함하는 경계 상자는 자세 추정을 위한 입력으로 사용됩니다. 우리는 효율적인HRNet이라는 경량 자세 추정 알고리즘을 사용하여 크롭된 이미지에서 인간의 자세를 추정함으로써 계산을 더욱 줄였습니다. 자세 추정을 활용하여 인간 관절의 열지도를 생성하고 시간이 지남에 따라 쌓아 완전한 활동 순서 스택을 형성합니다. 이 스택은 원래 정적 환경 정보에 대한 느린 분기와 동적 인간 활동 정보에 대한 빠른 분기를 사용하는 SlowFast 알고리즘의 변형에 대한 입력으로 사용됩니다. 우리의 적용에서는 시퀀스 스택에서 낮은 빈도로 프레임을 캡처하기 위해 느린 분기만 사용합니다. 이 키포인트 기반 활동 인식 메커니즘은 활동의 동적 정보를 크게 보존하면서 프레임 획득 빈도를 제어하여 최소한의 컴퓨팅 리소스 사용을 보장합니다.
또한, 객체 감지 모듈이 특히 인간을 감지하기 위해 설계되었기 때문에, 데이터 다양성과 볼륨을 향상시키기 위해 네 개의 객체 감지 데이터셋을 사용했습니다. 이 데이터셋들은 훈련을 위해 균일하게 형식화되어 훈련 볼륨과 모델 성능을 모두 증가시켰습니다. 고정 카메라 설정을 사용하여 30fps의 실시간 비디오 스트림을 입력으로 하는 우리의 RAR-Net 모델은 활동 인식 정확도에서 15.8%의 상당한 향상을 보였습니다. 이러한 향상은 실시간 비디오 분석 응용 프로그램에서 정확도가 매우 중요한 경우에 필수적입니다. 동시에, 모델은 계산 요구 사항을 상당히 줄였으며, 이는 초당 부동 소수점 연산(FLOPs)에서 70.74% 감소로 입증되었습니다. 이는 계산 효율성에서의 상당한 개선을 나타냅니다. 또한, 초당 프레임 수(FPS)로 측정된 프레임 처리 능력은 거의 세 배 증가했으며, 이는 신속하고 반응이 빠른 분석을 요구하는 실시간 응용 프로그램에 필수적입니다. 이러한 성능 향상 외에도, 모델 크기가 63.9% 감소함으로써 하드웨어 능력이 제한된 환경에서 모델의 배포 가능성이 크게 향상되었습니다. 이러한 개선 사항은 RAR-Net 모델의 향상된 효율성과 다양한 실제 시나리오에서의 실용적 적용 가능성을 강조하며, 빠르고 효율적이며 정확한 활동 인식이 필요한 분야에서 견고한 해결책이 됩니다.