초록

그래프(Graph)는 노드(Node)가 객체나 개념을 나타내고 엣지(Edge)가 관계를 포착하는 강력한 데이터 구조로 다양한 도메인에서 복잡한 관계를 표현하는 데 사용된다. 본 논문은 그래프 분석 내에서 노드 클러스터링(Clustering)에 중점을 두어 유사한 특징을 갖는 노드들을 그룹화하여 의미 있는 패턴을 발견하는 것을 목표로 한다.

그래프 신경망 (Graph Neural Networks, GNNs)은 일반적으로 노드 임베딩(Embedding) 과정에서 사용되지만, 최근 연구에서는 GNNs가 최종 클러스터링 목표를 명시적으로 고려하지 않고 임베딩과 클러스터링을 독립적으로 수행하는 기존의 2단계 접근 방법에 의문을 제기하고 있다.

이에 대응하여 본 논문에서는 특히 클러스터링 알고리즘 중 가장 널리 사용되는 k-평균(k-means) 클러스터링을 위해 노드 임베딩을 특별히 최적화하는 GNN 기반 딥 k-평균 노드 클러스터링 알고리즘을 제안한다. 이전 방법들이 쿨백-라이블러 발산 (Kullback-Leibler divergence, KL-divergence)에 의존하는 반면, 우리가 논문에서 제안하는 확장된 손실 함수는 기존의 GNN 손실과 k-평균 클러스터링 손실의 강점을 통합하여 나타낸다. 논문에서 제안하는 새로운 손실 함수는 클러스터(Cluster) 내 응집도(Cohesion)를 나타내는 제곱 오차 합 (Sum of Squared Errors, SSE) 손실과 클러스터 간 분리도(separation)를 측정하는 수정된 실루엣 점수(Silhouette coefficient)를 결합한다.

제안하는 방법은 노드는 초기에 GNN을 사용하여 임베딩되고, 그런 다음 k-평균 클러스터링 알고리즘을 사용하여 클러스터링되는 반복 프로세스를 소개한다. 제안된 방법은 그런 다음 확장된 손실 함수를 사용하여 GNN을 다시 훈련시켜 k-평균 클러스터링 결과를 향상시키며, 이 프로세스는 안정성이 달성될 때까지 반복된다.

실제 그래프 데이터들을 활용한 실험 평가 결과에서 다양한 실험을 통해 우리의 접근 방식이 기존의 방법보다 성능이 향상되었음을 확인하고, 특히 k-평균에 최적화된 임베딩 벡터를 얻어 더 좋은 클러스터링 결과를 도출하는 데 효과적임을 입증한다.

결론적으로, 본 논문은 기존 연구 방법의 한계에 대응하여 노드 클러스터링에 대한 새로운 접근 방식을 제공하면서 그래프 분석의 변화하는 딥 클러스터링 분야에 기여한다. 체계적인 평가와 기존 기법과의 비교를 통해 우리가 제안한 GNN 기반 딥 k-평균 노드 클러스터링 알고리즘은 사회 네트워크 분석, 질병 진단, 금융 거래 사기 탐지와 같은 다양한 응용 도메인에서의 잠재력을 기대할 수 있다.