초록

설명가능한 인공지능은 딥러닝과 같은 복잡한 모델에서 어떠한 원리로 해당 결과를 도출해냈는지에 대한 설명을 제공함으로써 구축된 모델을 이해할 수 있도록 설명하는 기술이다. 많은 분야에서 정형데이터가 사용되고 있으며, 이들의 예측 및 분류를 위해 다양한 심층 신경망들이 사용되고 있다. 하지만 대부분의 딥러닝 모델은 복잡한 구조를 가지고 있어 내부 작동 원리에 대해서는 아직 제한적인 이해만을 가지고 있으며 아직 충분한 연구가 이루어지지 않았다.

본 논문의 첫 번째 부분에서는 회귀분석 데이터가 주어졌을 때, 그에 사용되는 딥러닝 모델을 설명하는 방법을 제안한다. 기후, 경영, 경제 등 여러 분야의 회귀분석에서 설명변수가 반응변수에 일정 시차를 두고 영향을 미치는 경우들이 많다. 이처럼 회귀분석에 대한 보다 정확한 이해를 위해서는 설명변수와 반응변수 사이에 존재하는 시차를 파악하는 것이 중요하다. 본 논문에서는 먼저 설명변수의 과거 값들 중 어떤 값이 현재 반응변수에 가장 큰 영향을 미치는지를 노드 간 가중치로 표현하고, 회귀 모델의 오차를 최소화하는 가중치를 탐색한다. 그 후, 이 가중치들을 사용하여 각 설명변수와 반응변수 간에 존재하는 시차를 이용하여 보다 정확한 회귀모델을 찾을 수 있다. 마지막으로 다양한 실험 결과를 통해 제안하는 방법과 기존의 방법을 비교하고, 제안하는 방법이 기존의 방법에 비해 좋은 성능을 가지고 있음을 보인다.

본 논문의 두 번째 부분에서는 대표적인 그래프 신경망인 그래프 합성곱 신경망(graph convolutional network, GCN)에 대한 설명 기법을 제안한다. 최근 여러 분야에서 그래프 형태의 데이터들이 생성되고 있으며, 이들에 대한 분류를 위해 다양한 그래프 신경망들이 사용되고 있다 하지만 그래프 데이터의 경우 노드(node)와 간선(edge)가 존재하기 때문에 기존 이미지 데이터에 사용되던 설명기법을 그대로 사용할 수 없다. 제안 기법은 주어진 그래프의 각 노드를 GCN 을 사용하여 분류했을 때, 각 노드의 어떤 특징들이 분류에 가장 큰 영향을 미쳤는지를 수치로 알려준다. 제안 기법은 최종 분류 결과에 영향을 미친 요소들을 gradient 를 통해 단계적으로 추적함으로써 각 노드의 어떤 특징들이 분류에 중요한 역할을 했는지 파악한다. 마지막으로 다양한 실험을 통해 제안하는 방법의 효용성과 효율성을 보인다.