초록

점수 기반 (score-based) 인과 그래프 발견 방법론은 관측 데이터와 개입 데이터를 사용하여 목적식을 최적화 하는 방식으로 인과 그래프를 발견한다. 점수 기반 방법은 머신러닝이나 딥러닝에서 사용되는 효과적인 최적화 방법을 접목 시킬 수 있다는 점에서 성능을 개선할 수 있는 높은 잠재력을 가지고 있지만, 목적식을 최적화 하는 것과 변수들 사이의 인과 관계를 해석하고 설명하는 것 사이에는 직관적 연결성이 부족하다. 또한 데이터가 오염되었거나 부재한 상황에서는 부정확한 인과 그래프가 추론될 수 있다. 우리는 이러한 문제를 극복하기 위하여, 거대 언어 모델 (Large Language Models, LLMs)의 논리적 그리고 인과적 추론 능력을 활용하고자 한다. LLMs은 변수 정보 (meta data)에 대한 사전 지식이나 입력으로 주어진 텍스트 정보를 통해서 인과성을 추론하는 지식 기반 (Knowledge-based) 인과 그래프 발견 방법론으로 활용될 수 있다. 최근 연구되어온 LLMs을 활용한 인과 그래프 발견 방법들은 대부분 두 변수 쌍의 인과 관계를 한 번의 추론으로 예측하고 있다. 본 연구에서는 한 번에 모든 변수들의 인과 관계를 고려하는 prompt를 제안한다. 본 연구의 방법론은 점수 기반 방법론을 활용하여 LLMs이 점진적으로 더욱 더 정확한 인과 그래프를 추론할 수 있다. 본 방법론은 크게 세 가지 과정을 따른다. (1) 먼저 LLMs을 활용하여 변수정보를 토대로한 인과 그래프를 생성한다. (2) 관측 데이터와 개입 데이터를 이용하는 점수 기반 방법론을 응용하여 LLMs이 추론한 그래프를 평가한다. 추론한 인과 그래프와 해당 그래프에 대한 평가 결과를 LLMs에게 질의 하여 feedback을 생성하도록 한다. (3) 피드백을 기반으로 LLMs은 인과 그래프를 개선한다. 본 연구에서는 LLMs을 활용한 지식 기반과 데이터 기반의 방법론을 융합한 인과 그래프 추론 방법을 제안한다.