하천은 인간의 삶에 필요한 용수를 제공하는 상수원임과 동시에 주요한 생활공간이다. 때문에 오염수 유입, 부영양화 발생 등에 의한 하천의 수질 오염은 인간을 비롯한 생명체에게 치명적이다. 하천의 수질 및 수생태계의 실태를 파악하고 이를 기반으로 수질변화 추세를 파악하기 위해서 우리나라는 하천 전권역을 대상으로 수질측정망을 설치하여 수질 모니터링을 수행하고 있다. 보다 정확한 수질 분석과 선제적 대응을 위해서는 수질측정망에서 측정된 데이터를 기반으로 머신러닝, 딥러닝을 활용한 수질 예측 및 분석연구가 선행되었다. 본 연구에서는 측정 데이터 중 물환경 목표기준 평가 항목 중 하나인 총유기탄소(TOC)와 수계 부영양화 지표로 사용되는 클로로필 a를 기반으로 상하류 영향을 고려한 시공간 분석 모델 ST-GRAT를 구축하고자 한다.
연구 대상지는 낙동강 중하류 구간이며, 6개의 자동측정망(왜관, 다산, 강창, 성서, 고령, 적포)이 위치해 있다. 데이터는 2020-2022년동안 6개의 자동측정망에서 측정된 시단위 데이터를 활용하였다. 센서를 통해 측정됨에 따라 발생한 결측치는 시계열 데이터에 적합한 결측치 대체 방법론 SAITS를 적용하여 전처리하였다. SAITS 모델은 결측 비율에 관계없이 비교모델보다 우수한 성능을 보였으며, 전처리된 데이터는 ST-GRAT의 입력 데이터로 사용된다. ST-GRAT는 어텐션 메커니즘을 적용한 모델로 시점, 공간 정보를 각각의 어텐션 층을 통해 학습에 활용한다. 더불어 노드 임베딩 자료를 모델 임베딩 시 적용하여 기존 그래프 신경망의 한계였던 공간 정보를 유기적으로 반영할 수 있도록 구성하였다. 노드 임베딩 방법론에 따른 차이를 비교하기 위해서 (1) 미적용, (2) LINE 노드 임베딩, (3) GraphSAGE 노드 임베딩을 적용한 모델을 각각 생성하여 비교하였다. 이때, 시공간 정보를 기반으로 노드 임베딩을 수행할 수 있는 GraphSAGE는 수위 데이터를 기반으로 수행하였으며, 연구 대상지에 위치한 보 운영에 따른 영향을 고려하고자 하였다. 시공간 모델이 시퀀스-시퀀스 분석을 수행함에 따라 모델 성능은 12시간 후 예측과 48시간 후 예측에 대해서 산정하였다. 12시간 후 예측 성능이 더 높게 산정되었으며, 장단기 결측치 대체값을 기반으로 정확도 높은 예측이 이루어졌다. 특히 관측값의 증감 경향을 정확하게 반영하는 결과를 보였다.
이후 모델 학습 과정에서 산정된 시점 어텐션 기여도와 공간 어텐션 기여도를 기반으로 기여도를 해석하였다. 가장 하류에 위치한 적포 지점의 농도가 상승한 시점에 대한 시공간 어텐션을 산정하였을 때, 시점 어텐션은 노드 임베딩 방법론에 따라 상이한 결과를 보였다. 방법론에 따라 시점별 기여도 분포에 따른 기여도 차이의 뚜렷함에 차이를 보였으며, GraphSAGE를 적용한 경우에 기여도가 가장 세밀하게 분류되었다. 이는 변동계수를 통해서도 확인할 수 있다. 변동계수는 노드 임베딩을 수행한 경우에 높게 산정되었으며, 노드 임베딩을 통한 지점 간 영향 정량화 결과가 모델 학습 시에 반영된 것으로 보인다. 공간 어텐션의 경우 적포 지점이 타 지점에 미치는 영향을 나타내었으며, GraphSAGE를 적용했을 때 적포 지점과 가까운 고령, 성서 지점의 기여도가 높게 산정되었다.
본 연구에서 구축한 시단위 수질 데이터의 결측치 처리부터 다지점 수질 예측까지의 과정을 통해 센서 데이터의 활용성을 확보할 수 있었으며, 하천의 연속성을 고려한 다지점 수질 예측 결과는 수질 관리 방안을 모의하는데 기여할 수 있을 것으로 판단된다.