초록

코드 주석은 컴퓨터 프로그램의 동작 과정을 설명하는 주요한 요인 중 하나이다. 고품질의 코드 주석은 디버깅 및 유지 관리와 같은 프로그래밍 작업의 장기적인 생산성을 높일 수 있다. 따라서 프로그래밍 코드에서 자연어 주석을 자동으로 생성하는 방법의 개발이 필요하다. 딥러닝 기술의 발전으로 자연어 처리 분야에서 우수한 성능을 달성했던 다양한 모델들이 코드 주석 생성 작업에도 적용되었으며, 최근 몇몇 연구에서는 코드 토큰의 어휘 정보와 구문 트리에서 얻은 구문 정보를 동시에 사용하여 더욱 향상된 코드 주석 생성 모델을 제안했다.

본 논문에서는 코드 주석 생성의 정확도 향상을 위해 새로운 구문 시퀀스인 Code-Aligned Type sequence (CAT) 를 도입하여 어휘 및 구문 정보의 순서와 길이를 정렬하였다. 그리고 정렬된 멀티 모달 정보를 컨볼루션 및 임베딩 집합 계층으로 인코딩하는 트랜스포머 기반의 새로운 신경망 모델 Aligned Lexical and Syntactic information-Transformer (ALSI-Transformer)를제안한다.본논문에서제안하는 ALSI-Transformer를 표준 기계 번역 메트릭을 사용하여 다양한 실험에서 기존 방법들과 비교한 결과, ALSI-Transformer는 코드 주석 생성 작업에서 기존 최고 수준 모델 대비 BLEU 점수는 4.8% 향상된 53.80%, METEOR 점수는 3.12% 향상된 66.11%로 현재 최고 수준의 성능을 달성함을 입증한다.