본 연구는 드론 가상현실(VR) 환경에서 문화유산을 탐사하는 사용자가 실시간으로 인공지능 해설을 제공받을 수 있는 GPT 프롬프트 기반 AI 해설 시스템의 구조적 설계 모델을 제시한다. 기존의 문화유산 VR 콘텐츠가 시각적 체험 중심에 머물러 언어적 상호작용과 정보 전달이 제한된 한계를 극복하기 위해, 본 연구는 GPT 언어모델을 활용하여 문화재 정보를 자동 분석하고, 프롬프트 설계를 통해 해설의 시점·문체·감정 톤·길이를 제어하는 텍스트 생성 구조를 설계하였다. 생성된 해설문은 TTS(Text-to-Speech) 기술과 Unity 기반의 3D 캐릭터 인터페이스로 연동되어 음성·표정·제스처가 결합된 실감형 해설을 구현한다. 또한, AIVS(AI Video Studio) 플랫폼과의 통합을 통해 3D 휴먼 아바타가 해설을 발화하는 영상형 AI 도슨트(Video Docent) 시스템으로 확장하였다. AIVS의 자동화 기능과 다국어 TTS 기술을 적용하여 사용자의 수동 편집 부담을 줄이고, 문화유산 교육·관광·전시 환경에 적합한 몰입형 인터랙티브 해설 구조를 완성하였다. 본 연구는 GPT 프롬프트 엔지니어링을 중심으로 언어생성·음성합성·가상 캐릭터 기술을 통합한 3-Layered AI Narration Model을 제시함으로써, 문화유산 해설의 자동화 및 실감형 콘텐츠 산업의 발전에 기여할 수 있는 기술적 기반을 마련하였다.