초록

본 연구의 목적은 시각 인터페이스가 음성 인터페이스(Voice User Interface, 이하 VUI)를 보조할 때 효과적으로 정보를 전달할 수 있는 시각 표현을 제시하기 위함이다.

기존 스크린에서는 그래픽 기반의 시각 중심으로 정보 전달이 되었으며 음성 인터페이스는 이를 보조하기 위한 수단으로 사용되었다. 그렇기 때문에 시각 인터페이스는 많은 분야에서 연구되어졌고 표준화된 가이드도 있으며 사용자들 역시 시각 인터페이스 사용성에 대한 이해도가 높다. 반면 음성 인터페이스는 시각 인터페이스에 비해 상대적으로 음성 인식 기술의 발전이 늦었고 이에 대한 연구도 미진한 상태다. 2011 년 애플은 아이폰을 통해 음성 인터페이스 '시리(Siri)'를 사용자에게 음성 인터페이스를 처음 선보였지만 음성 인식 기술의 한계 때문에 대중화 되지 못했다. 그러나 최근 인공지능의 발전으로 음성 인식 기술력이 높아지고, 적용 영역이 크게 확대됨에 따라 음성 인터페이스에 대한 연구가 늘어나고 있으며 음성 인터페이스를 활용한 기기 시장도 성장하고 있다. 하지만 음성 인터페이스에 대한 연구가 부족한 상태이며 기존의 그래픽 인터페이스 가이드를 그대로 사용하고 있는 경우가 많다. 따라서 음성과 시각 인터페이스가 결합한 제품을 위한 효과적인 시각 인터페이스를 연구하고, 제안하고자 하였다.

이를 위해, 먼저 문헌 고찰을 통해 음성 인터페이스의 개념과 특징, 구조, 앞으로의 동향을 조사하면서 음성 인터페이스의 개념에 대해서 이해하고 스마트폰부터 가전 기기까지의 확장성을 통해 음성 인터페이스가 사용자와 기기의 가장 자연스러운 상호방식임을 확인하였다. 이를 바탕으로 음성 인터페이스가 가장 활발히 사용되고 있는 AI 스피커의(Artificial Intelligence Speaker) 개념과 특징, 종류에 대해서 조사하였고 정보의 특징과 기존의 제이콥 닐슨(Jakob Nielsen)의 UI(User Interface, 이하 UI) 디자인 가이드를 분석해 음성 정보에 해당하는 내용으로 새롭게 재정의 하였다. 또한 음성 인터페이스의 시각화 사례도 분석하였는데 화면의 형태에 따라 전체적인 내용을 전달하거나 단순한 감정을 시각적으로 표현하고 있음을 확인하였다. 그리고 평소 AI 스피커를 사용하고 있는 사용자와 1:1 심층 인터뷰를 통해 AI 스피커의 사용성에 대해서 심도 있는 인터뷰를 진행하였고 기존에 디스플레이형 스피커를 사용하는 사용자에게는 추가로 사용자 다이어리를 진행해 AI 스피커에 대한 문제점과 니즈(needs) 를 파악하였다. 프로토타입(prototype)은 총 4 가지 단계에 따른 화면 설계를 디자인 했으며 그 외 사용자가 시각적 피드백을 필요로 하는 상황과 텍스트만 있는 경우, 이미지만 있는 경우 등 다양한 경우의 수를 고려하여 화면 시안을 제시하였다. 이때 시각 표현은 앞에서 정리했던 기존 UI 디자인 가이드, HCI (Human Computer Interaction)의 3 가지 요소인 유용성, 사용성, 감성에 맞주어서 디자인 하였다. 사용자 검증은 사용자 조사에서 인터뷰했던 사용자를 대상으로 진행했다.

검증 부분에서 상황에 맞는 콘텐츠 구성과 화면 설계를 하지 못했다는 점과 노트북 화면을 통해 평가를 했다는 한계점이 있으나 현재 음성 인터페이스가 확대되고 있는 시점에서 다양한 방면으로 시각화를 시도하는 단계이므로 의의가 있다. 제시한 가이드라인과 프로토타입이 앞으로 AI 스피커, 더 나아가 음성 인터페이스를 시각화 하는데 활용되기를 기대하며 음성 인터페이스에 대한 시각 표현 연구가 많이 이루어지기를 바란다.