초록

최근 인공지능 분야가 발전함에 따라 생성모델 분야에서도 많은 성능 향상이 있었다. 생성모델은 학습된 데이터를 토대로 기존과 비슷한 데이터를 만들어 내거나 새로운 데이터를 생성하는 인공지능 모델이다. 생성모델을 통해 현실에 존재하지 않는 데이터를 생성해 내거나 소리가 없는 영상에 소리를 추가하는 것과 같이 한쪽이 누락된 상황에서 불균형을 해소하고자 한다. 본 연구에서는 이와같이 한쪽이 누락된 상황이나 환경상 볼 수 없는 경우 기존 존재하는 데이터를 학습하여 누락된 데이터를 입력값에 맞게 생성하여 데이터의 불균형을 해소할 수 있다. 본 연구에서 베이스 모델은 VQ-VAE를 사용하여 audio와 image를 동시에 학습시키고 변환모듈 또한 같이 학습하여 모델의 사용 시 하나의 입력으로 둘 다 생성할 수 있는 모델을 제안한다. 생성모델을 산업현장과 같이 image와 audio 중 한쪽이 없는 데이터의 누락된 부분을 입력값에 맞게 생성하고 실제 적용할 수 있는 모델을 만들고자 하였다. Audio와 Image를 동시에 학습하여 converter를 통해 서로 교차 생성할 수 있는 인공지능 모델을 실험하였고, 256x256 크기의 image와 39x5 크기의 audio data를 학습시켜 서로 변환하는 방식으로 교차 생성이 가능하다는 것을 확인하였다.