표제지
목차
국문요약 10
1. 서론 11
1.1. 연구 배경 11
1.2. 논문 내용 및 구성 11
2. 배경 지식 13
2.1. 생성모델 13
2.2. KL Divergence 15
2.3. Manifold Learning 16
2.4. Maximum Likelihood Estimation 18
2.5. Mel-Frequency Cepstral Coefficient 21
2.6. AutoEncoder 21
2.7. VAE 23
2.8. VQ-VAE 26
3. 관련 연구 28
3.1. DALL-E 28
3.2. Imagen 28
4. Heterogeneous Conversion Model 31
4.1. 모델 구조 31
4.2. 핵심 개념 32
4.3. 손실함수 33
5. 실험 및 결과 35
5.1. 실험 환경 35
5.2. 실험 결과 35
6. 결론 및 논의 50
6.1. 결론 50
6.2. 한계점 및 향후 연구 50
참고문헌 52
ABSTRACT 54
[그림 1] 생성모델 설명 13
[그림 2] Pixel RNN 알고리즘 14
[그림 3] 3차원 곡면분포 예시 17
[그림 4] 그림 3의 subspace 18
[그림 5] Likelihood 예시 19
[그림 6] Autoencoder 구조 22
[그림 7] Autoencoder latent space 22
[그림 8] VAE 구조 23
[그림 9] VAE latent space 24
[그림 10] Base VQ VAE 모델 26
[그림 11] Data의 이산화 26
[그림 12] Imagen 모델 도식도 29
[그림 13] Converter model 32
[그림 14] 전체 모델 구성 33
[그림 15] 1차 실험 결과 audio to image 36
[그림 16] 1차 실험 결과 audio 모델 loss 37
[그림 17] 1차 실험 결과 image 모델 loss 37
[그림 18] 2차 실험 결과 audio 모델 loss 39
[그림 19] 2차 실험 결과 image 모델 loss 39
[그림 20] 2차 실험 전체 결과 40
[그림 21] 2차 실험 결과 audio to image 40
[그림 22] 3차 실험 결과 audio 모델 loss 41
[그림 23] 3차 실험 결과 image 모델 loss 42
[그림 24] 3차 실험 전체 결과 42
[그림 25] audio embedding space 43
[그림 26] image embedding space 44
[그림 27] 좌: image 원본 입력, 우: image 출력 45
[그림 28] audio 원본 입력(MFCC) 46
[그림 29] audio 복원(MFCC) 47
[그림 30] 실험 검증 변환 모델 47
[그림 31] audio 입력 image 출력 48
[그림 32] image 입력 audio 출력 48
〈수식 1〉 KL-Divergence 수식 15
〈수식 2〉 likelihood 계산식 19
〈수식 3〉 log likelihood 계산식 20
〈수식 4〉 log likelihood 계산식 20
〈수식 5〉 E(μ, σ) 편미분 20
〈수식 6〉 μ, σ² 도출 21
〈수식 7〉 ELBO 방정식 25
〈수식 8〉 ELBO 부등식 25
〈수식 9〉 VQ-VAE 손실함수 27
〈수식 10〉 전체 손실함수 34
〈수식 11〉 audio model 손실함수 34
〈수식 12〉 image model 손실함수 34
〈수식 13〉 audio to image converter model 손실함수 34
〈수식 14〉 image to audio converter model 손실함수 34
〈수식 15〉 복원율 계산 공식 49