728x90 YourTTS1 [논문 공부] YourTTS - Voice Cloning VITS 기반 음소 대신 raw text 사용 multi-language에서 좋음(음소 별로 소리를 예측할 수 없는 문자에 대해 좋은 성능) ENCODER(text -> embedding): transformer 기반 text encoder multi-language를 위해 각 input character에 4차원 임베딩(trainable) concat block 개수 10으로 늘림 hidden channel rotn 196으로 늘림 DECODER(embedding -> mel): stack of 4 affine coupling layers 각 layer는 4 WaveNet residual blocks VITS 모델처럼 효율적 핟습을 위해 z에서 일정 길이만큼 랜덤하게 뽑음 이때 flow-based de.. 2023. 8. 17. 이전 1 다음 728x90 반응형