[논문 공부] YourTTS - Voice Cloning

728x90

VITS 기반
음소 대신 raw text 사용
- multi-language에서 좋음(음소 별로 소리를 예측할 수 없는 문자에 대해 좋은 성능)
ENCODER(text -> embedding): transformer 기반 text encoder
- multi-language를 위해 각 input character에 4차원 임베딩(trainable) concat
- block 개수 10으로 늘림
- hidden channel rotn 196으로 늘림
DECODER(embedding -> mel): stack of 4 affine coupling layers
- 각 layer는 4 WaveNet residual blocks
- VITS 모델처럼
- 효율적 핟습을 위해 z에서 일정 길이만큼 랜덤하게 뽑음
- 이때 flow-based decoder가 z와 스피커 임베딩을 컨디셔닝 함, Pz distribution에 의해서
  - Pz와 텍스트 인코더의 출력을 맞추기 위해서 Monotonic Alignment Search (MAS) 사용
  - MAS: 텍스트 임베딩과 음성 스펙트로그램의 임베딩을 동일한 공간으로 매핑한 후 Dynamic Time Warping(DTW) 알고리즘을 활용하여 두 sequence 간의 배열 정보와 거리를 구하는 알고리즘
  - MAS는 training 중에만
  - 인퍼런스에서는
    - 대신 텍스트 인코더가 Pz 분포를 예측, 랜덤 노이즈가 확률적 duration predictor의 인버스를 거쳐서 duration 샘플링 -> 정수로 변환
    - 이러면 zp가 Pz에서 샘플링 됨
    - 이 zp와 스피커 임베딩을 Flow-based decoder가 input으로 받음
    - 이를 통해 z를 만들고, vocoder generator에 넣어서 음성 생성
VOCODER(mel -> audio): HiFI-GAN
- variational autoencoder(VAE), end2end train 위해
- 이를 위해 Posterior(x -> z) Encoder 사용
  - 학습에만 사용됨
  - 16 non-casual WaveNet residual blocks
  - input으로 linear spectrogram, 스피커 임베딩 -> output으로 latent variable z 예측
  - 이 latent variable은 vocoder와 flow-based decoder의 input
  - 그래서 모델이 즉각적으로 학습할 수 있음
  - vocoder와 TTS 모델을 따로 학습하는 2-stage 방식에서 좋은 성능
  - 학습 중에는 linear s
다양한 리듬으로 말하게 하기 위해서 확률적 duration predictor 사용
- input으로 스피커 임베딩, 랭귀지 임베딩, MAS를 거친 duration
flow-based decoder의 모든 affine coupling layers, posterior encoder, 외부 화자 인코딩의 보코더를 모두 컨디셔닝
- coupling layer의 residual block은 global conditioning(시점에 따라 변하지 않는 조건)
외부 화자 임베딩과 text encoder output, decoder output을 다 더해서 duration predictor, vocoder에 전달
차원을 맞추기 위해서는 선형 projection layer 사용
LOSS: Speaker Consistency Loss (SCL)
- 기학습 스피키 언코더로 원본과 출력물의 임베딩 벡터를 뽑고, 둘의 코사인 유사도를 높이는 쪽으로 학습
- n으로 나누는데 n은 배치 사이즈

728x90

'머신러닝 > 논문 공부' 카테고리의 다른 글

[논문 리뷰] NeRF (ECCV 2020) : NeRF 최초 제안 논문 (0)	2023.01.10
[딥러닝/CNN] Pre-activation ResNet (0)	2022.10.06
[논문 리뷰] ResNet 논문 리뷰 (1)	2022.10.06
[딥러닝] GoogLeNet 논문 리뷰 (0)	2022.09.29
[딥러닝/CNN] VGGNet 논문 리뷰 (2)	2022.09.23