728x90 머신러닝/논문 공부7 [논문 공부] YourTTS - Voice Cloning VITS 기반 음소 대신 raw text 사용 multi-language에서 좋음(음소 별로 소리를 예측할 수 없는 문자에 대해 좋은 성능) ENCODER(text -> embedding): transformer 기반 text encoder multi-language를 위해 각 input character에 4차원 임베딩(trainable) concat block 개수 10으로 늘림 hidden channel rotn 196으로 늘림 DECODER(embedding -> mel): stack of 4 affine coupling layers 각 layer는 4 WaveNet residual blocks VITS 모델처럼 효율적 핟습을 위해 z에서 일정 길이만큼 랜덤하게 뽑음 이때 flow-based de.. 2023. 8. 17. [논문 리뷰] NeRF (ECCV 2020) : NeRF 최초 제안 논문 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis INR 분야에 관심이 생겨 INR의 기초를 공부할 수 있는 논문을 찾다가 이번 논문을 공부하게 되었습니다 NeRF는 몇 개 point에서의 2D 이미지만으로도 이미지 내 물체를 3D로 렌더링하는 새로운 방법을 제안한 논문으로, 2020년 ECCV에 Best paper로 선정되었습니다. NeRF 프로젝트 페이지 https://www.matthewtancik.com/nerf NeRF: Neural Radiance Fields A method for synthesizing novel views of complex scenes by optimizing an underlying conti.. 2023. 1. 10. [딥러닝/CNN] Pre-activation ResNet 계속 기울기 1이다 -> 아님 그 부분에도 계속 ReLU가 씌워지기 때문 layer 1000개 쯤 쌓으면 학습이 안 된다. layer를 깊게 쌓았을 때 발생하는 문제점 해결하기 위한 논문 Fine Tuning 관점 code 구현 resnetv2.py 2022. 10. 6. [논문 리뷰] ResNet 논문 리뷰 +) ResNet이 1000장 정도 쌓이면 성능이 저하되는 문제를 해결하기 위한 추가 연구는 글 맨 아래에 있음 ResNet 마이크로소프트 팀이 소개한 ResNet 모델입니다. Residual 이라는 새로운 방법이 도입되었습니다. ILSVRC 2015에서 처음으로 Human recognition보다 높은 성능을 보이며 1위를 차지한 152 layer의 모델을 알아봅시다. ↓ 논문 링크 ↓ ResNet paper 더보기 딥러닝 ResNet 논문 리뷰 pytorch 파이토치 tensorflow 텐서플로 code 코드 Abstract 역대 ILSVRC 대회를 보면 depth가 커질수록 성능은 좋아지지만 overfitting, gradient vanishing, 연산량 증가 등의 문제가 있다. 그래서 이전에 사.. 2022. 10. 6. [딥러닝] GoogLeNet 논문 리뷰 더보기 딥러닝 논문 리뷰 GoogLeNet 논문 리뷰 Inception ILSVRC 2014에서 VGGNet을 이기고 1등을 한 GoogLeNet 모델 VGGNet 과 유사한 점: 1 x 1 conv layer, depth 증가를 통해 성능 개선 GoogLeNet은 Inception이라는 독특한 구조를 제안 Going deeper with convolutions ↑ 논문 링크 ↑ 목차 ☞ Abstract ☞ Introduction ☞ Related Work ☞ Motivation and High Level Considerations ☞ Architectural Details ☞ GoogLeNet ☞ Training Methodology ☞ ILSVRC 2014 Classification Challenge.. 2022. 9. 29. [딥러닝/CNN] VGGNet 논문 리뷰 더보기 딥러닝 논문 리뷰 VGGNet 논문 리뷰 Very Deep Convolutional Networks for Large-Scale Image Recognition ↑ 논문 링크 ↑ Abstract VGGNet은 ILSVRC 2014 대회에서 2등을 차지한 CNN 모델 모델의 성능에 '네트워크의 깊이'가 중요함을 보여줌 이미지 특징을 추출하는 기본 네트워크 모델로 활용 많은 메모리를 이용하여 연산한다는 단점 ConvNet Configurations Architecture Input은 224 x 224 RGB 이미지로 고정 전처리 - 각 픽셀에서 train set 평균 RGB 값 빼기 3 x 3 필터 ConvNet, 비선형성을 위해 1 x 1 convolutional filter, stride=1, p.. 2022. 9. 23. 이전 1 2 다음 728x90 반응형