본문 바로가기

rlawldms

Visits

Today

Yesterday

Popular Posts

Recent Posts

Recent Comments

Calendar

지은이의 뚜둘뚜둘

Paper Review/Generative models

[Paper Review] WAVENET: A GENERATIVE MODEL FOR RAW AUDIO, 2016 arXiv

Paper Review/Generative models 2024. 11. 1. [Paper Review] WAVENET: A GENERATIVE MODEL FOR RAW AUDIO, 2016 arXiv WAVENET: A GENERATIVE MODEL FOR RAW AUDIO 목차AbstractIntroduction WaveNet Dilated Causal Convolutions Softmax distributions Gated Activation Units Conditional WavenetsExperiments 다중 화자 음성 생성 TTS : 텍스트-음성 변환 음악 오디오 모델링Speech RecognitionConclusion Abstractraw audio waveforms 생성을 위한 deep neural networkfully probabilisticautoregressive⇒ 각 오디오 샘플의 예측 분포는 이전 모든 샘플에 따라 결정된다하지만 오디..

[Paper Review] Inpaint-Anything, 2023 CVPR

Paper Review/Generative models 2024. 10. 25. [Paper Review] Inpaint-Anything, 2023 CVPR 💡 현대 이미지 인페인팅 시스템의 한계 : mask selecting, hole filling따라서 SAM을 기반으로 하여 마스크가 필요 없는 이미지 인페인팅의 첫 시도→ clicking and filling : IA- Remove Anything - Fill Anything - Replace Anything https://github.com/geekyutao/Inpaint-Anything 목차Motivation & observation Why do we need Inpaint Anything? What Inpaint Anything can do?Methodology Preliminary Inpaint Anything PracticeExperienceConclusion Mot..

Generative Adversarial Nets : GAN

Paper Review/Generative models 2024. 9. 16. Generative Adversarial Nets : GAN adversarial process를 통한 생성형 모델의 새로운 측정 프레임워크를 제안데이터의 분포를 학습하는 generative model G와 생성된 데이터샘플의 확률을 측정하는 discriminative model D Adversarial인 이유 : G는 D가 mistake을 많이 하도록 확률을 학습하기 때문 Minimax two-player framework 이상점은 G가 훈련 데이터의 분포를 잘 학습했고 여기서 D의 T/F 판별 확률이 1/2인 것이다.이 점이 더 이상 개선을 할 것이 없는 유일한 해가 된다 G와 D가 다층 퍼셉트론(MLP, Multilayer Perceptron)으로 정의되는 경우, 시스템 전체..

[Paper Review] RePaint: Inpainting using Denoising Diffusion Probabilistic Models

Paper Review/Generative models 2024. 2. 12. [Paper Review] RePaint: Inpainting using Denoising Diffusion Probabilistic Models https://openaccess.thecvf.com/content/CVPR2022/papers/Lugmayr_RePaint_Inpainting_Using_Denoising_Diffusion_Probabilistic_Models_CVPR_2022_paper.pdf 분야 : Diffusion inpainting 전체 정리INTRODUCTIONMETHODEXPERIMENTLIMITATIONSCONCLUSION 전체 정리point- 특정한 마스크 분포에 대해 학습하여 특화 일반화에 맞춤=> 자유 형태 인페인팅 적용 임의 mask로 지정된 부분에 새로운 contents 추가 DDPM 기반 인페인팅 접근 방식 RePaint 제안 INTRODUCTIONInpainting이미지의 손실된 부분을..

Paper Review/Generative models 2024. 2. 4. Palette: Image-to-Image Diffusion Models Abstractimage to image 변환, conditional diffusion model 개발4가지 challenge를 통해 평가 (coloization / inpainting / uncropping / JPEG restoration)모든 부분에서 strong GAN 성능 능가task-specific hyper-parameter tuning / architecture customazation / any auxiliary loss / sophisticated new techniques 필요 Xsample diversity에 대한 L1 loss와 L2 loss 영향을 알아냄경험적 연구를 통해 neural architecture에서 self-attention의 중요성 입증imageNet 기반 unif..

WaveNet : A Generative Model for Raw Audio (DeepMind)

Paper Review/Generative models 2023. 11. 22. WaveNet : A Generative Model for Raw Audio (DeepMind) WaveNet : A Generative Model for Raw Audio, DeepMind딥러닝 기반 음성합성방법 등장 전 음성 생성, 합성 방법1. concatenative TTS 방식 : 다량의 음성 데이터를 음소로 분리,조합하여 새로운 음성 생성2. parametric TTS 방식 : 은닉 마르코프 모델 기반 음성 합성 방식, 즉 통계적 모델 활용 but, 위 방법들은 음편 사이 경계가 매끄럽지 않아 자연스럽지 X 2016, DeepMind, 딥러닝 기반 음성 생성 모델 WaveNet 공개- 자연스러운 음성 파형 생성- 긴 음성 파형 학습, 생성할 수 있는 새로운 구조 제시- 학습된 모델은 컨디션 모델링으로 인해 다양한 특징적 음성 생성 가능- 음악을 포함한 다양한 음성 생성 분야에서도 좋은 성..

이전 1 다음

티스토리툴바