본문 바로가기

DL/Generative

Palette: Image-to-Image Diffusion Models

Abstract

image to image 변환, conditional diffusion model 개발

  • 4가지 challenge를 통해 평가 (coloization / inpainting / uncropping / JPEG restoration)
    • 모든 부분에서 strong GAN 성능 능가
    • task-specific hyper-parameter tuning / architecture customazation / any auxiliary loss / sophisticated new techniques 필요 X
  • sample diversity에 대한 L1 loss와 L2 loss 영향을 알아냄
  • 경험적 연구를 통해 neural architecture에서 self-attention의 중요성 입증
  • imageNet 기반 unified evaluation protocal based

코드 기반

https://diffusion-palette.github.io/

 

Image-to-Image Diffusion Models

 

diffusion-palette.github.io

 

Introduction

vision이나 image processing = image-to-image translation

이러한 image-to-image translation은 모두 complex inverse problem들을 가지고 있음

그렇다면 이 문제의 가장 기본적 접근 방법은 conditional distribution을 (multi-modal distribution을 capture 할 수 있는) deep generation model을 사용하여 학습하는 것!

 

GANs : generative adversarial networks

  • 고품질 출력 및 광범위한 적용 가능, 효율적 샘플링 지원
  • but, 훈련이 힘들며 출력 분포에서 mode를 종종 놓침

diffusion and score-basedd models : SoTA

pallette = image-to-image diffusion model 구현

  • denosing loss function : L1 = 보수적 출력, L2 = diversity up
  • neural net architecture : U-net architecture에서 self-attention은 필수

기존 연구

GAN은 다양한 문제에 제안되었으나 때때로 일관된 구조적 질감적 규칙성을 가진 이미지를 전체적으로 변환하는데 실패함

최근 확산 모델이 이미지 생성, 오디오 합성, 이미지 초해상도, 쌍이 없는 이미지-이미지 변환, 이미지 편집 등에서 인상적 결과를 보임

대부분의 확산 모델은 조건 없는 모델을 가지고 조건부 작업에 맞게 조정해왔으나 pallette는 조건부 모델로 여러 작업에 하나의 모델을 원한다면 다중 작업 훈련을 선택함

초기 인페인팅 접근 방법은 질감이 있는 영역에서는 잘 작동하지만 의미론적으로 일관된 생성하는데는 부족했다

GAN은 구조, 맥락, 가장자리, 윤곽, 수작업으로 만든 특징에 대한 보조 목표가 종종 필요하며 출력에 다양성이 부족하다

***이미지 언크롭핑(outpainting)***은 더 적은 맥락으로 열린 콘텐츠를 생성해야하 inpainting보다 더 도전적이다

본 논문은 대규모 데이터셋에서 훈련된 conditional diffusion 모델이 이미지 도메인 전반에 걸쳐 인페인팅과 언크롭핑을 모두 신뢰성 있게 해결한다는 것을 보여둔다

colorization은 장면 이해도를 요구하는 작업으로 일부 선행 연구에서는 specialized auxiliary classification losses을 사용하지만 본 연구에서는 take-specific specialization 없이도 잘 작동함

JPEG restoration은 quality factors가 낮은 경우에도 removing compression artifacts에 효과적임을 확인할 수 있다

Multi-task training은 image-to-image에서 상대적으로 덜 탐구된 영역으로 주로 deblurring, denoising, and super-resolution과 같은 향상 작업에 초점을 맞춘다.