본문 바로가기
Stable Diffusion/Stable Diffusion 원리

Latent Diffusion 모델 - 쉽게 이해하는 스테이블 디퓨전 원리2

by DesignerAllan 2023. 9. 14.
반응형

안녕하세요 Allan입니다. 지난 포스팅에 이어 스테이블 디퓨전 원리 시리즈로 돌아왔습니다.

 

지난 포스팅을 읽어보시지 않았다면 먼저 읽고 오시는 것을 추천드립니다.

 

누구나 이해하는 스테이블 디퓨전 원리1 - Diffusion 모델

 

쉽게 이해하는 스테이블 디퓨전 원리1 - Diffusion 모델

안녕하세요, Allan입니다. 스테이블 디퓨전이 세상에 나온지도 벌써 1년 정도의 시간이 지난 것 같습니다. 짧은 기간동안 많은 발전을 이루었고, 아직도 많은 사람들이 스테이블 디퓨전에 대해 관

ai-designer-allan.tistory.com

 

Ⅰ. Latent Diffusion 모델

Latent Diffusion 모델이란 직역하면 잠재 확산이라는 의미로 Diffusion 과정이 우리가 흔히 알고 있는 픽셀 공간이 아닌 Latent 공간에서 작동하는 방식입니다.

 

Stable Diffusion에서 Diffusion 모델이 아닌 Latent Diffusion 모델을 사용하는 이유는 간단합니다.

 

처리해야할 숫자가 훨씬 적기 때문입니다.

 

512*512 해상도 이미지 기준, 픽셀 공간에서는 512*512*3 = 786,432 차원에서 계산하게 되며, Latent 공간에서는 64*64*4 = 16384 차원에서 계산이 가능합니다. 즉, Latent Diffusion 모델이 48배 적은 숫자를 처리한다는 장점이 있어 훨씬 빠르게 학습 및 이미지 생성이 가능합니다.

 

이러한 이유로 Stable Diffusion에서는 Latent Diffusion 모델을 사용합니다.

 

Ⅱ. VAE (Variational Autoencoder)

픽셀 공간에서 Latent 공간으로 이동하기 위해서는 VAE라는 것이 필요합니다.

 

VAE는 인코더, 디코더 두 부분으로 구성되며 인코더는 픽셀 공간의 이미지를 Latent 공간으로 압축시키는 역할을 하며, 디코더는 Latent 공간의 이미지 표현을 픽셀 공간의 이미지로 복원하는 역할을 합니다.

https://stable-diffusion-art.com/how-stable-diffusion-work/#Stable_Diffusion_model

Diffusion 모델의 모든 과정이 Latent Space에서 이루어진다고 생각하시면 좋습니다.

 

노이즈로 이미지를 손상시키는 대신, Latent noise로 Latent 공간으로 압축된 이미지를 손상시키며

완전한 노이즈를 생성하는 대신, Latent space에 임의의 tensor를 생성합니다.

(tensor란 다차원의 배열을 통칭하는 말이라고 생각하시면 되겠습니다.)

 

Ⅲ. Latent Space에서의 Reverse Diffusion 과정

그럼 Latent Space에서 이미지를 생성하는 과정인 Reverse Diffusion 과정이 어떻게 일어나는지 알아보겠습니다.

  1. Latent 공간에서 임의의 매트릭스를 생성합니다. 
  2. noise predictor는 생성된 임의의 matrix에서 noise를 추정합니다.
  3. 추정된 noise를 제거합니다.
  4. 노이즈를 추정하고, 추정된 노이즈를 제거하는 과정을 설정해둔 Sampling steps 만큼 반복합니다.
  5. VAE를 통해 노이즈를 제거한 Latent space에서의 매트릭스를 픽셀 공간의 이미지로 변환합니다. 

 

Ⅳ. 마무리

여기 까지 Latent Space에서 일어나는 Diffusion 과정, 즉 Latent Diffusion 모델의 작동 방식에 대해서 알아보았습니다.

 

하지만 지금까지 배운 것 만으로는 스테이블 디퓨전의 작동방식을 설명할 수 없습니다.

 

바로 텍스트 프롬프트의 작동 방식을 배우지 않았기 때문입니다.

 

다음 포스팅에서는 텍스트 프롬프트가 Latent Diffusion 모델에서 어떻게 작동하는 지 알아보도록 하겠습니다.

 

Text Conditioning - 쉽게 이해하는 스테이블 디퓨전 원리 3

 

Text Conditioning - 쉽게 이해하는 스테이블 디퓨전 원리 3

안녕하세요, Allan입니다. 이번 포스팅을 보시기 전에 스테이블 디퓨전의 원리 시리즈를 처음부터 보고 오시는 것을 추천드립니다. Diffusion 모델 - 쉽게 이해하는 스테이블 디퓨전 원리1 Latent Diffus

ai-designer-allan.tistory.com

 

유용한 정보였다면 광고 한번씩 클릭해 주시면 감사하겠습니다.

 

 

반응형