스테이블 디퓨전 모델(checkpoint)이란? : 모델 집중 탐구

안녕하세요 Allan입니다.

이번 포스팅에서는 스테이블 디퓨전에서 사용되는 모델에 대해서 알기 쉽게 집중적으로 알아보도록 하겠습니다.

Ⅰ. 스테이블 디퓨전 모델이란?

모델이란 그림을 그리는 사람과 같습니다.

예를 들면 스테이블 디퓨전 webui가 그림을 그릴 수 있게 해주는 공간이라면,

모델은 그림을 그리는 사람인 것입니다.

즉, 어떤 모델을 사용할 것인지 고르는 것은

누가 그림을 그릴지 선택하는 것과 같습니다.

로라, 임베딩, 하이퍼네트워크 등과 모델의 근본적인 차이는 이것입니다.

모델은 그림을 그리는 사람과 같으며 모델이 없으면 그림을 그릴 수 없는 사람이 없는 것과 마찬가지 이므로
당연히 이미지를 생성할 수 없습니다.

반면에 로라, 임베딩, 하이퍼 네트워크등은 없어도 이미지를 생성할 수 있습니다.

앞서 말씀드린 것과 같이 모델은 그림 그리는 사람을 선택하는 것과 같으며

누가 그림을 그리는가에 따라서 그림체가 달라지듯이
어떤 모델을 사용하는가에 따라서 생성되는 이미지가 완전히 달라지게 됩니다.

먼저 모델을 다운받을 수 있는 사이트는 크게 두 곳이 있습니다.

Civitai : https://civitai.com/

허깅 페이스 : https://huggingface.co/

이 두 사이트에서 내 그림을 생성할 모델을 선택해 주시면 됩니다.

모델의 종류는 정말 많기 때문에 위의 사이트들을 둘러보시면서
목적, 그림체 등 본인의 취향에 맞는 모델을 선택해 주시면 됩니다.

모델 파일은 .safetensors 혹은 .ckpt 확장자 파일입니다.

둘 다 이미지를 생성하는데 있어서 차이는 없지만

safetensors확장자가 ckpt에 있을 수도 있는 악성바이러스를 제거한 모델이라고 생각하시면 됩니다.

쉽게 말하면 바이러스로 부터 안전한 모델이라고 생각하시면 됩니다.

동일 모델에서 safetensors확장자와 ckpt확장자 둘 중 하나만 선택하실 수 있다면 safetensors확장자 모델을 다운받는 것을 권장합니다.

모델은 보통 2GB~3GB의 용량을 차지하며 무거운 것은 5GB이상을 넘어가기도 합니다.

모델을 다운받을 때 보시면 다음과 같이 하나의 모델에도 여러가지 버전이 있는 것을 볼 수 있습니다.

숫자는 버전을 의미하고 baked vae는 vae가 함께 구워져서 나와 따로 vae를 적용시켜 줄 필요 없는 모델입니다.

인페인팅이라 써져있는 모델은 인페인팅 혹은 아웃페인팅 전용 모델,

그리고 fp는 floating point의 약자로 보통 16과 32가 있는데 사용하는 입장에서 큰 차이가 없으니 용량이 작은 버전을 다운받아 주시면 됩니다.

모델 뿐만 아니라 로라/임베딩/하이퍼 네트워크에 대해 궁금하시다면 아래 포스팅을 참고해 주세요.

Stable Diffusion(스테이블 디퓨전)을 처음시작할 때 정말 헷갈렸던 용어 : Checkpoint, lora, embedding, hyper network, vae 에 대해서 이해하기 쉽게 완벽정리 해보도록 하겠습니다. 이번 게시물에서는 각 용어

ai-designer-allan.tistory.com