스테이블 디퓨전

이 문서는 실용 문서입니다.

이 문서는 실제 내용을 다루고 있는 실용 문서입니다. 사실에 기반하지 않은 수정이나 왜곡은 불가합니다.

그림 인공지능 소프트웨어
Artbreeder	DALL·E	Dream by WOMBO	Firefly
Gaugan2	Midjourney	NovelAI Image generator	Stable Diffusion

스테이블 디퓨전 Stable Diffusion
분류	그림 인공지능, 오픈 소스
개발사	Stability AI
출시일	2022년 8월 22일
버전	2.1
링크

개요

2022년 8월 Stability AI라는 오픈소스 라이선스로 배포한 text-to-image 인공지능 모델이다. 2022년 8월 22일 출시했다.

상세

Stable Diffusion은 독일 뮌헨 대학교 Machine Vision & Learning Group (CompVis) 연구실의 "잠재 확산 모델을 이용한 고해상도 이미지 합성 연구"를 기반으로 Stability AI와 Runway ML 등의 지원을 받아 개발되었다.

Stability AI는 방글라데시계 영국인 에마드 모스타크가 만든 회사로, SD에 방대한 LAION-5B 데이터베이스를 학습시킬 수 있도록 컴퓨팅 자원을 제공하였다. OpenAI의 DALL-E 2나 구글의 Imagen과 같은 기존 text-to-image 모델들과는 다르게 컴퓨터 사용 리소스를 대폭 줄여 4GB 이하의 VRAM을 가진 컴퓨터에서도 돌릴 수 있다.

또한 개발 비용이 클 것임에도 불구하고^[1] 오픈 소스로 공개해서 일반인들도 사용을 할 수 있다.

그림 인공지능의 시대를 연 인공지능이며, 오픈소스로 공개된 덕분에 해당 인공지능을 기반으로 하는 AI 이미지 서비스 기능이 우후죽순으로 늘어나고 있다.

NovelAI와의 차이점

유사하지만 더 디테일하게 설정을 건드릴 수 있다는 점에서 차이가 있고, 가동방법은 NAI보다는 어려운 편이다.

직접 돌리기

오픈소스 모델답게 다양한 오픈소스 프로젝트들이 존재한다. 다만 설명은 영문으로 되어있으니 주의할 것.

Stable Diffusion WEBUI - 웹 기반의 유저 인터페이스("Web UI")를 통해 Stable Diffusion 모델을 편리하게 사용할 수 있도록 만들어 놓은 프로젝트이다. AUTOMATIC1111 등 개발자들의 꾸준한 업데이트를 통해, Stable Diffusion의 프론트엔드 기능 외에도 GFPGAN 보정, ESRGAN 업스케일링, Textual Inversion 등 다양한 기능을 도입하고 있다.
원작자 - 논문을 개제한 CompVis의 원본 프로젝트. 사용성은 떨어지니 참고만 하자.
Diffusers - Transformers나 Datasets 같은 머신러닝 프레임워크 제공사로 유명한 허깅페이스의 새로운 diffusion 모델용 프레임워크. stable diffusion의 finetuning을 하고 싶다면 가장 쉽게 할 수 있는 방법을 제공해준다.
DiffusionBee - Stable Diffusion을 직접 돌려볼 수 있는 맥용 앱이다. 텍스트입력, 이미지입력 둘다 가능하며 인페인팅과 아웃페인팅 기능도 지원한다. 일반 Apple Silicon 버전은 애플 실리콘 내부의 뉴럴 엔진을 사용하고, HQ 버전은 GPU를 활용하여 퀄리티가 더 높은 대신 속도가 2배 정도 느리다. 인텔 맥도 지원중이며 향후 윈도우도 지원 예정.
DrawThings - Stable Diffusion을 직접 구동할 수 있는 iOS, iPadOS 및 macOS용 앱이다. CPU + GPU, CPU + Neural Engine, CPU + GPU + Neural Engine(All)의 3가지 모드를 지원한다. WebUI와 동일하게 Checkpoint, LoRA, Textual Inversion 등을 활용할 수 있고 Inpaint 등의 WebUI 핵심기능들도 지원하고 있어 WebUI 사용자라면 빠르게 적응할 수 있는 것이 장점. 다만 WebUI 확장기능과 같은 것은 지원하지 않으며, iOS 및 iPadOS의 경우 메모리 용량의 한계로 인해 2023년 기준으로 구형 기기는 물론 신형 기기에서조차 일정 해상도 이상으로 구동했을 경우 메모리 부족으로 앱이 꺼지는 일이 종종 발생한다.
Riffusion - 스펙트로그램을 역이용해 작곡 AI에 응용하려는 사례
디시인사이드 AI 이미지 갤러리 - Civitai의 서비스를 이용해서 AI이미지 생성이 가능한 전용 갤러리를 오픈했다.

각주

↑ SD AI 개발을 위해 학습에 들인 비용은 약 $600,000 정도로 추정된다.

이 문서의 내용 중 전체 또는 일부는 나무위키의 Stable Diffusion 문서에서 가져왔습니다.

[1] SD AI 개발을 위해 학습에 들인 비용은 약 $600,000 정도로 추정된다.

[1]