Stable Diffusion 문서 원본 보기

{{실용}}{{보일제목:스테이블 디퓨전}}
{{그림 인공지능}}
__TOC__
{| class="wikitable" style="border: 2px solid #DDD; color: #191919; float: right; max-width: 300px"
|-
! colspan="2" style="background: #DDD; line-height: 22px; height: 50px; width: 300px;" | {{large|스테이블 디퓨전}}<br>Stable Diffusion
|-
! style="background: #DDD;" | 분류
| style="background: white;" | 그림 인공지능, 오픈 소스
|-
! style="background: #DDD;" | 개발사
| style="background: white;" | [https://stability.ai/ Stability AI]
|-
! style="background: #DDD;" | 출시일
| style="background: white;" | 2022년 8월 22일
|-
! style="background: #DDD;" | 버전
| style="background: white;" | '''2.1'''
|-
! style="background: #DDD;" | 링크
| style="background: white;" | {{아이콘|홈페이지 아이콘.svg|23|https://stability.ai/}} {{아이콘|유튜브 아이콘.svg|25|https://www.youtube.com/@Stability_AI}} {{아이콘|인스타그램 아이콘.svg|23|https://www.instagram.com/stability.ai/}} {{아이콘|X Corp 아이콘(블랙).svg|23|https://twitter.com/stabilityai}} {{아이콘|디스코드 아이콘.svg|23|https://discord.com/invite/stablediffusion}}
|-
|}
{{-}}
== 개요 ==
[[파일:Stablediffusion-diagram.png|200px|가운데|link=]]
2022년 8월 Stability AI라는 오픈소스 라이선스로 배포한 text-to-image 인공지능 모델이다. 2022년 8월 22일 출시했다.

== 상세 ==
Stable Diffusion은 독일 뮌헨 대학교 Machine Vision & Learning Group (CompVis) 연구실의 "잠재 확산 모델을 이용한 고해상도 이미지 합성 연구"를 기반으로 Stability AI와 Runway ML 등의 지원을 받아 개발되었다.

Stability AI는 방글라데시계 영국인 에마드 모스타크가 만든 회사로, SD에 방대한 LAION-5B 데이터베이스를 학습시킬 수 있도록 컴퓨팅 자원을 제공하였다. OpenAI의 DALL-E 2나 구글의 Imagen과 같은 기존 text-to-image 모델들과는 다르게 컴퓨터 사용 리소스를 대폭 줄여 4GB 이하의 VRAM을 가진 컴퓨터에서도 돌릴 수 있다.

또한 개발 비용이 클 것임에도 불구하고<ref>SD AI 개발을 위해 학습에 들인 비용은 약 $600,000 정도로 추정된다.</ref> 오픈 소스로 공개해서 일반인들도 사용을 할 수 있다.

그림 인공지능의 시대를 연 인공지능이며, 오픈소스로 공개된 덕분에 해당 인공지능을 기반으로 하는 AI 이미지 서비스 기능이 우후죽순으로 늘어나고 있다.

== [[NovelAI]]와의 차이점 ==
유사하지만 더 디테일하게 설정을 건드릴 수 있다는 점에서 차이가 있고, 가동방법은 NAI보다는 어려운 편이다.

== 직접 돌리기 ==
오픈소스 모델답게 다양한 오픈소스 프로젝트들이 존재한다. 다만 설명은 영문으로 되어있으니 주의할 것.
* [https://github.com/AUTOMATIC1111/stable-diffusion-webui/ Stable Diffusion WEBUI] - 웹 기반의 유저 인터페이스("Web UI")를 통해 Stable Diffusion 모델을 편리하게 사용할 수 있도록 만들어 놓은 프로젝트이다. AUTOMATIC1111 등 개발자들의 꾸준한 업데이트를 통해, Stable Diffusion의 프론트엔드 기능 외에도 GFPGAN 보정, ESRGAN 업스케일링, Textual Inversion 등 다양한 기능을 도입하고 있다.
* [https://github.com/CompVis/stable-diffusion 원작자] - 논문을 개제한 CompVis의 원본 프로젝트. 사용성은 떨어지니 참고만 하자.
* [https://github.com/huggingface/diffusers Diffusers] - Transformers나 Datasets 같은 머신러닝 프레임워크 제공사로 유명한 허깅페이스의 새로운 diffusion 모델용 프레임워크. stable diffusion의 finetuning을 하고 싶다면 가장 쉽게 할 수 있는 방법을 제공해준다.
* [https://diffusionbee.com/ DiffusionBee] - Stable Diffusion을 직접 돌려볼 수 있는 맥용 앱이다. 텍스트입력, 이미지입력 둘다 가능하며 인페인팅과 아웃페인팅 기능도 지원한다. 일반 Apple Silicon 버전은 애플 실리콘 내부의 뉴럴 엔진을 사용하고, HQ 버전은 GPU를 활용하여 퀄리티가 더 높은 대신 속도가 2배 정도 느리다. 인텔 맥도 지원중이며 향후 윈도우도 지원 예정.
* [https://drawthings.ai/ DrawThings] - Stable Diffusion을 직접 구동할 수 있는 iOS, iPadOS 및 macOS용 앱이다. CPU + GPU, CPU + Neural Engine, CPU + GPU + Neural Engine(All)의 3가지 모드를 지원한다. WebUI와 동일하게 Checkpoint, LoRA, Textual Inversion 등을 활용할 수 있고 Inpaint 등의 WebUI 핵심기능들도 지원하고 있어 WebUI 사용자라면 빠르게 적응할 수 있는 것이 장점. 다만 WebUI 확장기능과 같은 것은 지원하지 않으며, iOS 및 iPadOS의 경우 메모리 용량의 한계로 인해 2023년 기준으로 구형 기기는 물론 신형 기기에서조차 일정 해상도 이상으로 구동했을 경우 메모리 부족으로 앱이 꺼지는 일이 종종 발생한다.
* [https://www.riffusion.com/about Riffusion] - 스펙트로그램을 역이용해 작곡 AI에 응용하려는 사례
* 디시인사이드 AI 이미지 갤러리 - [https://civitai.com/ Civitai]의 서비스를 이용해서 AI이미지 생성이 가능한 전용 갤러리를 오픈했다.

== 각주 ==
<references />
<div style="margin: 12px 0px; border: 1px solid grey; border-top: 5px solid gray; padding: 12px;">[[파일:CC 아이콘.png|20px|link=https://creativecommons.org/licenses/by-sa/3.0/deed.ko]] 이 문서의 내용 중 전체 또는 일부는 [[나무위키]]의 [https://namu.wiki/w/Stable%20Diffusion Stable Diffusion 문서]에서 가져왔습니다.</div>