Zum Glossar
Multimodal

Stable Diffusion

Open-Source-Bildgenerierungsmodell auf Basis latenter Diffusion, das Text in Bilder umwandelt.

Stable Diffusion führt den Diffusionsprozess im latenten Raum eines Autoencoders durch, nicht direkt auf Pixeln. Das reduziert den Rechenaufwand drastisch und ermöglicht hochauflösende Ausgaben.

Die Veröffentlichung der Gewichte als Open Source hat eine breite Nutzungsgemeinschaft geschaffen. Tausende spezialisierter Fine-Tunes und Erweiterungen wurden seither veröffentlicht.

ControlNet-Erweiterungen ermöglichen präzise Steuerung durch Tiefenkarten, Skelette oder Kantenerkennung. So lässt sich die räumliche Komposition von Bildern kontrollieren.

Verwandte Begriffe