Open-Source-Bildgenerierungsmodell auf Basis latenter Diffusion, das Text in Bilder umwandelt.
Stable Diffusion führt den Diffusionsprozess im latenten Raum eines Autoencoders durch, nicht direkt auf Pixeln. Das reduziert den Rechenaufwand drastisch und ermöglicht hochauflösende Ausgaben.
Die Veröffentlichung der Gewichte als Open Source hat eine breite Nutzungsgemeinschaft geschaffen. Tausende spezialisierter Fine-Tunes und Erweiterungen wurden seither veröffentlicht.
ControlNet-Erweiterungen ermöglichen präzise Steuerung durch Tiefenkarten, Skelette oder Kantenerkennung. So lässt sich die räumliche Komposition von Bildern kontrollieren.
Mathematischer Prozess, der Daten schrittweise verrauscht und dessen Umkehrung zur Generierung genutzt wird.
Erweiterung für Diffusionsmodelle, die präzise visuelle Kontrolle durch strukturelle Eingaben ermöglicht.
KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
Generatives Modell, das Daten durch schrittweises Entrauschen aus zufälligem Rauschen erzeugt.