Mathematischer Prozess, der Daten schrittweise verrauscht und dessen Umkehrung zur Generierung genutzt wird.
Der Diffusionsprozess fügt in T Schritten immer mehr Gauß'sches Rauschen zu einem Datenpunkt hinzu, bis nur noch reines Rauschen übrig bleibt. Ein neuronales Netz lernt, diesen Prozess umzukehren.
Zur Generierung beginnt man mit zufälligem Rauschen und lässt das Netz schrittweise entrauschen. Durch bedingte Generierung mit Text-Embeddings wird gesteuert, was das Modell erzeugt.
Variationen wie DDIM beschleunigen die Generierung durch weniger Schritte, während Score-basierte Modelle den theoretischen Rahmen erweitern. Latente Diffusion komprimiert den Prozess in einen kompakten Raum.
Generatives Modell, das Daten durch schrittweises Entrauschen aus zufälligem Rauschen erzeugt.
Open-Source-Bildgenerierungsmodell auf Basis latenter Diffusion, das Text in Bilder umwandelt.
KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
Erweiterung für Diffusionsmodelle, die präzise visuelle Kontrolle durch strukturelle Eingaben ermöglicht.