Generatives Modell, das Daten durch schrittweises Entrauschen aus zufälligem Rauschen erzeugt.
Diffusionsmodelle lernen, einen schrittweisen Rauschprozess umzukehren. Im Training wird Rauschen auf Daten addiert; das Netz lernt, dieses Rauschen in jedem Schritt zu schätzen und zu subtrahieren.
Im Vergleich zu GANs sind Diffusionsmodelle stabiler zu trainieren und liefern vielfältigere Ausgaben. Sie dominieren seit etwa 2022 die Bild-, Video- und Audiogenerierung.
Latente Diffusionsmodelle wie Stable Diffusion führen den Diffusionsprozess in einem kompakten latenten Raum durch, was den Rechenaufwand erheblich reduziert und hochauflösende Ausgaben ermöglicht.
Open-Source-Bildgenerierungsmodell auf Basis latenter Diffusion, das Text in Bilder umwandelt.
Mathematischer Prozess, der Daten schrittweise verrauscht und dessen Umkehrung zur Generierung genutzt wird.
KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.