Erweiterung für Diffusionsmodelle, die präzise visuelle Kontrolle durch strukturelle Eingaben ermöglicht.
ControlNet fügt einem vortrainierten Diffusionsmodell ein paralleles Netzwerk hinzu, das strukturelle Eingaben wie Kantenkarten, Tiefenkarten oder Pose-Skelette verarbeitet.
So kann der Nutzer nicht nur per Text steuern, was generiert wird, sondern auch wie Objekte positioniert und angeordnet sind. Das ermöglicht konsistentere und kontrollierbarere Bildgenerierung.
ControlNet hat breite praktische Anwendungen gefunden: von der Umwandlung von Skizzen in realistische Bilder bis zur Anpassung von Posen in Figuren-Darstellungen.
Open-Source-Bildgenerierungsmodell auf Basis latenter Diffusion, das Text in Bilder umwandelt.
Mathematischer Prozess, der Daten schrittweise verrauscht und dessen Umkehrung zur Generierung genutzt wird.
KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.