ControlNet
Erweiterung für Diffusionsmodelle, die präzise visuelle Kontrolle durch strukturelle Eingaben ermöglicht.
ControlNet fügt einem vortrainierten Diffusionsmodell ein paralleles Netzwerk hinzu, das strukturelle Eingaben wie Kantenkarten, Tiefenkarten oder Pose-Skelette verarbeitet.
So kann der Nutzer nicht nur per Text steuern, was generiert wird, sondern auch wie Objekte positioniert und angeordnet sind. Das ermöglicht konsistentere und kontrollierbarere Bildgenerierung.
ControlNet hat breite praktische Anwendungen gefunden: von der Umwandlung von Skizzen in realistische Bilder bis zur Anpassung von Posen in Figuren-Darstellungen.
Verwandte Begriffe
- Stable Diffusion
Open-Source-Bildgenerierungsmodell auf Basis latenter Diffusion, das Text in Bilder umwandelt.
- Diffusion (Prozess)
Mathematischer Prozess, der Daten schrittweise verrauscht und dessen Umkehrung zur Generierung genutzt wird.
- Text-to-Image
KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
- Multimodal
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.