Zum Glossar
Multimodal

ControlNet

Erweiterung für Diffusionsmodelle, die präzise visuelle Kontrolle durch strukturelle Eingaben ermöglicht.

ControlNet fügt einem vortrainierten Diffusionsmodell ein paralleles Netzwerk hinzu, das strukturelle Eingaben wie Kantenkarten, Tiefenkarten oder Pose-Skelette verarbeitet.

So kann der Nutzer nicht nur per Text steuern, was generiert wird, sondern auch wie Objekte positioniert und angeordnet sind. Das ermöglicht konsistentere und kontrollierbarere Bildgenerierung.

ControlNet hat breite praktische Anwendungen gefunden: von der Umwandlung von Skizzen in realistische Bilder bis zur Anpassung von Posen in Figuren-Darstellungen.

Verwandte Begriffe