KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
Text-to-Image-Modelle erzeugen Bilder aus natürlichsprachlichen Beschreibungen. Die Qualität moderner Systeme ist so hoch, dass die Bilder auf den ersten Blick kaum von Fotografien zu unterscheiden sind.
Diffusionsmodelle dominieren den Bereich, aber auch autoregressive Ansätze werden weiterentwickelt. Die Modelle lernen, den visuellen Inhalt eines Textes durch gemeinsames Bild-Text-Training zu verstehen.
Urheberrecht, Deepfakes und die Verwendung von Trainingsdaten ohne Zustimmung der Urheber sind zentrale ethische und rechtliche Diskussionen rund um diese Technologie.
Open-Source-Bildgenerierungsmodell auf Basis latenter Diffusion, das Text in Bilder umwandelt.
Generatives Modell, das Daten durch schrittweises Entrauschen aus zufälligem Rauschen erzeugt.
Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.
Erweiterung für Diffusionsmodelle, die präzise visuelle Kontrolle durch strukturelle Eingaben ermöglicht.