Multimodal

Text-to-Image

KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.

Text-to-Image-Modelle erzeugen Bilder aus natürlichsprachlichen Beschreibungen. Die Qualität moderner Systeme ist so hoch, dass die Bilder auf den ersten Blick kaum von Fotografien zu unterscheiden sind.

Diffusionsmodelle dominieren den Bereich, aber auch autoregressive Ansätze werden weiterentwickelt. Die Modelle lernen, den visuellen Inhalt eines Textes durch gemeinsames Bild-Text-Training zu verstehen.

Urheberrecht, Deepfakes und die Verwendung von Trainingsdaten ohne Zustimmung der Urheber sind zentrale ethische und rechtliche Diskussionen rund um diese Technologie.

Text-to-Image

Verwandte Begriffe