KI-System, das aus Textbeschreibungen kurze Videosequenzen generiert.
Text-to-Video erweitert die Bildgenerierung auf die zeitliche Dimension: Modelle müssen nicht nur einzelne Frames kohärent erzeugen, sondern auch konsistente Bewegungen und Übergänge über die Zeit.
Die Herausforderungen sind erheblich größer als bei Bildern: Physikalische Plausibilität, Objektkonsistenz über Frames hinweg und die zeitliche Kohärenz stellen hohe Anforderungen an Modell und Rechenleistung.
Frühe Systeme erzeugten kurze, qualitativ beschränkte Clips; neuere Modelle erreichen beeindruckende Qualität für kurze Sequenzen. Längere, vollständig kohärente Videos bleiben eine offene Herausforderung.
KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
Generatives Modell, das Daten durch schrittweises Entrauschen aus zufälligem Rauschen erzeugt.
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.
Mathematischer Prozess, der Daten schrittweise verrauscht und dessen Umkehrung zur Generierung genutzt wird.