Multimodal

Text-to-Speech (TTS)

Technologie zur Umwandlung von Text in natürlich klingende Sprachausgabe.

Moderne TTS-Systeme nutzen neuronale Netze, um täuschend echte Stimmen zu erzeugen. Sie können Intonation, Pausen und Emotionen modellieren und klingen kaum noch mechanisch.

Voice Cloning erlaubt es, mit wenigen Sekunden Referenzaudio eine beliebige Stimme zu klonen. Das eröffnet kreative Möglichkeiten, hat aber auch erhebliche Missbrauchspotenziale.

TTS ist ein wichtiger Baustein für barrierefreie Anwendungen, Sprachassistenten und multimodale KI-Interfaces. Latenz und Natürlichkeit sind die wichtigsten Qualitätsmetriken.

Text-to-Speech (TTS)

Verwandte Begriffe