Text-to-Speech (TTS)
Technologie zur Umwandlung von Text in natürlich klingende Sprachausgabe.
Moderne TTS-Systeme nutzen neuronale Netze, um täuschend echte Stimmen zu erzeugen. Sie können Intonation, Pausen und Emotionen modellieren und klingen kaum noch mechanisch.
Voice Cloning erlaubt es, mit wenigen Sekunden Referenzaudio eine beliebige Stimme zu klonen. Das eröffnet kreative Möglichkeiten, hat aber auch erhebliche Missbrauchspotenziale.
TTS ist ein wichtiger Baustein für barrierefreie Anwendungen, Sprachassistenten und multimodale KI-Interfaces. Latenz und Natürlichkeit sind die wichtigsten Qualitätsmetriken.
Verwandte Begriffe
- Speech-to-Text (STT)
Technologie zur automatischen Transkription gesprochener Sprache in Text.
- Multimodal
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.
- Text-to-Video
KI-System, das aus Textbeschreibungen kurze Videosequenzen generiert.
- Edge Inference
Ausführung von KI-Modellen direkt auf Endgeräten ohne Verbindung zu Cloud-Servern.