ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Multimodal

Text-to-Speech (TTS)

Technologie zur Umwandlung von Text in natürlich klingende Sprachausgabe.

Moderne TTS-Systeme nutzen neuronale Netze, um täuschend echte Stimmen zu erzeugen. Sie können Intonation, Pausen und Emotionen modellieren und klingen kaum noch mechanisch.

Voice Cloning erlaubt es, mit wenigen Sekunden Referenzaudio eine beliebige Stimme zu klonen. Das eröffnet kreative Möglichkeiten, hat aber auch erhebliche Missbrauchspotenziale.

TTS ist ein wichtiger Baustein für barrierefreie Anwendungen, Sprachassistenten und multimodale KI-Interfaces. Latenz und Natürlichkeit sind die wichtigsten Qualitätsmetriken.

Verwandte Begriffe

  • Speech-to-Text (STT)

    Technologie zur automatischen Transkription gesprochener Sprache in Text.

  • Multimodal

    KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.

  • Text-to-Video

    KI-System, das aus Textbeschreibungen kurze Videosequenzen generiert.

  • Edge Inference

    Ausführung von KI-Modellen direkt auf Endgeräten ohne Verbindung zu Cloud-Servern.