Multimodal

Speech-to-Text (STT)

Technologie zur automatischen Transkription gesprochener Sprache in Text.

Moderne STT-Systeme nutzen transformer-basierte Architekturen und erreichen Fehlerraten, die menschliche Transkriptionsleistungen annähern oder übertreffen. Whisper von OpenAI ist ein bekanntes Beispiel.

Herausforderungen bleiben bei starken Akzenten, schlechten Audioqualitäten, Dialekten und domänenspezifischem Vokabular. Feinabgestimmte Modelle sind hier deutlich besser als allgemeine.

STT ist die Eingabeschicht für viele KI-Anwendungen, von Sprachassistenten bis zu automatischen Untertitelsystemen. Echtzeit-Transkription mit niedrigen Latenzen erfordert speziell optimierte Modelle.

Speech-to-Text (STT)

Verwandte Begriffe