ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Multimodal

Speech-to-Text (STT)

Technologie zur automatischen Transkription gesprochener Sprache in Text.

Moderne STT-Systeme nutzen transformer-basierte Architekturen und erreichen Fehlerraten, die menschliche Transkriptionsleistungen annähern oder übertreffen. Whisper von OpenAI ist ein bekanntes Beispiel.

Herausforderungen bleiben bei starken Akzenten, schlechten Audioqualitäten, Dialekten und domänenspezifischem Vokabular. Feinabgestimmte Modelle sind hier deutlich besser als allgemeine.

STT ist die Eingabeschicht für viele KI-Anwendungen, von Sprachassistenten bis zu automatischen Untertitelsystemen. Echtzeit-Transkription mit niedrigen Latenzen erfordert speziell optimierte Modelle.

Verwandte Begriffe

  • Text-to-Speech (TTS)

    Technologie zur Umwandlung von Text in natürlich klingende Sprachausgabe.

  • Multimodal

    KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.

  • Edge Inference

    Ausführung von KI-Modellen direkt auf Endgeräten ohne Verbindung zu Cloud-Servern.

  • Embedding (Einbettung)

    Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.