ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Training

Synthetische Daten

Künstlich erzeugte Trainingsdaten, oft von Sprachmodellen generiert, um reale Daten zu ergänzen oder ersetzen.

Synthetische Daten werden von Modellen oder Simulatoren erzeugt, wenn reale Daten knapp, teuer oder datenschutzrelevant sind. Sprachmodelle können damit ihren eigenen Trainingsdatensatz erweitern.

Qualitätskontrolle ist entscheidend: Ohne Filterung können synthetische Daten Fehler und Halluzinationen des Generatormodells verstärken. Sorgfältige Validierung gegen reale Verteilungen ist nötig.

Self-play und iterative Verfeinerung, bei denen Modelle ihre eigenen Ausgaben kritisieren und verbessern, sind vielversprechende Ansätze für hochqualitative synthetische Daten.

Verwandte Begriffe

  • Pretraining (Vortraining)

    Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.

  • Supervised Fine-Tuning (SFT)

    Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.

  • Wissendestillation (Distillation)

    Training eines kleinen Schülermodells mithilfe der weichen Ausgaben eines großen Lehrermodells.

  • Halluzination

    Tendenz von Sprachmodellen, plausibel klingende, aber faktisch falsche Informationen zu generieren.