ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Training

Direct Preference Optimization (DPO)

RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.

DPO vereinfacht das RLHF-Training, indem es das Belohnungsmodell und den RL-Optimierungsschritt durch eine einfachere Verlustfunktion ersetzt, die direkt auf Präferenzpaaren trainiert.

Für jedes Trainingsbeispiel liegen eine bevorzugte und eine abgelehnte Antwort vor. DPO maximiert die relative Wahrscheinlichkeit der bevorzugten Antwort gegenüber der abgelehnten.

DPO ist stabiler und recheneffizienter als klassisches RLHF. Es hat sich als beliebte Alternative etabliert, auch wenn RLHF bei sehr großen Modellen oft noch leistungsfähiger ist.

Verwandte Begriffe

  • Reinforcement Learning from Human Feedback (RLHF)

    Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.

  • Supervised Fine-Tuning (SFT)

    Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.

  • Alignment (KI-Ausrichtung)

    Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.

  • Verlustfunktion (Loss Function)

    Mathematische Funktion, die den Fehler zwischen Modellvorhersage und tatsächlichem Zielwert misst.