Zum Glossar
Training

Direct Preference Optimization (DPO)

RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.

DPO vereinfacht das RLHF-Training, indem es das Belohnungsmodell und den RL-Optimierungsschritt durch eine einfachere Verlustfunktion ersetzt, die direkt auf Präferenzpaaren trainiert.

Für jedes Trainingsbeispiel liegen eine bevorzugte und eine abgelehnte Antwort vor. DPO maximiert die relative Wahrscheinlichkeit der bevorzugten Antwort gegenüber der abgelehnten.

DPO ist stabiler und recheneffizienter als klassisches RLHF. Es hat sich als beliebte Alternative etabliert, auch wenn RLHF bei sehr großen Modellen oft noch leistungsfähiger ist.

Verwandte Begriffe