Training

Direct Preference Optimization (DPO)

RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.

DPO vereinfacht das RLHF-Training, indem es das Belohnungsmodell und den RL-Optimierungsschritt durch eine einfachere Verlustfunktion ersetzt, die direkt auf Präferenzpaaren trainiert.

Für jedes Trainingsbeispiel liegen eine bevorzugte und eine abgelehnte Antwort vor. DPO maximiert die relative Wahrscheinlichkeit der bevorzugten Antwort gegenüber der abgelehnten.

DPO ist stabiler und recheneffizienter als klassisches RLHF. Es hat sich als beliebte Alternative etabliert, auch wenn RLHF bei sehr großen Modellen oft noch leistungsfähiger ist.

Direct Preference Optimization (DPO)

Verwandte Begriffe

Direct Preference Optimization (DPO)

Verwandte Begriffe