RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.
DPO vereinfacht das RLHF-Training, indem es das Belohnungsmodell und den RL-Optimierungsschritt durch eine einfachere Verlustfunktion ersetzt, die direkt auf Präferenzpaaren trainiert.
Für jedes Trainingsbeispiel liegen eine bevorzugte und eine abgelehnte Antwort vor. DPO maximiert die relative Wahrscheinlichkeit der bevorzugten Antwort gegenüber der abgelehnten.
DPO ist stabiler und recheneffizienter als klassisches RLHF. Es hat sich als beliebte Alternative etabliert, auch wenn RLHF bei sehr großen Modellen oft noch leistungsfähiger ist.
Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.
Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.
Mathematische Funktion, die den Fehler zwischen Modellvorhersage und tatsächlichem Zielwert misst.