Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
RLHF besteht typischerweise aus drei Phasen: SFT für Grundverhalten, Training eines Belohnungsmodells aus menschlichen Vergleichen und schließlich Optimierung des Sprachmodells mit RL gegen dieses Belohnungsmodell.
Das Belohnungsmodell lernt, menschliche Präferenzen zu approximieren. Es bewertet Modellantworten und liefert das Signal, das der RL-Algorithmus wie PPO zur Modelloptimierung nutzt.
RLHF hat maßgeblich dazu beigetragen, dass Sprachmodelle hilfreicher, harmloser und ehrlicher wurden. Es hat aber auch Schwächen: Das Belohnungsmodell kann gehackt werden, was zu Reward Hacking führt.
Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.
RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.
Lernparadigma, bei dem ein Agent durch Belohnungssignale lernt, optimale Entscheidungsstrategien zu entwickeln.
Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.