Training

Reinforcement Learning from Human Feedback (RLHF)

Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.

RLHF besteht typischerweise aus drei Phasen: SFT für Grundverhalten, Training eines Belohnungsmodells aus menschlichen Vergleichen und schließlich Optimierung des Sprachmodells mit RL gegen dieses Belohnungsmodell.

Das Belohnungsmodell lernt, menschliche Präferenzen zu approximieren. Es bewertet Modellantworten und liefert das Signal, das der RL-Algorithmus wie PPO zur Modelloptimierung nutzt.

RLHF hat maßgeblich dazu beigetragen, dass Sprachmodelle hilfreicher, harmloser und ehrlicher wurden. Es hat aber auch Schwächen: Das Belohnungsmodell kann gehackt werden, was zu Reward Hacking führt.

Reinforcement Learning from Human Feedback (RLHF)

Verwandte Begriffe

Reinforcement Learning from Human Feedback (RLHF)

Verwandte Begriffe