ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Training

Reinforcement Learning from Human Feedback (RLHF)

Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.

RLHF besteht typischerweise aus drei Phasen: SFT für Grundverhalten, Training eines Belohnungsmodells aus menschlichen Vergleichen und schließlich Optimierung des Sprachmodells mit RL gegen dieses Belohnungsmodell.

Das Belohnungsmodell lernt, menschliche Präferenzen zu approximieren. Es bewertet Modellantworten und liefert das Signal, das der RL-Algorithmus wie PPO zur Modelloptimierung nutzt.

RLHF hat maßgeblich dazu beigetragen, dass Sprachmodelle hilfreicher, harmloser und ehrlicher wurden. Es hat aber auch Schwächen: Das Belohnungsmodell kann gehackt werden, was zu Reward Hacking führt.

Verwandte Begriffe

  • Supervised Fine-Tuning (SFT)

    Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.

  • Direct Preference Optimization (DPO)

    RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.

  • Bestärkendes Lernen (Reinforcement Learning)

    Lernparadigma, bei dem ein Agent durch Belohnungssignale lernt, optimale Entscheidungsstrategien zu entwickeln.

  • Alignment (KI-Ausrichtung)

    Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.