Bestärkendes Lernen (Reinforcement Learning)
Lernparadigma, bei dem ein Agent durch Belohnungssignale lernt, optimale Entscheidungsstrategien zu entwickeln.
Beim bestärkenden Lernen interagiert ein Agent mit einer Umgebung und erhält für seine Aktionen Belohnungen oder Bestrafungen. Ziel ist es, eine Strategie zu erlernen, die die kumulierte Belohnung über die Zeit maximiert.
Grundlegende Konzepte sind Zustand, Aktion, Belohnung, Politik und Wertfunktion. Algorithmen wie PPO oder Q-Learning haben breite Anwendung gefunden, von Spielen bis zur Robotersteuerung.
Im Kontext von Sprachmodellen wird bestärkendes Lernen über RLHF eingesetzt, um Modelle an menschliche Präferenzen anzupassen und sichereres, hilfreicheres Verhalten zu fördern.
Verwandte Begriffe
- Reinforcement Learning from Human Feedback (RLHF)
Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
- Direct Preference Optimization (DPO)
RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.
- Machine Learning (ML)
Teilgebiet der KI, in dem Modelle Muster aus Daten lernen, ohne explizit programmiert zu werden.
- KI-Agent
KI-System, das Aufgaben autonom durch Planung, Werkzeugeinsatz und iteratives Handeln erledigt.