Lernparadigma, bei dem ein Agent durch Belohnungssignale lernt, optimale Entscheidungsstrategien zu entwickeln.
Beim bestärkenden Lernen interagiert ein Agent mit einer Umgebung und erhält für seine Aktionen Belohnungen oder Bestrafungen. Ziel ist es, eine Strategie zu erlernen, die die kumulierte Belohnung über die Zeit maximiert.
Grundlegende Konzepte sind Zustand, Aktion, Belohnung, Politik und Wertfunktion. Algorithmen wie PPO oder Q-Learning haben breite Anwendung gefunden, von Spielen bis zur Robotersteuerung.
Im Kontext von Sprachmodellen wird bestärkendes Lernen über RLHF eingesetzt, um Modelle an menschliche Präferenzen anzupassen und sichereres, hilfreicheres Verhalten zu fördern.
Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.
Teilgebiet der KI, in dem Modelle Muster aus Daten lernen, ohne explizit programmiert zu werden.
KI-System, das Aufgaben autonom durch Planung, Werkzeugeinsatz und iteratives Handeln erledigt.