Alignment (KI-Ausrichtung)
Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.
Alignment beschäftigt sich mit der Frage, wie KI-Systeme so gebaut werden können, dass sie das tun, was Menschen beabsichtigen, und nicht nur das, wofür sie formal optimiert wurden.
Kurzfristige Alignment-Methoden wie RLHF und Constitutional AI zeigen Erfolge bei der Anpassung heutiger Modelle an menschliche Präferenzen. Langfristige Alignment-Forschung befasst sich mit viel leistungsfähigeren zukünftigen Systemen.
Das Alignment-Problem beinhaltet technische und philosophische Fragen gleichermaßen: Wie spezifiziert man menschliche Werte formal? Wie verhindert man Reward Hacking und Mesa-Optimierung?
Verwandte Begriffe
- Reinforcement Learning from Human Feedback (RLHF)
Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
- Guardrails (Leitplanken)
Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.
- Red-Teaming
Strukturierte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe und adversariale Tests.