Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.
Alignment beschäftigt sich mit der Frage, wie KI-Systeme so gebaut werden können, dass sie das tun, was Menschen beabsichtigen, und nicht nur das, wofür sie formal optimiert wurden.
Kurzfristige Alignment-Methoden wie RLHF und Constitutional AI zeigen Erfolge bei der Anpassung heutiger Modelle an menschliche Präferenzen. Langfristige Alignment-Forschung befasst sich mit viel leistungsfähigeren zukünftigen Systemen.
Das Alignment-Problem beinhaltet technische und philosophische Fragen gleichermaßen: Wie spezifiziert man menschliche Werte formal? Wie verhindert man Reward Hacking und Mesa-Optimierung?
Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.
Strukturierte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe und adversariale Tests.