Safety

Alignment (KI-Ausrichtung)

Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.

Alignment beschäftigt sich mit der Frage, wie KI-Systeme so gebaut werden können, dass sie das tun, was Menschen beabsichtigen, und nicht nur das, wofür sie formal optimiert wurden.

Kurzfristige Alignment-Methoden wie RLHF und Constitutional AI zeigen Erfolge bei der Anpassung heutiger Modelle an menschliche Präferenzen. Langfristige Alignment-Forschung befasst sich mit viel leistungsfähigeren zukünftigen Systemen.

Das Alignment-Problem beinhaltet technische und philosophische Fragen gleichermaßen: Wie spezifiziert man menschliche Werte formal? Wie verhindert man Reward Hacking und Mesa-Optimierung?

Alignment (KI-Ausrichtung)

Verwandte Begriffe

Alignment (KI-Ausrichtung)

Verwandte Begriffe