Grundlagen

Gradientenabstieg (Gradient Descent)

Optimierungsverfahren, das Modellparameter iterativ in Richtung des steilsten Fehlerabfalls aktualisiert.

Gradientenabstieg minimiert eine Verlustfunktion, indem er den Gradienten berechnet und die Parameter entgegengesetzt zur Gradientenrichtung verschiebt. Die Schrittweite heißt Lernrate.

Stochastischer Gradientenabstieg (SGD) berechnet Gradienten auf kleinen Minibatches statt dem gesamten Datensatz. Das reduziert den Speicherbedarf und beschleunigt das Training erheblich.

Moderne Optimierer wie Adam kombinieren adaptive Lernraten mit Impuls-Methoden. Sie konvergieren in der Regel schneller und stabiler als einfacher SGD.

Gradientenabstieg (Gradient Descent)

Verwandte Begriffe

Gradientenabstieg (Gradient Descent)

Verwandte Begriffe