Optimierungsverfahren, das Modellparameter iterativ in Richtung des steilsten Fehlerabfalls aktualisiert.
Gradientenabstieg minimiert eine Verlustfunktion, indem er den Gradienten berechnet und die Parameter entgegengesetzt zur Gradientenrichtung verschiebt. Die Schrittweite heißt Lernrate.
Stochastischer Gradientenabstieg (SGD) berechnet Gradienten auf kleinen Minibatches statt dem gesamten Datensatz. Das reduziert den Speicherbedarf und beschleunigt das Training erheblich.
Moderne Optimierer wie Adam kombinieren adaptive Lernraten mit Impuls-Methoden. Sie konvergieren in der Regel schneller und stabiler als einfacher SGD.
Algorithmus zur effizienten Berechnung von Gradienten in neuronalen Netzen mittels Kettenregel.
Mathematische Funktion, die den Fehler zwischen Modellvorhersage und tatsächlichem Zielwert misst.
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.
Teilgebiet der KI, in dem Modelle Muster aus Daten lernen, ohne explizit programmiert zu werden.