Verbindung, die den Eingang einer Schicht direkt zum Ausgang addiert und tiefe Netze trainierbar macht.
Residualverbindungen leiten den Eingang einer Netzwerkschicht unter Umgehung der Schicht direkt zum Ausgang weiter und addieren beide. Das Netz lernt damit nur die Restfunktion, nicht die volle Transformation.
Diese Technik löst das Problem verschwindender Gradienten in sehr tiefen Netzen. ResNets mit Hunderten von Schichten konnten dadurch trainiert werden, wo vorher das Training instabil wurde.
Im Transformer sind Residualverbindungen um jede Attention- und Feed-Forward-Sublayer herum angeordnet. Zusammen mit Layer-Normalisierung ermöglichen sie das Training von Modellen mit Tausenden von Schichten.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Teilbereich des maschinellen Lernens, der tiefe neuronale Netze mit vielen Schichten einsetzt.
Vom Gehirn inspiriertes Berechnungsmodell aus verbundenen Knoten, das Funktionen aus Daten approximiert.
Algorithmus zur effizienten Berechnung von Gradienten in neuronalen Netzen mittels Kettenregel.