Architektur

Residualverbindung (Skip Connection)

Verbindung, die den Eingang einer Schicht direkt zum Ausgang addiert und tiefe Netze trainierbar macht.

Residualverbindungen leiten den Eingang einer Netzwerkschicht unter Umgehung der Schicht direkt zum Ausgang weiter und addieren beide. Das Netz lernt damit nur die Restfunktion, nicht die volle Transformation.

Diese Technik löst das Problem verschwindender Gradienten in sehr tiefen Netzen. ResNets mit Hunderten von Schichten konnten dadurch trainiert werden, wo vorher das Training instabil wurde.

Im Transformer sind Residualverbindungen um jede Attention- und Feed-Forward-Sublayer herum angeordnet. Zusammen mit Layer-Normalisierung ermöglichen sie das Training von Modellen mit Tausenden von Schichten.

Residualverbindung (Skip Connection)

Verwandte Begriffe

Residualverbindung (Skip Connection)

Verwandte Begriffe