Netzwerkarchitektur mit Zustandsspeicher für sequentielle Daten, weitgehend durch Transformer abgelöst.
RNNs verarbeiten Sequenzen schrittweise und halten einen verborgenen Zustand aufrecht, der Information aus vorherigen Zeitschritten kodiert. Sie waren lange der Standard für Sprachmodellierung und maschinelle Übersetzung.
Vanishing Gradients erschwerten das Lernen langer Abhängigkeiten. LSTM und GRU als Erweiterungen lösten dieses Problem durch Gating-Mechanismen, die selektiv Information speichern und vergessen.
Seit der Einführung von Transformers wurden RNNs in den meisten NLP-Aufgaben abgelöst. In ressourcenarmen Umgebungen und für Echtzeit-Streaming bleiben sequentielle Architekturen jedoch relevant.
Teilbereich des maschinellen Lernens, der tiefe neuronale Netze mit vielen Schichten einsetzt.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Neuronale Netzwerkarchitektur mit Faltungsoperationen, besonders geeignet für Bild- und Signalverarbeitung.
Maximale Anzahl Token, die ein Sprachmodell in einem Durchlauf verarbeiten und berücksichtigen kann.