Neuronale Netzwerkarchitektur mit Faltungsoperationen, besonders geeignet für Bild- und Signalverarbeitung.
CNNs nutzen Faltungsfilter, die lokal über die Eingabe gleiten und Muster wie Kanten, Texturen oder Formen erkennen. Die gewichtgeteilten Filter reduzieren die Parameteranzahl gegenüber vollverbundenen Netzen stark.
Pooling-Schichten reduzieren die räumliche Auflösung und machen das Netz translationsinvariant. Tiefe CNNs lernen hierarchisch: frühe Schichten erkennen einfache Merkmale, späte Schichten komplexe Objekte.
In multimodalen Modellen werden CNN-basierte Feature-Extraktoren häufig mit Transformer-Decoder kombiniert, um Bilder in Textbeschreibungen umzuwandeln oder visuelles Frage-Antwort-Spiele zu ermöglichen.
Teilbereich des maschinellen Lernens, der tiefe neuronale Netze mit vielen Schichten einsetzt.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.
Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.