Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.
GPUs wurden ursprünglich für Grafikanwendungen entwickelt, erwiesen sich aber als ideal für die massiv parallelen Matrixoperationen des Deep Learnings. Heutige KI-GPUs sind speziell für Tensor-Operationen optimiert.
Der Speicher (VRAM) ist oft der limitierende Faktor: Große Modelle und Batches erfordern Dutzende oder Hunderte Gigabyte. Multi-GPU-Training mit Techniken wie Tensor- und Pipeline-Parallelismus ist für sehr große Modelle nötig.
NVIDIA dominiert den Markt durch die CUDA-Plattform, die eine breite Ökosystem-Kompatibilität bietet. AMD, Intel und spezialisierte KI-Chips streben zunehmend in diesen Markt.
Von Google entwickelter Spezialbeschleuniger, optimiert für Tensor-Operationen in neuronalen Netzen.
Hochperformantes Inferenz-Framework für LLMs mit Paged Attention und effizienter Batch-Verarbeitung.
Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.
Reduktion der numerischen Präzision von Modellgewichten, um Speicher und Rechenaufwand zu verringern.