Von Google entwickelter Spezialbeschleuniger, optimiert für Tensor-Operationen in neuronalen Netzen.
TPUs wurden von Google explizit für Deep-Learning-Workloads entworfen. Sie sind in der Google-Cloud-Infrastruktur der primäre Beschleuniger und wurden für das Training großer Modelle wie Gemini eingesetzt.
TPUs sind besonders effizient für große, gleichmäßige Batch-Workloads mit fixer Berechnungsgraph-Struktur. Dynamische Graphen und diverse Operationstypen nutzen ihre Stärken weniger gut aus.
Außerhalb von Google sind TPUs über Google Cloud zugänglich. Die Programmierung erfordert XLA als Compiler, was im Vergleich zum weit verbreiteten CUDA-Ökosystem höhere Einstiegshürden hat.
Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.
Hochperformantes Inferenz-Framework für LLMs mit Paged Attention und effizienter Batch-Verarbeitung.
Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.