谷歌有限责任公司在2026年谷歌云Next大会上发布了两款专为人工智能设计的定制芯片推出了分别面向训练与推理任务的两种张量处理器TPU架构第八代TPU 8t与TPU 8i。谷歌表示这两款芯片的设计初衷是应对下一代AI工作负载并针对市场上不同的需求进行了明确分工。AI计算主要涉及两大核心任务构建模型与运行模型。随着AI智能体的快速兴起市场对于能够承担推理任务大脑角色的强大AI模型以及支撑其在云端运行的高性能硬件需求持续攀升。前一代芯片Ironwood TPU被定位为推理时代的单一旗舰平台而谷歌此次将最新一代芯片拆分为两种独立架构分别专注于大规模训练与高并发推理以支撑智能体时代的到来。TPU 8t重塑AI训练体验谷歌表示TPU 8t专为大规模预训练和嵌入密集型工作负载而优化采用3D环形网络拓扑结构谷歌称这一技术已在更大规模的芯片网络中验证了良好的扩展性。与上一代相比TPU 8t可在单个集群中连接9600块芯片而Ironwood仅支持9216块。TPU 8t配备了SparseCore专用加速器能够处理大语言模型查找过程中常见的不规则内存访问问题同时支持原生四位浮点运算以突破内存带宽优化瓶颈。这使得训练速度更快模型压缩效果更佳在保持精度的同时吞吐量提升一倍内存占用显著降低。通过一种称为量化的技术降低每个参数所需的比特数可以在性能较低的系统上运行更大的模型从而降低能耗、缩小本地硬件占用空间并实现更高的利用率峰值。谷歌表示此次目标是以更低成本抢占训练市场。谷歌声称在大规模训练场景下TPU 8t相较于Ironwood TPU的每美元性能提升幅度高达2.7倍。TPU 8i加速模型部署落地模型训练完成并准备就绪后便需要投入实际使用这正是推理发挥作用的场景也是谷歌认为TPU 8i大放异彩之处。TPU 8i通过高带宽内存与专用网络拓扑专注于训练后优化与高并发推理助力大型模型高效服务。TPU 8i搭载的静态随机存取内存容量是Ironwood的三倍可在大语言模型推理时缓存更大的键值对从而显著加速文本生成。此外谷歌还构建了一套名为Collectives Acceleration Engine的推理系统专门处理自回归解码与思维链过程中所需的规约与同步步骤。为了将更多芯片互联并构建一个所有芯片均可互见的系统谷歌开发了名为Boardfly ICI的定制网络拓扑结构最多可互联1152块芯片。通过缩短网络直径和数据包穿越系统所需的跳转次数有效降低网络延迟。谷歌表示这一设计将全对全通信所需的跳转次数整体降低了多达50%而全对全通信对于混合专家架构大语言模型及推理模型的推理任务至关重要。在成本方面谷歌表示TPU 8i在低延迟目标下尤其是在服务超大规模混合专家前沿模型时相较于Ironwood的每美元性能提升幅度约为80%。谷歌补充称两款芯片相较于上一代产品每瓦性能均提升了一倍。QAQ1TPU 8t和TPU 8i有什么区别分别适用于哪些场景ATPU 8t专为大规模AI模型训练设计采用3D环形网络拓扑支持9600块芯片互联并内置SparseCore加速器和四位浮点运算适合预训练和嵌入密集型任务。TPU 8i则专注于模型推理场景配备三倍于Ironwood的静态随机存取内存并搭载Collectives Acceleration Engine推理系统适合高并发、低延迟的大语言模型服务。Q2TPU 8i的Boardfly ICI网络拓扑有什么作用ABoardfly ICI是谷歌为TPU 8i专门开发的定制网络拓扑结构最多可将1152块芯片互联成一个整体系统。其核心优势在于通过缩短网络直径和减少数据传输的跳转次数来降低延迟并将全对全通信所需跳转次数整体降低多达50%这对于混合专家架构大语言模型的推理任务尤为关键。Q3TPU 8t相比上一代Ironwood TPU在性能和成本上有哪些提升A在性能方面TPU 8t支持的单集群芯片互联数量从9216块提升至9600块吞吐量翻倍同时内存占用更小。在成本效益方面谷歌声称TPU 8t在大规模训练场景下每美元性能提升高达2.7倍。此外TPU 8t的每瓦性能也比Ironwood提升了一倍有助于降低整体能耗成本。