谷歌推出两款全新TPU芯片，驱动AI训练与推理新浪潮

张

张建站

2026/4/23 16:27:19

10分钟阅读

谷歌有限责任公司在2026年谷歌云Next大会上发布了两款专为人工智能设计的定制芯片推出了分别面向训练与推理任务的两种张量处理器TPU架构第八代TPU 8t与TPU 8i。谷歌表示这两款芯片的设计初衷是应对下一代AI工作负载并针对市场上不同的需求进行了明确分工。AI计算主要涉及两大核心任务构建模型与运行模型。随着AI智能体的快速兴起市场对于能够承担推理任务大脑角色的强大AI模型以及支撑其在云端运行的高性能硬件需求持续攀升。前一代芯片Ironwood TPU被定位为推理时代的单一旗舰平台而谷歌此次将最新一代芯片拆分为两种独立架构分别专注于大规模训练与高并发推理以支撑智能体时代的到来。TPU 8t重塑AI训练体验谷歌表示TPU 8t专为大规模预训练和嵌入密集型工作负载而优化采用3D环形网络拓扑结构谷歌称这一技术已在更大规模的芯片网络中验证了良好的扩展性。与上一代相比TPU 8t可在单个集群中连接9600块芯片而Ironwood仅支持9216块。TPU 8t配备了SparseCore专用加速器能够处理大语言模型查找过程中常见的不规则内存访问问题同时支持原生四位浮点运算以突破内存带宽优化瓶颈。这使得训练速度更快模型压缩效果更佳在保持精度的同时吞吐量提升一倍内存占用显著降低。通过一种称为量化的技术降低每个参数所需的比特数可以在性能较低的系统上运行更大的模型从而降低能耗、缩小本地硬件占用空间并实现更高的利用率峰值。谷歌表示此次目标是以更低成本抢占训练市场。谷歌声称在大规模训练场景下TPU 8t相较于Ironwood TPU的每美元性能提升幅度高达2.7倍。TPU 8i加速模型部署落地模型训练完成并准备就绪后便需要投入实际使用这正是推理发挥作用的场景也是谷歌认为TPU 8i大放异彩之处。TPU 8i通过高带宽内存与专用网络拓扑专注于训练后优化与高并发推理助力大型模型高效服务。TPU 8i搭载的静态随机存取内存容量是Ironwood的三倍可在大语言模型推理时缓存更大的键值对从而显著加速文本生成。此外谷歌还构建了一套名为Collectives Acceleration Engine的推理系统专门处理自回归解码与思维链过程中所需的规约与同步步骤。为了将更多芯片互联并构建一个所有芯片均可互见的系统谷歌开发了名为Boardfly ICI的定制网络拓扑结构最多可互联1152块芯片。通过缩短网络直径和数据包穿越系统所需的跳转次数有效降低网络延迟。谷歌表示这一设计将全对全通信所需的跳转次数整体降低了多达50%而全对全通信对于混合专家架构大语言模型及推理模型的推理任务至关重要。在成本方面谷歌表示TPU 8i在低延迟目标下尤其是在服务超大规模混合专家前沿模型时相较于Ironwood的每美元性能提升幅度约为80%。谷歌补充称两款芯片相较于上一代产品每瓦性能均提升了一倍。QAQ1TPU 8t和TPU 8i有什么区别分别适用于哪些场景ATPU 8t专为大规模AI模型训练设计采用3D环形网络拓扑支持9600块芯片互联并内置SparseCore加速器和四位浮点运算适合预训练和嵌入密集型任务。TPU 8i则专注于模型推理场景配备三倍于Ironwood的静态随机存取内存并搭载Collectives Acceleration Engine推理系统适合高并发、低延迟的大语言模型服务。Q2TPU 8i的Boardfly ICI网络拓扑有什么作用ABoardfly ICI是谷歌为TPU 8i专门开发的定制网络拓扑结构最多可将1152块芯片互联成一个整体系统。其核心优势在于通过缩短网络直径和减少数据传输的跳转次数来降低延迟并将全对全通信所需跳转次数整体降低多达50%这对于混合专家架构大语言模型的推理任务尤为关键。Q3TPU 8t相比上一代Ironwood TPU在性能和成本上有哪些提升A在性能方面TPU 8t支持的单集群芯片互联数量从9216块提升至9600块吞吐量翻倍同时内存占用更小。在成本效益方面谷歌声称TPU 8t在大规模训练场景下每美元性能提升高达2.7倍。此外TPU 8t的每瓦性能也比Ironwood提升了一倍有助于降低整体能耗成本。

别再傻傻分不清了！电工老师傅教你一眼看懂三相电和单相电的区别（附接线图）

电工实战指南：一眼识别三相电与单相电的7个关键特征刚接触强电的新手常被配电箱里错综复杂的线路搞得晕头转向——红色、黄色、绿色的电线纠缠在一起，配电柜里标着L1、L2、L3的端子排闪着冷光，而师傅们口中"三相平衡""星三角…...

2026/4/23 16:22:19 阅读更多 →

别再让小车乱跑了！手把手教你用STM32和TB6612驱动麦克纳姆轮实现精准平移

STM32与TB6612驱动的麦克纳姆轮精准控制实战指南麦克纳姆轮因其独特的全向移动能力，在机器人竞赛和自动化项目中越来越受欢迎。然而许多初学者在实现精准控制时常常遇到小车打滑、跑偏等问题。本文将深入分析这些问题的根源，并提供一套从理论到实践的完…...

2026/4/23 16:20:18 阅读更多 →

打造企业级网络监控：自定义插件开发终极指南

打造企业级网络监控：自定义插件开发终极指南【免费下载链接】SmokePing The Active Monitoring System 项目地址: https://gitcode.com/gh_mirrors/smo/SmokePing 在当今复杂的网络环境中，构建可靠的自定义网络监控插件已成为技术团队的核心竞争…...

2026/4/23 16:19:19 阅读更多 →