【XM经纪商】谷歌(GOOGL.US)新一代TPU即将发布:AI推理时代向英伟达发起关键一击
在AI算力战场从训练全面转向推理之际,谷歌(GOOGL.US)正准备打出关键一击。智通财经APP获悉,该公司计划在本周于拉斯维加斯举行的Google Cloud Next大会上,宣布其新一代定制化AI芯片——张量处理单元(TPU)。负责谷歌AI算力基础设施和芯片研发工作的Amin Vahdat拒绝就一款能够加快AI输出速度的推理芯片计划置评,但表示,在“相对不久的将来”很可能会分享更多信息。
这一信号释放的背景是,全球AI算力竞争正在发生结构性转移——从以模型训练为核心,转向以大规模推理为主导。随着AI应用软件与AI智能体(AI Agent)采用规模激增,衡量算力的标准正从“峰值性能”,转向“单位token成本、延迟与能效”。而这恰恰是以TPU为代表的AI ASIC路线最具优势的领域。
TPU加速出圈:谷歌向英伟达算力霸权发起实质冲击
在上述趋势之下,谷歌正试图以自研TPU体系,对当前占据AI芯片市场约80%至90%份额的英伟达发起正面挑战。
短短几个月内,谷歌独家研发并在谷歌数据中心大规模配置的TPU AI芯片已成为全球科技行业最炙手可热的商品之一。包括这家科技公司的一些最大规模竞争对手在内的领先人工智能技术开发商们,正纷纷囤积这些芯片。紧随AI推理时代全面到来,在云端AI推理算力需求激增以及聚焦将AI大模型嵌入企业经营的“AI微训练”趋势之下,性价比更高的谷歌独家TPU AI算力系统对于英伟达近乎90%市场份额的AI芯片垄断地位发起强有力冲击。
如今,这家Alphabet Inc.旗下科技巨头希望通过即将推出的专用于AI推理浪潮的新型AI加速器芯片,在现有增长势头上继续加码。
席卷全球的生成式AI与AI智能体布局热潮加快了云计算与芯片巨头们的AI芯片开发进程,它们正争相为先进的大型AI数据中心设计速度最快且能效最为强劲的AI算力基础设施集群。博通及其最大竞争对手迈威尔公司主要聚焦于利用自身在高速互联和芯片IP领域绝对优势来携手亚马逊、谷歌和微软等云计算巨头们共同打造出根据其AI数据中心具体需求量身定制的AI ASIC算力集群,而这项ASIC业务已经成长为两家公司的一项非常重要业务,这也是为何迈威尔与博通股价今年以来股价大涨;比如博通联手谷歌所打造的TPU AI算力集群就是一种最典型的AI ASIC技术路线。
毫无疑问的是,经济性与电力层面的重大约束,迫使微软、亚马逊、谷歌以及Facebook母公司Meta都在推AI ASIC技术路线的云计算内部系统自研AI芯片,核心目的都是为了AI算力集群更具性价比与能效比。
类似“星际之门”的超大规模AI数据中心建设成本高昂,因此科技巨头们愈发要求AI算力系统趋于经济性,以及电力约束之下,科技巨头力争把“单位Token成本、单位瓦特产出”做到极致,属于AI ASIC技术路线的繁荣盛世可谓已经到来。
此外,类似英伟达Blackwell架构先进AI GPU算力集群的长期供不应求、成本高昂且受制于供应链瓶颈与交付节奏,自研AI ASIC无疑能提供“第二曲线产能”,并在采购谈判、产品定价与云计算服务毛利层面更主动,叠加谷歌、微软等云计算大厂们能把“芯片—互联—系统—编译器/运行时—调度—观测/可靠性”一体化共设计,提高算力基础设施利用率并降低TCO。
英伟达AI GPU几乎垄断的AI训练侧需要更加强大的AI算力集群通用性以及整个算力体系的快速迭代能力,而AI推理侧则在前沿AI技术规模化落地后更看重单位token成本、延迟与能效。比如谷歌明确把Ironwood TPU定位为“为AI推理时代而生”的TPU代际,并强调性能/能效/算力集群性价比与可扩展性。不过亚马逊最新的行动证明了AI ASIC可能具备训练大模型的强大潜力。
AI ASIC算力体系无疑会在中长期持续削弱英伟达的垄断溢价与部分市场份额,而不是线性取代GPU体系,根本的底层原因在于,推理时代的核心竞争不再只是“峰值算力”,而是每token成本、功耗、内存带宽利用率、互连效率,以及软硬件协同后的总拥有成本。在这类指标上,面向特定工作负载定制的数据流、编译器和互连的ASIC,天然比通用GPU更容易做到高性价比。未来AI数据中心更可能发生的是:前沿训练和广义云算力继续由 GPU 主导,超大规模内部推理、Agent 工作流和固定高频负载则加速转向 ASIC,数据中心进入真正的异构算力时代。
一夜成名实则是背后酝酿十年:TPU如何从谷歌内部自用工具变成全球科技行业硬通货
谷歌长期酝酿的芯片努力在去年10月获得了史无前例的关注度,当时Anthropic PBC——坐拥Claude AI大模型的全球最受投资者们密切关注的AI大模型开发商——宣布扩大算力供给协议,获得最多100万个谷歌TPU的使用权。次月,谷歌推出了更加先进的Gemini 3模型,并且宣布该模型在一部分TPU算力平台上完成训练和运行,并收获如潮好评。
自那以来,大型企业对谷歌TPU芯片的需求可谓只增不减。Facebook母公司Meta Platforms Inc.签署了一项为期数年且价值数十亿美元的AI算力基础设施供给协议,通过谷歌云计算平台Google Cloud来使用TPU。Meta基础设施负责人Santosh Janardhan表示,该公司前不久首次获得大量云端TPU AI算力供应,正在测试这些芯片,以评估它们最适合哪些任务。“看起来确实可能存在推理方面的独家优势,”他表示,同时也指出,“任何新平台都不会没有障碍和学习曲线。”
Anthropic还与谷歌的TPU合作伙伴博通签署了一项长期协议,涉及的自研芯片将使其自2027年起能够利用约3.5吉瓦的计算能力。Citadel Securities计划在谷歌大会上展示,TPU如何使该公司比此前使用GPU时更快地训练AI大模型。阿布扎比科技集团G42也已就使用谷歌TPU与谷歌进行了“多次讨论”,该集团旗下的云计算业务部门Core42的临时首席执行官Talal Al Kaissi表示。“我非常看好,”Al Kaissi在谈及这些讨论时说道。
谷歌已经在采取新的步骤,以满足客户当前所处的实际云端AI算力需求。据一位知情人士透露,该公司正在测试允许像Anthropic这样的公司将其部分TPU运行在它们自己的实体大型AI数据中心内,而不是谷歌的云计算基础设施设施中。Vahdat表示,谷歌还已允许TPU客户们使用PyTorch等外部工具,以及其他调度软件,而不再仅仅依赖谷歌自己的产品。
这些变化正在帮助改变外界对这些芯片的看法。它们最初诞生于谷歌自身的人工智能计算瓶颈,长期以来主要被认为是为了满足公司自身需求而长期自用。
在谷歌首席科学家Dean开始构建一个更早期的AI软件超级系统,以便让人们使用语言翻译和语音识别服务之后,他也精准意识到,即使是谷歌,也无法负担使用现有芯片和其他硬件基础设施来提供这类服务的成本,这也是为何谷歌即便拥有了自有TPU算力体系仍在加码购置英伟达AI计算与广泛通用级别的AI GPU算力体系。与此同时,谷歌在AI方面依赖的中央处理器性能改进/提升速度也在放缓。
该公司决定,应当打造一种AI计算加速器,聚焦于一组更窄的任务,而这些任务可能会在AI领域产生最高昂的账单。Vahdat表示,TPU背后的关键理念在于,它“解决的是少数几个问题,但这些问题所需的其他计算量或者通用计算量却极其庞大”。Vahdat曾是计算机科学教授,并在推动谷歌采用有助于将TPU连接为超级计算机的光交换机(即OCS光路交换机体系)方面,早期发挥了关键作用。“当时的传统观念是,你不需要去构建专用硬件。”
这些年来,谷歌的TPU一直与其AI研究工作同步演进。2017年谷歌的一篇开创性研究论文催生了今天的大语言模型,也推动TPU团队将重点放在为训练更大型AI系统而设计的芯片上。后来,Google DeepMind与芯片团队注意到,当TPU用于强化学习之时——一种用于提升AI系统在特定任务上实际表现的流行方法,TPU往往有过多空闲。TPU团队于是调整了各种半导体之间的网络连接方式,以加快数据流动,避免芯片闲置。
这种动态调整在今天仍在继续,因为谷歌正在权衡应在单个pod中连接多少颗芯片,或者硬件是否可以降低精度以节省成本。“很多这类事情都是由AI大模型实验来指导的,”Hassabis表示。展望未来,他非常希望TPU研究团队考虑打造一种适用于网络边缘场景的加速器——即将芯片放置在更接近用户的位置,而不是通过云端访问,以进一步降低时延。
在这一过程中,谷歌还构建了内部的独家AI校验系统,以更快发现制造缺陷,因为这些缺陷可能会对应用软件端造成不成比例的巨大影响。整个计算体系与处理海量数学运算的AI加速芯片深度合作时,即便是一个细微故障,也可能迅速扩散并导致模型“彻底自我毁灭”,谷歌杰出科学家、Gemini基础设施团队联合负责人Paul Barham表示。他表示,谷歌大约两年前就发生过这样的问题,花了数周时间才理清到底发生了什么,并将其形容为“来自地狱的漏洞”。
“我们现在必须在10秒钟内,针对数十万颗加速器芯片完成这项工作,”他说。
史无前例AI推理热潮之下的终极难题:供给、技术路线与“技术孤岛”风险
尽管在AI大模型开发方面拥有极度丰富经验,谷歌仍面临与英伟达、AMD以及博通等其他Fabless芯片巨头们类似的挑战:芯片从开始到完成开发通常需要大约三年时间,但AI大模型演进的速度要快得多。这使得预测客户几年后会想要什么变得困难。
“如果有人声称他们知道Gemini 10会是什么样子,我只会说,‘请把你刚刚抽的东西也给我来一点。’”Ranganathan说道。
Barham也担心,AI模型创造者们与硬件设计者们之间紧密的反馈回路,存在错过新想法的风险。他表示,这里存在“这样一种循环,会把你困在当前软件和硬件运作良好的模式里”。
Gradient Canopy,这座建筑位于谷歌山景城园区,谷歌的AI专家和芯片设计师经常在这里会面并分享想法。为了在其中取得平衡,TPU算力系统研发团队有时会力求让芯片对各种用途都“足够好”,即便它对每一种用途都不是完美的。Vahdat表示,另一种选择是规划两种不同的设计。它们未必都会出货,但如果各自的使用场景足够有吸引力,也有可能都会出货。
随着谷歌芯片越来越受欢迎,该公司面临着与英伟达类似的供应限制。一位初创公司高管以匿名方式表示,为了讨论内部事务,他们公司对TPU的使用一直受到供给可得性的限制,并抱怨谷歌实际上把所有可立即获得的TPU AI芯片都给了Anthropic。
“在很大程度上,我们确实是在把现有的供给优先倾向于那些更精英的团队,因为显然,这些团队或许最能把TPU最擅长的事情发挥到极致,”Hassabis在提到那些顶级AI公司时说道。未来,谷歌还需要决定如何在其自身不断增长的竞争性质AI大模型基础设施服务,以及其不断扩大的客户名单之间分配TPU。
“只为谷歌独家制造TPU确实有一些好处,但也存在实质性的缺点,”Vahdat表示。“最终你会走上我们所说的‘技术孤岛’。那也许是一座美丽的岛,但它的人口会受限,多样性也会受限。到头来,它很可能会变得不那么好。”