五层架构与TPU基础设施的算力跃迁

Sundar Pichai在I/O 2026大会上定调“超速进步”,展示了Google全面转向AI-First战略满十年的成果,其核心是全栈五层架构:AI基础设施层、安全层、顶级研究层、模型和工具层、产品和平台层。最底层的AI基础设施迎来了第八代TPU,首次采用双芯片架构,TPU 8t专精大规模预训练,原始算力比上一代提升接近3倍;TPU 8i专精推理,通过JAX和Pathways重写训练范式,实现跨站点无缝扩展至全球超100万颗TPU。这种架构将原本需数月的训练任务压缩至几周,极大提升了模型构建效率。

在推理性能方面,TPU 8i展现了极低的延迟优势。现场演示中,Flash模型在8i上运行Chrome Dino游戏请求,输出速度接近每秒1500 token,Sundar幽默表示“人类说出请求的时间都比模型响应时间长”。衡量这一进展的客观指标是Token处理量的爆发式增长,以下是Google系产品和API每月处理Token数量的演变数据:

时间节点 每月处理Token数量 增长倍数
两年前 9.7万亿 -
去年I/O大会 480万亿 ~49倍
本届I/O大会 3.2千万亿 7倍

Sundar指出,这一数字背后是Token最大化(Token Maxing)的趋势,说明Google产品及其生态正在被广泛使用。目前Google已有13个用户超10亿的产品,其中5个超30亿。AI Overviews月活达25亿,AI Mode上线一年突破10亿月活,Gemini应用月活9亿,日均请求量在一年内翻了7倍,Nano Banana已生成超过500亿张图像。

Gemini Omni:多模态生成与直觉物理理解

Demis Hassabis登台宣布AGI仅剩几年,并发布了Gemini Omni,定位为能从任意输入生成任意输出的模型,融合了Veo、Nano Banana、Genie等生成式模型能力。Omni的关键突破在于对直觉物理的更深掌握,解决了前几代视频生成系统在动能和重力概念上的缺陷。在演示中,模型通过“用粘土动画风格解释蛋白质折叠”的提示词,生成了从氨基酸链到3D形态的科普动画,画面与解说同步且物理一致性极强

除了生成,Omni强调创作的迭代过程,引入了自然语言对话编辑视频的能力。Demis现场演示将视频中的圆形元素变为黑洞,并改写场景为“傍晚散步”,光线、节奏和环境随之调整。Omni系列首发模型为Gemini Omni Flash,已在Google各产品中可用,Pro版本即将推出。这一进展标志着Google将Gemini推进成一套完整的执行系统,围绕普通人而非仅开发者,实现从理解到行动的跨越。

Gemini 3.5 Flash与Antigravity:Agent编程与极限测试

本届大会重点推出了Gemini 3.5 Flash,其强项在于Agent与编程能力。相比Gemini 3.1 Pro,3.5 Flash在几乎所有基准测试上表现更优,且在速度上占据独一档地位。以下是Gemini 3.5 Flash与Gemini 3.1 Pro在关键基准测试中的性能对比数据:

基准测试名称 Gemini 3.1 Pro 成绩/表现 Gemini 3.5 Flash 成绩/表现 备注
Terminal-Bench 2.1 基准数据 更好 能力全面升级
GDPval-AA 基准数据 更好 能力全面升级
MCP 基准数据 更好 能力全面升级
Atlas 基准数据 更好 能力全面升级
CharXiv Reasoning 基准数据 84.2% 多模态理解

在速度方面,3.5 Flash每秒输出token数量是其他前沿模型的4倍。Google内部已全面启用3.5 Flash配合开发平台Antigravity,每日处理Token量从3月的5000亿飙升至超过3万亿,每几周翻一番。Antigravity 2.0作为全新独立桌面应用,采用Agent-first设计,支持多Agent编排。工程师利用Antigravity 2.0加Gemini 3.5 Flash,在12小时内让93个子Agent并行工作,发起超15000次模型请求,处理26亿Token,从零构建了一个可运行的操作系统内核,API消耗不到1000美元。

极限实操:从零构建OS并运行Doom

为了验证系统的极限,Antigravity创始人Varun Mohan进行了现场实操。他让Agent团队从零编写操作系统,并在完成后尝试运行经典游戏Doom。初次尝试因缺少视频和键盘驱动失败,Varun随即粘贴提示词让Agent自行修复。在等待期间,他展示了Agent生成的Doom研究报告、信息图及对比表。最终,Agent自动修好驱动,Doom在Antigravity自建OS中成功运行,全场欢呼。Varun强调,这一过程证明了AI不仅能写代码,还能执行复杂工程,原本需数周的工程项目现在缩短至几小时甚至几分钟。

成本方面,Flash提供了前沿级能力,但定价不到对标前沿模型的一半。对于每天处理约1万亿Token的公司,若将80%工作负载迁移至3.5 Flash,每年可节省超过10亿美元。Varun总结道:“AI不再只是写代码的工具,而是能替你行动的Agent。”这一案例比任何基准测试数据都更具说服力,展示了AI在复杂任务执行上的巨大潜力。

Gemini Spark:24/7在线的个人AI Agent

Gemini Spark被定位为个人AI Agent,运行在Google Cloud专用虚拟机上,支持24/7在线工作,即使设备关闭也能继续推进任务。Spark由Gemini 3.5与Antigravity Harness驱动,支持长时任务处理,并计划通过MCP协议接入第三方工具。现场演示中,Spark帮助Josh Woodward起草邮件,跨Google文档、邮箱、聊天搜集信息并按其语气撰写;另一案例中,Spark组织社区街区派对,自动处理RSVP回执、生成跟踪表、起草跟进邮件,并制作包含小区规定的PPT。

Spark在手机上同样可用,支持语音指令拆分任务。例如,Josh通过语音将会议改期、发送邀请函、列出育儿事项,Spark自动拆分为多条独立任务并按优先级分类。Spark将进驻Chrome成为Agentic浏览器,并在晚些时候获得手机专属入口Android Halo。目前Spark以可信测试者形式推出,下周向美国Google AI Ultra订阅者开放Beta。Google新增100美元/月的Ultra套餐,原250美元/月顶级套餐降至200美元/月,标志着消费级Agent时刻的到来。

AI Search:智能搜索框与Search Agents

Google搜索副总裁Elizabeth Reid宣布Google Search正式进入AI Search时代,搜索框经历25年来最大改版,成为支持文本、图像、文件、视频等多模态跨模态搜索的智能搜索框。AI Overviews与AI Mode合并为单一无缝体验,用户可从主搜索结果页过渡到AI Mode追问,不丢失上下文。此外,Google推出Search Agents,允许用户启动多个7x24小时后台运行的Information Agents。例如,财经用户可设置筛选条件监控生物科技股,公寓搜索者可让Agent持续扫描全网房源,球鞋爱好者可监控联名发售。

Google Search产品经理Robby Stein介绍了Generative UI能力,进一步压缩信息呈现。这些Agent将在今夏上线,连接实时金融数据、新闻和社交来源,提供高相关性的洞察更新。Google通过整合Gemini模型、Agentic能力和海量信息,构建了连贯的搜索体验,旨在让用户无需切换应用即可完成任务。这一系列发布表明,Google正将AI从辅助工具转变为替用户行动的执行系统,覆盖从开发到日常生活的各个场景。

搜索重构:从静态结果到生成式交互UI

Google搜索正在经历范式转移,从为不同问题定制静态展现(如购物给商品、数据给图表)升级为现场编写理想UI。这一变革的核心是将Antigravity与Gemini 3.5 Flash的Agentic Coding能力直接融入搜索,使搜索能为每个问题动态生成包含动态布局、交互式Widgets和完整体验的定制界面。

在演示中,罗比·卡布罗(Robby Kabbour)展示了这一能力的具体应用。当询问“黑洞怎么影响时空”时,AI未提供文字解释,而是生成了一个可拖动的交互小动画。进一步追问“双黑洞如何产生引力波”时,搜索并未检索现成视频,而是当场构建了一个交互模拟器。用户可通过滑块调整黑洞距离与质量比,直观观察波形变化及黑洞螺旋坠入过程。为支持这种自定义组件运行,Google在后台调用了一套由Antigravity驱动的Agentic Coding框架,在安全容器化环境中读写文件和执行代码。

“瓦伦拿来造操作系统的那套技术,现在直接融入了搜索。”

这种生成式UI将于今年夏天面向所有搜索用户免费开放,标志着搜索从“提供信息”向“提供体验”的根本性转变。

长期任务自动化:从一次性回答到小型应用

搜索能力的第二步扩展是将交互从一次性问答延伸至长期任务的小型应用生成。罗比演示了搜索“周末与家人做什么”的场景,系统在给出普通建议后,主动询问是否生成计划。在获得授权连接Gmail、Photos和Calendar后,生成的计划具备高度个性化:自动整合天气、路途时间,并根据用户有两个孩子(老大学棋)推荐国际象棋加动物组合活动,同时避开下午看球的日程,并排列餐厅预订选项。

当用户追加“每周加一个周五约会夜”时,搜索立即重排界面,将地图置顶并新增标签。最终计划可分享给家人,在对方手机上呈现相同的可交互体验,并同步至家庭日历。这种可定制的小型应用将于今年晚些时候面向订阅者上线,实现了从信息检索到生活助理的跨越。

电商基础设施:UCP、AP2与通用购物车

Google购物图谱已收录超600亿条商品,日均购物行为超10亿次。为改写电商体验,Google构建了三大基础设施:

  1. 通用商业协议(UCP):类比HTTP之于Web,UCP是一套开源标准,覆盖从挑选、下单到物流的全链路,让Agent与系统使用统一语言。合作伙伴包括Amazon、Meta、Microsoft等。UCP将扩展至酒店、外卖及YouTube,并落地加拿大、澳洲和英国。
  2. Agent支付协议(AP2):解决AI花钱的信任问题。规则包括划边界(指定品牌、商品、预算上限)和讲问责(建立透明可验证链路,使用隐私保护技术,生成防篡改数字授权凭证)。AP2将在Gemini Spark中首发。
  3. 通用购物车(Universal Cart):跨商家、跨服务(搜索、Gemini、YouTube、Gmail)的智能购物车。具备智能推理能力,如识别CPU与主板插槽冲突;能基于Google钱包自动寻找最省钱付款方式;支持UCP无缝跳转商家网站。
基础设施 核心功能 关键特性 上线时间/状态
UCP 通用商业协议 开源标准,全链路覆盖,多巨头合作 扩展中,部分场景已落地
AP2 Agent支付协议 边界控制,三方问责,防篡改凭证 即将进入Google产品,Spark首发
Universal Cart 智能购物车 跨平台整合,冲突检测,优惠挖掘 今夏美国搜索/Gemini上线

创作者工具与Android XR硬件展望

Google创意实验室推出了三款核心工具:Google Pics(集成Nano Banana,支持元素移除、布局调整、自动SynthID水印,今夏上线);Stitch(语音协作UI设计工具,全球用户已生成超1亿张UI,支持语音实时迭代及代码导出,即日起全球推出);Google Flow(视频创作工具,Omni功能可换天换地、增加角色,支持并行多步操作,如从单图生成16段短片,Flow Music支持基于音频提示生成Demo)。

在硬件方面,Android XR业务总经理Shahram Izadi介绍了智能眼镜的两类形态: 1. 显示眼镜:内置小型镜内显示,提供Uber详情、实时翻译等信息,今年晚些时候更新。 2. 音频眼镜:无显示屏,适合听音乐、拍照、通话及与Gemini交互,今年秋季上市。合作伙伴包括Gentle Monster、Warby Parker(设计)和三星(工程制造),兼容Android和iOS。

AGI地平线:安全、科学与药物研发

Demis Hassabis以“AGI就在前方地平线处”作为结语,并通过三大支柱支撑这一论断:

  1. 安全先行:推出CodeMender,一个能自动发现并修复关键软件漏洞的代码安全Agent,API向选定专家开放。
  2. AI赋能科学:发布Gemini for Science,整合论文跟踪、代码生成及假设生成。AlphaEarth Foundations被视为最接近地球数字孪生的工具,用于应对森林砍伐和粮食安全。WeatherNext在飓风预测上表现卓越,提前三天预测到2025年袭击牙买加的五级飓风,挽救了生命。AlphaFold和AlphaGenome已成为数百万科学家的日常工具,形成“数字速度的科学”范式。
  3. 药物研发:Isomorphic Labs利用分子互作建模,多个项目进入临床前阶段,覆盖免疫疾病和癌症,旨在重新构想药物发现流程,目标攻克所有疾病。

“当我们回望这段时间会意识到,自己当时正站在奇点的山脚下。”

这一愿景标志着Google从技术突破向解决人类根本性挑战(安全、科学、健康)的全面进军。