Google 的 AI 终极愿景:从信息索引到现实接口
Google I/O 2026 大会刚刚落幕,Sundar Pichai 和 Demis Hassabis 共同勾勒了一幅极具野心的软件未来图景。核心战略可以概括为将 Gemini 模型嵌入每一个产品中,Google 不再仅仅试图通过蓝色超链接来整理世界信息,因为搜索引擎本身已沦为过时技术。相反,Google 正试图成为“现实本身的接口”,旨在 Anthropic 和 OpenAI 创造出更优现实之前,抢占这一生态位。这种策略被定义为“Agentic Gemini 时代”,即搜索、Gmail、Android 甚至智能眼镜都变成了 AI 代理。
这一转变的背后是惊人的规模扩张。Google 不仅服务于数十亿日活用户,其 AI 处理能力也在两年内实现了指数级增长。从每月处理 9.7 万亿个 token 飙升至惊人的 3.2 千万亿个 token,且这一数字仍在加速。为了支撑这种规模,Alphabet 的资本支出急剧增加,用于构建新的基础设施以支持包括生成“纳米香蕉”等荒诞 AI 图像在内的各种应用。这种基础设施的基石是 Google 的 TPU(张量处理单元)。自 2018 年首次亮相以来,TPU 一直是 Google AI 的核心,而本周的更新将其明确拆分为两个独立职能的芯片:TPU-T 专门用于模型训练(教机器人如何思考),TPU-I 则专门用于推理(在全球范围内生成搜索结果)。
"Google is no longer trying to organize the world's information with blue hyperlinks, because search engines are now an archaic technology."
Gemini Omni 与 Neural Expressive 设计系统
大会的头号新闻是 Gemini Omni 模型的发布。这是一个多模态输入输出模型,能够接受文本、视频、声音等任何输入,并生成任何类型的输出。Demis Hassabis 对“世界模型”的执着在此体现得淋漓尽致:这类模型不再仅仅生成像素,而是理解语言、物理、运动及世界万物,从而能够按需模拟现实。与模型发布同步推出的,是 Gemini 应用的全新设计系统——Neural Expressive。
乍看之下,Neural Expressive 只是图标和渐变色的升级,但其独特之处在于针对按需生成 UI 元素进行了优化。这意味着用户只需通过提示词,即可生成动态的图表、时间线甚至之前不存在的微型应用。这种设计哲学反映了 AI 从被动响应向主动构建界面的转变,使得用户界面不再是静态的,而是根据需求实时生成的动态实体。这一系统旨在让 Gemini 应用不仅仅是一个聊天窗口,而是一个能够动态构建交互环境的平台。
"Models like this don't just generate pixels anymore. They understand language, physics, motion, and everything else in your world just well enough to simulate reality on demand."
Gemini Flash 3.5 的性能定位与定价争议
在核心大语言模型方面,Google 发布了 Gemini Flash 3.5,定位为高速模型而非顶级智力模型。根据演示中的基准测试数据,Flash 3.5 在性能上几乎与 Opus 4.7 和 GPT-5.5 持平,但速度显著更快。尽管顶级模型 Gemini 3.5 Pro 尚未发布(预计今夏推出,令许多网友失望),Flash 3.5 依然占据了速度与智能的独特象限。然而,伴随性能提升的是价格的显著上涨。Gemini 3.5 Flash 的价格是上一代版本的三倍,是 Gemini 1.5 Flash 的三十倍。虽然仍比 Claude 便宜,但已不再像过去那样极具成本优势。
以下是基于视频中提到的性能与价格对比数据:
| 模型/对比项 | 性能对标 | 速度/智能定位 | 价格变化/相对成本 |
|---|---|---|---|
| Gemini Flash 3.5 | 接近 Opus 4.7 和 GPT-5.5 | 高速,独立象限 | 上一代版本的 3 倍 |
| Gemini 3.5 Flash | - | - | 相比 Gemini 1.5 Flash 贵 30 倍 |
| Gemini 3.5 Pro | 未发布(预计今夏) | 顶级智力模型 | 信息不足 |
| Claude | 高于 Gemini 3.5 Flash | - | 比 Gemini 3.5 Flash 更贵 |
"Gemini Flash 3.5... performs nearly on par with Opus 4.7 and GPT-5.5, but runs at a much faster speed."
Anti-Gravity IDE:从代码编写到代理管理
Google 的 AI 编程工具 Anti-Gravity(前身为 Windserve)再次引发关注。其最新版本被指更像 OpenAI Codex 的克隆版,重点从编写代码转向管理 AI 代理。对于传统程序员而言,这一转变可能令人不满,但现场演示展示了其强大能力:团队使用工具从零构建了一个完整的操作系统,耗时约 12 小时,消耗了数十亿个 token。尽管初始构建的操作系统因缺少驱动程序无法运行 Doom 游戏,但演示者让 Gemini 现场编写驱动程序,仅用几秒便让游戏成功运行。
这一案例突显了 AI 编程工具的核心价值转变:从辅助单行代码编写转向快速构建和调试复杂系统。尽管速度惊人,但工具的重心偏移也引发了关于开发者工作流变化的讨论。Anti-Gravity 的演进表明,未来的编程可能更多涉及对 AI 代理的协调和监督,而非直接的手动编码。
"They used the tool to build a complete operating system from scratch, which took like 12 hours and billions of tokens."
Chrome 新 API:HTML on Canvas 的革命
虽然 AI 是大会主角,但 Web 开发者仍有一个重要发现:Chrome 引入了 HTML on Canvas API。正如名称所示,该 API 允许开发者直接在 Canvas 元素中使用 HTML 元素。这意味着开发者可以结合 WebGL 和 WebGPU 的像素级控制能力,同时利用 HTML 处理基础 UI 元素,从而构建高度交互式的用户界面。
这一技术突破解决了传统 Canvas 开发中 UI 元素难以直接嵌入和交互的痛点。开发者不再需要手动绘制所有 UI 组件,而是可以在高性能的图形渲染上下文中直接复用标准的 HTML 结构。这为游戏界面、数据可视化和复杂动画提供了新的开发范式,使得 Web 应用能够兼具原生应用的交互性和 Canvas 的高性能渲染能力。
"Native HTML elements rendered into the canvas. Woo! That means you can build highly interactive UIs where you control every pixel with tools like WebGL and WebGPU, while simultaneously using HTML for your more basic UI elements."
赞助商内容:Emergent 的全栈代理开发
视频最后介绍了赞助商 Emergent,这是一个旨在帮助开发者构建全栈应用的 AI 编码平台。面对开发者在多个 AI 编码模型间切换的困境,Emergent 通过启动专门的代理并行处理前端、后端、数据库、测试和部署任务,简化了应用构建流程。用户只需提供一个提示词,Emergent 即可自动设置数据库、认证和 API,无需手动配置 Superbase 或 Express 样板代码。目前,演示者正使用该工具构建一个 Pull Request 审查仪表板,通过粘贴 GitHub 链接获取 AI 生成的变更和风险摘要。Emergent 提供了一种“蜂群式”构建体验,让开发者描述需求而非手动脚手架代码。
"Instead of one LLM guessing how to build everything, Emergent spins up specialized agents to work on your app's front end, back end, database, testing, and deployment all in parallel."