数据焦虑的真相:视频与合成数据的潜力

尽管外界普遍担忧大语言模型(LLM)的训练数据即将耗尽,但 Google 首席科学家 Jeff Dean 对此持乐观态度。他指出,虽然公共文本数据已被大量使用,但视频数据等未被充分挖掘的资源仍蕴藏巨大潜力。此外,通过算法优化多次迭代处理现有数据,模型能力仍可显著提升。

"I think there's lots of interesting video data that we're not really training on yet."

Dean 强调,合成数据(Synthetic Data)的生成与利用是突破数据瓶颈的关键路径。通过更高效的算法技术,每一块数据所能提供的信息量将大幅增加,这足以支撑模型能力的持续进化,而非单纯依赖数据量的线性增长。

合成数据的价值:从噪声中提炼信号

针对"AI 生成数据会导致模型同质化"的质疑,Dean 指出,只要拥有足够的计算资源,系统就能从海量数据中筛选出有价值的"针"。他以强化学习(RL)在代码生成中的应用为例,说明如何通过大规模探索与过滤机制提升数据质量。

在解决复杂编程问题时,系统可能生成数百种解决方案。通过编译检查单元测试等过滤器,大部分无效方案会被剔除,从而提炼出高质量数据。这种机制证明了计算规模数据质量之间的正向关系。

"More compute will generate you more interesting solutions and then those can then be put into the training data."

Dean 进一步指出,数据增强技术在此过程中扮演关键角色。例如,将 Python 代码转换为 Go 语言,不仅增加了训练数据的多样性,还提升了模型对多语言编程逻辑的理解能力,从而在相同数据量下获得更高收益。

代码翻译作为数据增强手段

Dean 分享了 Google 内部的一项实践:利用现有工作代码作为提示,生成不同编程语言的版本。这种方法将自然语言中模糊的需求转化为完全指定的系统行为,再通过代码翻译生成新的训练样本。

"If you have a program that already works that does what you want and you want to translate it, that's awesome."

通过这种方式,开发者可以基于现有的测试套件代码库,快速生成多种语言版本。这不仅提高了代码的性能安全性,还极大地丰富了训练数据的维度。这种代码级增强类似于早期卷积神经网络中的图像平移,但其在语义层面的丰富度更高,为模型提供了更丰富的结构化知识

数据中心范式转移:从训练到推理

随着现代数据中心中推理(Inference)流量占比达到约 90%,硬件设计策略发生了根本性转变。Dean 指出,除了训练和推理,数据中心还承载大量应用服务(如搜索),这些非 AI 负载同样需要高效的硬件支持。

这一趋势要求硬件架构不仅要优化峰值算力,更要提升持续吞吐量能效比。推理负载通常具有低延迟、高并发的特点,这与训练负载的高带宽、高计算密度需求截然不同。因此,Google 正在重新评估其芯片设计网络拓扑,以更好地适应以推理为主导的工作负载分布。

"Something like 90% of what happens in modern data centers is not training anymore."

这种转变不仅影响芯片设计,还涉及软件栈的优化,以确保在推理场景下能最大化利用硬件资源,降低运营成本,同时保持模型响应的实时性。

推理工作负载主导硬件设计转向

随着机器学习工作负载的演变,训练在整体计算中的占比正在下降,而推理工作负载(Inference Workload)的比例显著上升。这种转变不仅包括离线推理,还涵盖了强化学习训练期间的 rollout 过程,以及处理用户请求或基于代理行为的在线推理。由于推理和训练具有截然不同的计算特性,硬件设计正朝着更专门化的方向演进。推理场景通常不需要高精度的浮点运算,而是需要处理海量并发请求,且模型权重在推理阶段保持不变。这种差异使得针对推理优化的硬件能够带来显著更高的能源效率。Google 已经通过其新发布的 TPU v8i 和 TPU v8T 芯片 展示了这一趋势,未来我们将看到更多针对特定推理场景定制的硬件解决方案。

FP4 极低精度计算的可行性与突破

在精度压缩方面,FP4(4位浮点数)格式已被证实能够产生高质量的智能输出,这颠覆了传统计算机科学的认知。过去,计算机科学家可能认为如此少的位数(甚至低于专家或进入位的常规精度)无法执行任何有用任务,但现实证明其完全可行。尽管存在各种保距变换和压缩技术,FP4 依然能保持模型性能。目前的研究正在探索更低的精度格式,例如 2位整数或1位整数,并配合缩放因子(Scaling Factor)使用。这种混合精度策略允许在极低位宽的数据上共享一个更高精度的缩放系数,从而在保持极低存储和计算需求的同时,获得相对更高的精度表现。关于缩放因子的应用频率(如每 64、128 或 256 个权重应用一次)仍是当前实验的重点。

预训练与后训练阶段的融合趋势

当前,预训练(Pre-training)和后训练(Post-training)通常被视为两个独立的阶段,但这种分离在概念上显得不够理想。Jeff Dean 认为,更合理的做法是将观察数据和使用新知识的阶段交错进行,类似于 DQN 中的经验回放机制。通过在实际环境(如模拟世界或机器人操作)中采取行动并观察后果,模型能从主动交互中获益,而非仅仅被动地接收流式 token。然而,这种持续学习(Continuous Learning)模式带来了巨大的安全挑战。如果模型在中间状态就具备学习能力,如何确保其安全性?目前的做法是完成训练和后训练后,经过红队测试(Red Teaming)和安全协议验证后才发布。未来,持续学习可能在后台进行,但在向用户发布新版本前,仍需重新进行最终的安全测试和团队评估,以平衡能力进化与安全合规。

百万倍算力跃迁后的未来展望

回顾过去十年,AI 算力提升了约 1,000,000 倍,从早期的序列到序列模型和 LSTM 时代,发展到如今的 Transformer 架构。如果未来十年再实现百万倍的算力增长,硬件投资、研究技术以及多代理工作流(Multi-agent Workflows)将迎来巨大飞跃。例如,在 Google I/O 主题演讲中展示的案例显示,AI 能够通过相对简单的提示,自主编写一个能够运行《Doom》游戏的操作系统。虽然训练数据中包含大量操作系统相关内容,但这表明 AI 已具备处理极其复杂任务的能力。Jeff Dean 预测,随着对领域关注度的增加,进步速度不会放缓,我们将看到更多以前无法想象的自主系统和工作流成为现实。

百万倍算力跃迁:从科幻到工程现实的跨越

Jeff Dean回顾了过去一年间AI技术发展的惊人速度,特别是针对“神经操作系统”(Neural OS)这一概念的演变。此前,Lambda CEO Steven Balaban曾提出一种无需传统UI或驱动程序的神经OS构想,Jeff Dean当时认为这更像是一个遥远的科幻想法。然而,仅仅一年后,虽然尚未完全实现那种形态,但技术演进的速度远超预期,使得这种曾经看似不可能的愿景变得触手可及。这种快速迭代不仅体现在概念上,更体现在实际能力的提升上,让人对未来的可能性充满期待。

在这种算力背景下,Jeff Dean特别强调了AI在复杂工程任务科学研究中的巨大潜力。他设想,通过结合正确的模拟环境访问权限和具备任务分解能力的智能体系统,AI能够极大地缩短研发周期。例如,传统需要多年时间、由大量人员协作完成的飞机设计新计算机芯片/硬件系统的设计工作,未来或许能在短短五天内完成。尽管目前尚未达到这一水平,但这种“百万倍算力”带来的效率提升潜力,标志着AI正从辅助工具转变为能够独立完成高难度创造性工作的核心引擎。

开源模型的基石:知识蒸馏与层级架构

关于开源模型是否依赖于前沿闭源模型的进展,Jeff Dean明确指出,知识蒸馏(Distillation)是当前开源模型能力提升的主要驱动力。以Google的Gemma模型为例,它们是通过从更高质量、更大规模的模型中蒸馏而来的。这种技术并非新创,但其在将高能力模型转化为小体积、高效率模型方面的作用愈发关键。Jeff Dean解释称,为了获得小型且极具能力的模型,必须持续构建更大规模、可能在推理效率上略低但能力更强的前沿模型,然后通过蒸馏将知识转移到较小的模型中,无论这些模型是开源还是闭源。

这种层级化的模型策略在行业内已成常态,各大公司均推出了快速、廉价的“Flash”或轻量级模型作为主力产品。Jeff Dean指出,这些轻量级模型之所以能接近前沿模型的性能,关键在于“魔法配方”与蒸馏技术的结合。虽然具体的优化细节未公开,但蒸馏确实是让模型更便宜、更快、更实惠且几乎与前沿模型同等强大的核心手段。这种“构建前沿-蒸馏轻量-再构建前沿”的循环,确保了用户既能获得高性能,又能享受低成本和高效率。

轻量级模型的性能逼近与前沿迭代

在模型性能的对比上,Jeff Dean提到了一个令人惊讶的现象:某些快速轻量级模型与前沿旗舰模型之间的差距正在急剧缩小。他引用了一个具体案例,即在某个版本(如3.1版本)中,快速模型与前沿模型在困难基准测试中的表现差异仅为3%。这一数据表明,轻量级模型已经不再是简单的“替代品”,而是在许多场景下能够几乎媲美顶级模型的主力军。这种性能上的接近并非偶然,而是多年技术积累和蒸馏优化的结果。

Jeff Dean强调,这种“几乎同等强大”的特性使得轻量级模型成为用户日常使用的“工作马”(workhorse)。它们不仅成本低廉,而且推理速度快,极大地降低了AI的使用门槛。与此同时,公司仍需不断推出更强大的前沿模型,以维持技术领先地位,并再次通过蒸馏过程将这些新知识传递给轻量级模型。这种持续迭代的机制确保了整个生态系统既能满足高端研究需求,又能服务于大规模的商业应用,形成了良性循环。

未来趋势:持续学习、智能体与高效推理硬件

在机器学习的未来趋势方面,Jeff Dean重点关注了持续学习(Continual Learning)和多智能体系统(Multi-agent Systems)。他设想未来的模型能够更被动地观察数据、采取行动并从中学习,这种“ interleaved”(交错)的使用模式将极大提升AI的自主性。然而,这种自主运行的系统需要消耗大量的Token,因此对推理硬件的需求将呈指数级增长。Jeff Dean指出,模型架构与硬件架构的协同设计(Co-design)将成为关键,目标是实现极低延迟高每瓦性能高每美元性能

此外,Jeff Dean还探讨了上下文窗口(Context Window)的扩展问题。由于二次注意力机制的限制,模型无法直接将整个互联网或用户的个人数据(如邮件、照片、视频)全部放入上下文窗口。他提出了一种级联检索机制:首先从数十亿文档中筛选出最相关的30,000个,再由轻量级模型进一步筛选出117个最相关的内容,最后将其放入大模型的昂贵上下文窗口中。这种分层处理策略旨在模拟“拥有整个互联网”的能力,同时保持计算效率,是未来解决长上下文和大规模知识库访问的重要方向。