蒸馏就像是挤柠檬一样 | Google四位大佬 | Gemini 3.5 Flash | 团队合并 | Gemini Omni | 蒸馏每一代 | 单搜索框 | 未来的预测

四位巨头首次同框：揭秘Gemini 3.5 Flash与团队融合

2023年5月30日，Google DeepMind的四位核心人物——Google Brain奠基人杰夫·迪恩（Jeff Dean）、Transformer共同作者诺姆·沙泽尔（Noam Shazeer）、前AlphaGo负责人奥里奥尔·维尼亚尔斯（Oriol Vinyals）以及DeepMind联合创始人科雷·卡武库奥卢（Koray Kavukcuoglu）——罕见地同时出现在镜头前。这场由高级产品经理洛根·基尔帕特里克主持的对谈，首次公开复盘了从PaLM到Gemini的战略转型，并发布了Gemini 3.5 Flash。杰夫·迪恩指出，早期分散算力构建多个模型是“愚蠢”的，必须集中力量构建单一模型，这直接促成了Google Brain与DeepMind的合并。诺姆·沙泽尔补充道，拥有一个大团队远比五个小团队更有优势，组织融合是必然选择，因为随着目标集中，需要更多专注投入来解决重大工程问题。

产品驱动智能：从基准测试到日常体验的范式转移

Gemini项目的核心哲学是通过产品路径改进模型。杰夫·迪恩强调，大量用户的使用数据是改进模型的关键，这与搜索领域的经验一致。诺姆·沙泽尔警告，闭门造车刷榜只会导致基准测试数据泄露，而真正的考验在于模型是否对日常用户有用。科雷·卡武库奥卢进一步阐释，理解用户需求与探索技术前沿相辅相成，只有将技术与产品结合，才能定义真正的“前沿”。奥里奥尔·维尼亚尔斯回忆，启动Gemini时，团队意识到若能创建一个超越平均水平的单一模型，将带来巨大飞跃。如今，Gemini已成为谷歌智能的核心引擎，将算力和智能集中投入单一模型，实现了谷歌多项业务的跨越式发展。

蒸馏技术的进化：像挤柠檬一样提取智能精华

Gemini 3.5 Flash最引人注目的成就在于其编程能力的显著提升，且性能超越了上一代Pro模型。奥里奥尔·维尼亚尔斯坦言，他对蒸馏技术的进化速度感到不可思议，没想到能一代接一代地将Pro的智能压缩进Flash中。当被问及蒸馏方法是否发生根本改变时，他意外地表示技术反而变得更简单了。杰夫·迪恩透露，不再需要由50个老师组成的集成，只需一个顶尖老师模型和一个学生模型，即可使用原始论文中的方法。科雷·卡武库奥卢用生动的比喻解释：蒸馏就像挤柠檬，将精华（知识）倒入小模型（杯子）中。这种高效的知识蒸馏策略使得新一代Flash在每字节或每个参数中塞入了更多智能，实现了性能的代际超越。

未来展望：单搜索框哲学与模型容量的无限潜力

在讨论未来时，诺姆·沙泽尔指出，谷歌终于实现了“单搜索框”（One Box）的哲学，即通过一个统一的通用AI后端处理所有前端请求，取代了过去分散的定制后端。对于未实现的期望，杰夫·迪恩表示希望看到更具有机生命感（Organic style）的模型架构，而非仅依赖混合专家模型（MoE）。科雷·卡武库奥卢则对模型内部仍蕴含的巨大容量感到惊叹，认为当前模型并未比三四年前的尺寸大多少，却塞入了更多能力，实际容量远超目前压榨出的水平。他深信，未来将有重大算法创新，让模型从每个Token中获取更多信息，学习效率有望向人类看齐。杰夫·迪恩也认同，需要构想新算法以提升数据压缩力度，从而释放模型的巨大潜力。

数据规模与人类认知的巨大鸿沟

大语言模型与人类智能之间存在显著的数据量级差异。据诺姆·沙泽尔（Noam Shazeer）指出，模型需要消耗比真正聪明的人类多出一千倍的数据，才能达到与人类大致相当的能力水平。这种差距体现在训练数据的绝对数量上：一个人一生中大约只能听到 10亿个词，而一个模型则需要在 数万亿 的数据上进行训练，并具备记忆这些海量信息的能力。尽管奥里奥尔·维尼亚尔斯（Oriol Vinyals）提出人类也是被“预训练”过的观点，但杰夫·迪恩（Jeff Dean）反驳称，人类的基因库其实非常小，只有几个GB的源代码，这进一步凸显了AI在数据摄取上的独特挑战。谷歌的目标是让模型从每一个示例中获取 一千倍的信息，从而缩小这一认知鸿沟。

评估难题与泛化能力的核心挑战

AI行业面临的最大难题之一是评估。奥里奥尔·维尼亚尔斯强调，评估非常困难，这不仅涉及如何孤立地评估模型能力，还包括如何防止数据泄露到训练集，以及如何让用户认同评估数字。杰夫·迪恩补充道，研究人员的梦想是构建能泛化到从未面对过的事情上的系统。谷歌通过海量用户反馈来优化这一过程，尽管在某些问题上泛化良好，但在其他类别上仍显不足。这种从单一任务训练到泛化到任何人可能提出的任何问题上的转变，是当前的核心难点，也是推动技术迭代的主要动力。

共识机制：数据驱动的实验文化

在Gemini团队中，四位核心成员（科雷·卡武库奥卢、杰夫·迪恩、诺姆·沙泽尔、奥里奥尔·维尼亚尔斯）在宏观战略上没有重大的原则性分歧。科雷·卡武库奥卢指出，团队通过实验提炼想法，Gemini是相当数据驱动的。杰夫·迪恩虽然将大量精力投入于未来的推理硬件研究，但他认为这是核心能力，其他成员在了解后也会迅速达成共识。诺姆·沙泽尔表示，现实是让大家达成共识的一种很好方式，通过小规模实验验证有效性，再结合研究级算力池进行决策。科雷总结道，从硬件到模型设计再到产品的融合，以及团队的协同工作，是让AI真正运转起来的核心因素。

未来预测：自我学习与工具瓶颈

关于未来一年的预测，科雷·卡武库奥卢提出自我学习将成为重点，谷歌将越来越多地依赖模型来改进Gemini的不同部分，甚至由模型和智能体协同生成模型中的重要部分。奥里奥尔·维尼亚尔斯则关注持续学习，希望模型能通过交互提升而不更新权重，如知识库更新，但目前该能力尚未迎来陡峭的增长曲线。杰夫·迪恩指出，智能体将把谷歌的所有工具逼到极限，暴露出工具交互因适应人类延迟而导致的速度瓶颈。诺姆·沙泽尔幽默地补充，30天里有29天半都花在等待各种列表的加载上了，这揭示了当前系统效率的痛点。

产品形态：单一核心与多元交互

对于五年后的产品形态，科雷·卡武库奥卢给出了惊人预测：只有1个产品，那个产品就是模型。他认为，虽然搜索等功能会以更具“魔法感”的形式存在，但背后均由同一智能核心驱动。杰夫·迪恩赞同此观点，指出强悍的模型可以量身定制、创建出各种小应用和可视化效果，产品外显形式虽多，但核心要素极少。奥里奥尔·维尼亚尔斯从用户体验角度认为，界限分明可能更多是出于人类习惯的考量，他个人仍喜欢“关注点分离”，因此不赌未来只有一个产品。诺姆·沙泽尔则展望了更遥远的未来，包括脑机接口或物理实体产品，即从处理比特转向搬动原子。

蒸馏就像是挤柠檬一样 | Google四位大佬 | Gemini 3.5 Flash | 团队合并 | Gemini Omni | 蒸馏每一代 | 单搜索框 | 未来的预测 | 只有一个产品