四位巨头首次同框:揭秘Gemini 3.5 Flash与团队融合
2023年5月30日,Google DeepMind的四位核心人物——Google Brain奠基人杰夫·迪恩(Jeff Dean)、Transformer共同作者诺姆·沙泽尔(Noam Shazeer)、前AlphaGo负责人奥里奥尔·维尼亚尔斯(Oriol Vinyals)以及DeepMind联合创始人科雷·卡武库奥卢(Koray Kavukcuoglu)——罕见地同时出现在镜头前。这场由高级产品经理洛根·基尔帕特里克主持的对谈,首次公开复盘了从PaLM到Gemini的战略转型,并发布了Gemini 3.5 Flash。杰夫·迪恩指出,早期分散算力构建多个模型是“愚蠢”的,必须集中力量构建单一模型,这直接促成了Google Brain与DeepMind的合并。诺姆·沙泽尔补充道,拥有一个大团队远比五个小团队更有优势,组织融合是必然选择,因为随着目标集中,需要更多专注投入来解决重大工程问题。
产品驱动智能:从基准测试到日常体验的范式转移
Gemini项目的核心哲学是通过产品路径改进模型。杰夫·迪恩强调,大量用户的使用数据是改进模型的关键,这与搜索领域的经验一致。诺姆·沙泽尔警告,闭门造车刷榜只会导致基准测试数据泄露,而真正的考验在于模型是否对日常用户有用。科雷·卡武库奥卢进一步阐释,理解用户需求与探索技术前沿相辅相成,只有将技术与产品结合,才能定义真正的“前沿”。奥里奥尔·维尼亚尔斯回忆,启动Gemini时,团队意识到若能创建一个超越平均水平的单一模型,将带来巨大飞跃。如今,Gemini已成为谷歌智能的核心引擎,将算力和智能集中投入单一模型,实现了谷歌多项业务的跨越式发展。
蒸馏技术的进化:像挤柠檬一样提取智能精华
Gemini 3.5 Flash最引人注目的成就在于其编程能力的显著提升,且性能超越了上一代Pro模型。奥里奥尔·维尼亚尔斯坦言,他对蒸馏技术的进化速度感到不可思议,没想到能一代接一代地将Pro的智能压缩进Flash中。当被问及蒸馏方法是否发生根本改变时,他意外地表示技术反而变得更简单了。杰夫·迪恩透露,不再需要由50个老师组成的集成,只需一个顶尖老师模型和一个学生模型,即可使用原始论文中的方法。科雷·卡武库奥卢用生动的比喻解释:蒸馏就像挤柠檬,将精华(知识)倒入小模型(杯子)中。这种高效的知识蒸馏策略使得新一代Flash在每字节或每个参数中塞入了更多智能,实现了性能的代际超越。
未来展望:单搜索框哲学与模型容量的无限潜力
在讨论未来时,诺姆·沙泽尔指出,谷歌终于实现了“单搜索框”(One Box)的哲学,即通过一个统一的通用AI后端处理所有前端请求,取代了过去分散的定制后端。对于未实现的期望,杰夫·迪恩表示希望看到更具有机生命感(Organic style)的模型架构,而非仅依赖混合专家模型(MoE)。科雷·卡武库奥卢则对模型内部仍蕴含的巨大容量感到惊叹,认为当前模型并未比三四年前的尺寸大多少,却塞入了更多能力,实际容量远超目前压榨出的水平。他深信,未来将有重大算法创新,让模型从每个Token中获取更多信息,学习效率有望向人类看齐。杰夫·迪恩也认同,需要构想新算法以提升数据压缩力度,从而释放模型的巨大潜力。
数据规模与人类认知的巨大鸿沟
大语言模型与人类智能之间存在显著的数据量级差异。据诺姆·沙泽尔(Noam Shazeer)指出,模型需要消耗比真正聪明的人类多出一千倍的数据,才能达到与人类大致相当的能力水平。这种差距体现在训练数据的绝对数量上:一个人一生中大约只能听到 10亿个词,而一个模型则需要在 数万亿 的数据上进行训练,并具备记忆这些海量信息的能力。尽管奥里奥尔·维尼亚尔斯(Oriol Vinyals)提出人类也是被“预训练”过的观点,但杰夫·迪恩(Jeff Dean)反驳称,人类的基因库其实非常小,只有几个GB的源代码,这进一步凸显了AI在数据摄取上的独特挑战。谷歌的目标是让模型从每一个示例中获取 一千倍的信息,从而缩小这一认知鸿沟。
评估难题与泛化能力的核心挑战
AI行业面临的最大难题之一是评估。奥里奥尔·维尼亚尔斯强调,评估非常困难,这不仅涉及如何孤立地评估模型能力,还包括如何防止数据泄露到训练集,以及如何让用户认同评估数字。杰夫·迪恩补充道,研究人员的梦想是构建能泛化到从未面对过的事情上的系统。谷歌通过海量用户反馈来优化这一过程,尽管在某些问题上泛化良好,但在其他类别上仍显不足。这种从单一任务训练到泛化到任何人可能提出的任何问题上的转变,是当前的核心难点,也是推动技术迭代的主要动力。
共识机制:数据驱动的实验文化
在Gemini团队中,四位核心成员(科雷·卡武库奥卢、杰夫·迪恩、诺姆·沙泽尔、奥里奥尔·维尼亚尔斯)在宏观战略上没有重大的原则性分歧。科雷·卡武库奥卢指出,团队通过实验提炼想法,Gemini是相当数据驱动的。杰夫·迪恩虽然将大量精力投入于未来的推理硬件研究,但他认为这是核心能力,其他成员在了解后也会迅速达成共识。诺姆·沙泽尔表示,现实是让大家达成共识的一种很好方式,通过小规模实验验证有效性,再结合研究级算力池进行决策。科雷总结道,从硬件到模型设计再到产品的融合,以及团队的协同工作,是让AI真正运转起来的核心因素。
未来预测:自我学习与工具瓶颈
关于未来一年的预测,科雷·卡武库奥卢提出自我学习将成为重点,谷歌将越来越多地依赖模型来改进Gemini的不同部分,甚至由模型和智能体协同生成模型中的重要部分。奥里奥尔·维尼亚尔斯则关注持续学习,希望模型能通过交互提升而不更新权重,如知识库更新,但目前该能力尚未迎来陡峭的增长曲线。杰夫·迪恩指出,智能体将把谷歌的所有工具逼到极限,暴露出工具交互因适应人类延迟而导致的速度瓶颈。诺姆·沙泽尔幽默地补充,30天里有29天半都花在等待各种列表的加载上了,这揭示了当前系统效率的痛点。
产品形态:单一核心与多元交互
对于五年后的产品形态,科雷·卡武库奥卢给出了惊人预测:只有1个产品,那个产品就是模型。他认为,虽然搜索等功能会以更具“魔法感”的形式存在,但背后均由同一智能核心驱动。杰夫·迪恩赞同此观点,指出强悍的模型可以量身定制、创建出各种小应用和可视化效果,产品外显形式虽多,但核心要素极少。奥里奥尔·维尼亚尔斯从用户体验角度认为,界限分明可能更多是出于人类习惯的考量,他个人仍喜欢“关注点分离”,因此不赌未来只有一个产品。诺姆·沙泽尔则展望了更遥远的未来,包括脑机接口或物理实体产品,即从处理比特转向搬动原子。