谷歌AI的14年、Gemini翻身之战，与视觉理解模型：专访DeepMind前核心科学家Andrew Dai｜Neolabs特辑

谷歌AI编年史与Andrew Dai的14年

Andrew Dai在谷歌的14年职业生涯，实质上构成了这家科技巨头在深度学习时代发展的一部微观编年史。他长期处于Google Brain和DeepMind这两个核心研究项目的中心地带，参与了从早期启发GPT的序列学习、文本生成、对抗训练，到后来的MoE架构、PaLM、Flan、Gemini、多模态以及长上下文等几乎所有关键技术的研发。与他共同发表论文的合作伙伴，几乎涵盖了谷歌AI领域的所有传奇人物，包括Quoc Le、Ian Goodfellow、Liam Fedus以及Jeff Dean等业界大佬。

"Andrew Dai在谷歌的14年，可以说是这家科技巨头在深度学习时代的AI编年史。"

在Gemini 3.0顺利上线之后，Andrew Dai选择了离开谷歌。他观察到了一条大公司"不敢走"的路——这既不是纯语言模型，也不是世界模型，而是语言与视觉推理的结合。他的新公司Elorian AI于今年4月完成了5500万美元的融资，且谷歌传奇人物Jeff Dean以个人身份参与了投资。随着2026年Google I/O大会的临近，此次专访回顾了谷歌过去14年AI发展的起伏：如何错过机会、如何落后、如何追赶，以及如何重新确立霸主地位。

硅谷Neolabs：信仰不同未来的科学家

硅谷虽然没有秘密，但存在一群信仰不同未来的科学家。在巨头们纷纷押注SOTA（State-of-the-Art）大语言模型之际，众多科技领军人物选择出逃，创建自己的AI前沿新实验室，即Neolabs。这些新实验室不单纯比拼算力和参数规模，而是希望找到一条真正达到智能的路径。硅谷101开启"Neolabs特辑"，旨在与这群科学家深度对话，探讨他们眼中的AGI（通用人工智能）之路。

本期视频是该特辑的第一期，采访嘉宾为Andrew Dai，现任Elorian AI联合创始人兼CEO，前谷歌DeepMind研究总监。视频内容涵盖了从伦敦到硅谷的早期经历、两次收购背后的哲学差异、半监督序列学习的遗憾、医疗AI的失败教训，以及Gemini系列模型的迭代内幕。通过这段访谈，观众可以深入了解大厂内部的技术决策逻辑与科学家的个人思考。

从伦敦到硅谷：Google Now与早期哲学碰撞

Andrew Dai的职业生涯始于伦敦，随后前往硅谷加入谷歌。在早期，他参与了Google Now的开发，这是一个基于个性化分发的智能助手项目。这一阶段的工作让他深入理解了用户意图识别与信息推送的重要性。随后，谷歌进行了两次重要的收购，这两次收购代表了两种不同的技术哲学：一是Geoffrey Hinton带来的深度学习理念，二是DeepMind选择的独立研究路径。

"两次收购、两种哲学：Hinton带来深度学习，DeepMind选择独立。"

Hinton的加入为谷歌带来了深厚的神经网络理论基础，而DeepMind的收购则引入了强化学习和自主智能体的研究范式。这两种哲学在谷歌内部产生了深刻的碰撞与融合。Andrew Dai身处这一变革的中心，见证了深度学习如何从理论走向大规模应用，以及DeepMind如何在独立性与谷歌生态之间寻找平衡。这一时期的经历为后来Google Brain和DeepMind的整合埋下了伏笔，也塑造了谷歌在AI研究上的双重驱动模式。

半监督序列学习：被错过的"GPT时刻"

在早期研究中，Andrew Dai团队开发了半监督序列学习技术，这项技术在文本生成和序列建模方面取得了显著进展。然而，由于内部资源分配和战略重心的转移，这项技术未能成为谷歌当时的核心发力点。Andrew Dai认为，这是谷歌在AI发展史上错过的一次"GPT时刻"。如果当时能够更坚定地推进这一方向，谷歌可能在早期大语言模型的竞争中占据更有利的位置。

"半监督序列学习：谷歌错过的'GPT时刻'。"

这项技术的核心在于利用大量未标注数据进行预训练，再通过少量标注数据进行微调。这种方法在理论上具有极高的效率，但在当时的谷歌内部，资源更多地倾斜向了其他项目。Andrew Dai指出，战略决策的滞后往往比技术本身的缺陷更具破坏性。这一教训后来深刻影响了他在Elorian AI的创业方向，即更加注重技术路线的独立性与前瞻性，避免重蹈大厂因保守而错失良机的覆辙。

谷歌健康：跨界医疗AI的失败教训

谷歌曾尝试将AI技术跨界应用到医疗健康领域，推出了谷歌健康相关项目。然而，这一尝试最终以失败告终。Andrew Dai回顾了其中的教训，指出医疗AI的复杂性远超预期，不仅涉及技术难题，还涉及数据隐私、伦理合规以及临床落地的巨大障碍。谷歌在技术上的优势在医疗领域并未转化为实际的成功，反而因为对行业壁垒的低估而付出了高昂的代价。

"谷歌健康：跨界医疗AI失败的教训。"

这一失败案例表明，通用AI技术不能直接套用于垂直领域，尤其是医疗这种高门槛、高监管的行业。谷歌在内部反思中意识到，缺乏对领域专家的深度整合以及对临床工作流的充分理解，是导致项目失败的关键因素。这一教训后来被应用到其他垂直领域的AI探索中，强调了领域知识与AI技术深度融合的重要性。Andrew Dai认为，这一失败虽然痛苦，但也为后续的研究提供了宝贵的经验，避免了在错误方向上的持续投入。

MaskGAN与强化学习：提升生成质量的创新

在文本生成领域，Andrew Dai团队提出了MaskGAN模型，通过引入填空任务的探索机制，大幅提升了文本生成的质量。MaskGAN的核心思想是让模型在生成过程中不断自我纠错，通过掩码预测来优化生成结果。这一方法在多个基准测试中表现优异，成为当时文本生成领域的重要突破。

"MaskGAN：引入填空任务探索，大幅提升文本生成质量。"

此外，Andrew Dai团队还是首批将强化学习（RL）用于预训练的团队之一。他们探索了如何让大模型学会自我纠错，通过奖励模型来引导生成过程，从而减少幻觉和错误。这一研究方向在当时极具前瞻性，为后来的RLHF（基于人类反馈的强化学习）奠定了基础。Andrew Dai指出，强化学习在预训练阶段的应用能够显著提升模型的鲁棒性和准确性，是大模型走向实用的关键一步。这些创新虽然未在当时的产品中大规模落地，但为后续的技术演进提供了重要的理论支撑。

MoE架构：从研发到"雪藏"再到Gemini的回归

MoE（Mixture of Experts，混合专家）架构是Andrew Dai团队在2021年研发的一项重要技术。MoE通过动态路由机制，让模型在不同输入下激活不同的子网络，从而在保持模型规模的同时大幅提升推理效率。然而，这项技术在被研发出来后，被谷歌内部"雪藏"了数年，直到Gemini 1.5版本才重新被启用。

"MoE架构：2021年研发，被谷歌'雪藏'至Gemini 1.5。"

Andrew Dai解释，MoE架构的"雪藏"主要源于工程实现的复杂性和内部资源的竞争。在当时，谷歌更倾向于追求模型规模的线性扩展，而MoE需要更复杂的分布式训练和推理基础设施。直到Gemini系列需要应对更长的上下文和更复杂的任务时，MoE的优势才重新被重视。这一经历反映了大厂在技术创新与工程落地之间的权衡，往往导致前沿技术在内部经历漫长的等待期。Andrew Dai认为，这种保守策略虽然降低了短期风险，但也可能错失技术领先的最佳窗口期。

PaLM 2与FLAN：顺滑预训练与对话能力的突破

PaLM 2是谷歌在MoE架构回归前的重要模型，其预训练过程被描述为"极致顺滑"，在多项基准测试中表现优异。然而，PaLM 2在发布时却遭GPT-4抢走风头，未能引起足够的市场关注。Andrew Dai认为，PaLM 2的技术实力并不逊色于GPT-4，但在营销和生态建设上存在不足。

"PaLM 2：极致顺滑的预训练，却遭GPT-4抢走风头。"

与此同时，FLAN（Finetuned Language Models）项目则让ChatGPT式的对话能力成为可能。FLAN通过大规模的指令微调，显著提升了模型的对话理解和生成能力。Andrew Dai指出，FLAN的成功在于其数据选择的精准性和微调策略的有效性。这一项目为后续的Gemini系列奠定了对话交互的基础，使得谷歌在对话式AI领域重新具备了竞争力。FLAN的经验表明，数据质量和微调方法往往比单纯的模型规模更能决定最终的用户体验。

DeepMind与Google Brain的整合与Gemini的仓促上线

2023年，DeepMind与Google Brain被迫进行整合，这一事件被Andrew Dai形容为"拉响红色警报"。两个团队的融合带来了文化冲突和技术路线的碰撞，导致内部决策效率下降。在这种背景下，Gemini 1.0的上线显得尤为仓促，为了追赶进度，团队不得不舍弃MoE创新，采用更传统的架构。

"拉响红色警报：DeepMind与Google Brain的被迫整合与碰撞。"

Andrew Dai指出，Gemini 1.0的仓促上线是内部政治和资源压力的结果，而非技术成熟度的体现。这一版本在性能上虽然达到了一定的水平，但未能充分发挥谷歌在MoE和长上下文方面的技术积累。相比之下，Gemini 2.0则进行了重大调整，其最大的差异点在于数据的选择。团队通过精心筛选和构建高质量数据集，显著提升了模型的理解和推理能力。

Gemini 3.0与离职创业：追寻研究自由

Gemini 3.0的发布标志着谷歌在多模态和长上下文领域的重新领先。然而，Andrew Dai在Gemini 3.0上线后选择了离职。他观察到，大厂在追求稳定和商业化的过程中，往往限制激进创新，导致技术路线趋于保守。他选择离开，是为了追寻研究自由，探索一条不同于大厂的路径。

"Gemini 3.0：大厂求稳限制激进创新，选择离职追寻研究自由。"

Andrew Dai的新公司Elorian AI专注于视觉推理，他认为这是通往AGI的关键路径。与纯语言模型不同，视觉推理要求模型具备更强的空间理解和逻辑推理能力。Elorian AI在成立初期就获得了5500万美元的融资，Jeff Dean的个人投资也显示了业界对其技术路线的认可。Andrew Dai认为，视觉与语言的结合将是下一代AI的核心竞争力，而这一方向在大厂内部尚未得到足够的重视。

研究品味与引路人：时间是最宝贵的资源

在回顾14年的谷歌生涯时，Andrew Dai强调了"研究品味"的重要性。他认为，优秀的科学家需要具备独立判断和长期主义的思维，不被短期的指标所束缚。在他的职业生涯中，多位引路人对他产生了深远影响，包括Quoc Le、Ian Goodfellow等。他们不仅传授了技术，更传递了对真理的追求和对创新的执着。

"'最重要的资源是时间'：谷歌14年的研究品味与引路人。"

Andrew Dai指出，时间是科学家最宝贵的资源。在谷歌，他学会了如何在庞大的组织中保持独立思考，如何在资源有限的情况下做出最优的技术决策。这些经验不仅塑造了他的职业生涯，也影响了他当前的创业理念。在Elorian AI，他将继续坚持高质量研究和长期投入，致力于探索真正智能的AI路径。

彩蛋：AI科学家的办公环境

在访谈的最后，Andrew Dai分享了一些关于AI科学家办公环境的趣事。他提到，绿植和白天蒸桑拿等看似无关的元素，实际上对科学家的创造力和身心健康有着积极的影响。良好的办公环境能够激发灵感，缓解压力，从而提升工作效率。这一彩蛋为严肃的技术讨论增添了一丝轻松的氛围，也反映了硅谷科技公司对员工福祉的重视。

"彩蛋：office tour：AI科学家需要绿植和白天蒸桑拿？😁"

Andrew Dai认为，人性化的办公环境是吸引和留住顶尖人才的重要因素。在Elorian AI，他也致力于打造一个舒适且富有创造力的工作空间，以支持团队的长期研发工作。这一细节虽然微小，却体现了他对以人为本的管理理念的认同。