大家好,这里是最佳拍档,我是大飞 今天我们要分享的这期视频 受访嘉宾不是普通大厂高管 而是奠定如今全球大模型根基的卢卡斯·凯泽(Lukasz Kaiser) 这位当年撰写《Attention Is All You Need》论文的Transformer八子之一 先后在Google
Brain、OpenAI两大AI黄埔级实验室深耕多年 亲身见证了从2017年Transformer诞生到如今万亿参数大模型遍地开花的全周期发展 在这期对话里 他从一名一线科研亲历者的视角 抛出了一连串相当有意思的观点 比如他说 如今一张桌面级RTX5090消费显卡
就能完整复刻十年前改变AI历史的整套Transformer科研实验 他还说 大模型确实具备跨领域泛化能力 但是它的思考逻辑是完全脱离人类认知的 更一种类似外星人的怪异泛化逻辑 他甚至批评曾经被全网追捧的、用小模型替代大模型论调站不住脚
复杂的产业难题终究绕不开巨型参数的旗舰大模型 今天这期视频 我就来为大家完整拆解一下访谈的内容 看看这位Transformer的缔造者 对AI的当下和未来有着怎样的思考 我们首先从最核心的架构问题聊起 沿用了近十年的Transformer架构 到底还能走多远 未来会不会被全新的后Transformer架构彻底取代呢?
作为架构的原始缔造者 卢卡斯·凯泽的看法非常客观 他明确表态 当下的Transformer虽然撑起了全行业大模型以及多模态产品的基本盘 但是这套架构从来没有进化到理论上本该抵达的性能上限 依然存在大量的底层设计短板 也正是这些客观短板 催生了全球各大实验室
扎堆投入后Transformer新架构的研发浪潮 不过截止目前 还没有任何一款备选架构跑出决定性的优势 谁能成为下一代AI底层基座 整个行业依旧没有定论 现在市面上所有多模态大模型 从图文生成到音视频联动产品
看似落地成果遍地开花 但是卢卡斯直言 现阶段的多模态产品 没有实现任何底层架构层面的革命性优化 都是多模态落地 所有多模态落地本质都是在现有Transformer框架上做拼接改造 人类视觉接收画面 是毫秒级同步完成全局信息的抓取 可现有的Transformer处理高清图像
必须把整张图片切割成无数小块Token 逐个输入计算 整个处理流程高度线性 这种拆分逻辑直接导致模型无法在毫秒尺度 完整吸收一张高分辨率图像 这也是目前多模态产品在实景理解和物理世界感知层面 频繁翻车的底层根源 卢卡斯明确的提醒道 大模型想要吃透一个基础概念 需要消耗万亿级别Token数据
几乎穷尽所有表层数据样本之后 才能勉强提炼出底层逻辑 而人类的学习模式刚好相反 我们依靠少量具象案例和零散信息 就能自主总结规律 甚至凭空创造全新的概念 简单举例 人类小朋友见过三四种不同类型的猫 就能总结出猫的通用特征
后续见到新品种的猫咪可以瞬间识别 但是大模型需要投喂海量猫咪图片和文字描述 遍历几乎所有猫咪品类的样本 才能稳定完成猫咪识别任务 从这个维度来看 现有Transformer的学习效率和人类大脑存在数量级上的差距 这也是Yann LeCun常年坚持研发全新架构的核心动因 当然行业内部也有反对声音
很多大厂研究员认为全球互联网、行业沉淀的文本 以及图像数据的储量足够庞大 只要持续扩充数据体量 完全可以填平架构带来的性能缺陷 没必要投入巨额成本研发全新的后Transformer架构 但是卢卡斯从落地瓶颈的角度提出了不同的观点 现在大量容易靠海量数据解决的标准化问题 已经几乎都被逐个攻克
未来剩余的AI落地场景 瓶颈几乎都会被数据体量所牢牢限制 尤其是物理世界相关的落地项目 最典型的就是自动驾驶赛道 聊到自动驾驶 卢卡斯拿全球标杆企业Waymo举了实例
Waymo在模拟环境中累计跑完了数百万英里的虚拟路况 现实道路的落地里程同样达到了海量级别 在城市常规路况、封闭园区里 自动驾驶表现稳定 但是一遇到高速公路的临时施工路段 就极易出现决策失误 反观人类驾驶员 哪怕是刚拿到驾照的青少年 也能够轻松理解施工区域的通用特征 不管是城市道路
还是高速路面出现的围挡施工 都可以依靠过往经验灵活应对 这种落地差距 本质就是现有模型泛化能力 受限于数据与架构的具象体现 而想要靠逐个补充各类施工场景数据、修补漏洞 成本和周期会无限攀升 顺着落地应用往下延伸 卢卡斯给出了另一个关键判断 AI Agent 是过去二十年
机器学习研究员工作方式最大的颠覆性变革 没有之一 从业二十余年 他经历了从手写全量代码、反复调试底层算法 到如今依靠AI Agent辅助全流程科研的完整变迁 Agent工具链的出现 更是直接重构了整个AI研发的工作链路 而这种变革
也反向改变了科研人员的思维模式 打破了大众长期以来 认为AI会让人思维懒惰的刻板偏见 这部分也是卢卡斯个人实操体验最丰富的 他结合自己复现多年前遗失源码的老论文经历 用真实工作量的变化 来佐证AI对科研效率的提升 早年他亲自复现了其中一篇经典论文 从零梳理代码、调试环境、修复BUG
前前后后耗费整整三周时间 才跑通全量实验 现在借助Codex 相同的复现任务仅仅两天就能全部落地完成 效率提升还只是表层变化 更深层的改变在于工作的并行度 过去做科研 同一时段只能聚焦单个课题 大量精力被语法拼写、函数命名、基础代码BUG占用 现在他可以同时并行启动三项不同方向的科研任务
基础代码实现全交由AI完成 自身只需要把控整体实验逻辑、损失函数设计、指标管控这些顶层内容 他现在已经完全抛弃传统的代码编辑器 日常工作全程靠口述指令让AI修改、迭代代码 但是也正因为不用纠结细碎的代码问题
人类研究员必须牢牢守住全局逻辑控制权 他举了一个很真实的踩坑案例 AI在调试模型时 会自作主张新增额外的辅助损失函数 AI本身认为这个优化方向是合理的 但是实际落地后 会直接导致实验数据全面失真、模型训练彻底跑偏 想要规避这类隐性错误 研究员必须时刻保持对底层算法和训练逻辑的高度清醒
也正是这种需要时刻管控AI潜在失误的工作模式 倒逼研究员的宏观思维持续精进 如今全球AI科研圈甚至出现了轻度的“精神狂热” 研究员借助AI快速落地想法 新的研究灵感源源不断 很难停下研发探索的脚步 顺着Codex的落地表现 主持人顺势聊到了OpenAI此前公开的规划 在今年11月左右
推出达到全职研究员水准的AI实习生产品 卢卡斯则认为 目前AI距离真正的研究员还有不可逾越的鸿沟 他做过针对性测试 给AI下达一个目标 在原有模型基础上优化困惑度指标 让模型效果进一步提升 放任AI自主通宵迭代参数
最终AI只会做大量无意义的微小参数微调 全程还无法触达能够真正优化模型性能的有效方案 简单来说 当前AI还不具备研究员级别的创新试错和跨方案的探索能力 想要落地真正意义上的AI研究员实习生 不管是依靠现有Transformer+持续堆数据微调 还是等待后Transformer新架构的落地
都还有很长的迭代周期 在访谈进入中段后 话题落到困扰行业多年的长上下文技术难题上 这里卢卡斯抛出了一个极具反差感的观点 现在落地效果最好的长上下文解决方案 在五年前会被所有研究员 视作粗劣的临时补救方案 这套方案的逻辑其实非常朴素 核心就是把海量文本拆分存入本地文件
借助文本检索工具grep来做关键词检索 再让AI自主生成文档索引 靠文件存储+本地检索的方式 绕开原生注意力机制在超长上下文下 算力爆炸的缺陷 熟悉早期NLP研发的朋友都清楚 早年行业研究长上下文
所有人都在优化注意力算法、改造位置编码、设计稀疏注意力架构 没人能想到最后落地的最优解 竟然是靠传统的文本检索工具 卢卡斯补充道 这套方案能进一步搭配强化学习驱动的上下文压缩技术 Codex在对话压缩层面的表现优于Claude Code 也正是依托这种针对性强化学习优化的上下文压缩能力
哪怕在五年前有人提出这套落地思路 业内研究员都会把它判定为 是治标不治本的创可贴方案 但是在工程落地领域 从来不以方案设计的优雅度评判优劣 最终落地效果才是唯一的标准 而文件+检索+索引的组合 在商用长上下文落地场景里 表现出了远超各类花哨的算法改造 聊完工程落地层面的细节
两人把话题拔高到了模型能力跃迁的问题上 近一年 Codex、Claude Code代码模型迎来了跨越式的能力提升 但是整个行业至今无法精准定位能力暴涨的核心诱因 没人能确定是强化学习的参数调整、训练数据的迭代
亦或是提示词工程优化这些单一因素导致的 还是多重变量叠加催生的质变 正是因为突破的根源十分模糊 所以各大厂商的后续技术迭代方向 只能在试错中摸索 随后两人延伸讨论了 模型可验证领域与不可验证领域的发展边界 卢卡斯纠正了行业的两大认知误区 第一,编程属于全维度的可验证领域 但是对于前端开发这类场景
页面效果和交互体验没有绝对统一的标准答案 可验证性大幅下降 第二 数学被行业过度神化了可验证属性 只有借助Lean形式化后的数学题目 能够精准验证 市面上绝大多数大模型训练用的数学题干 证明过程其实都没有标准化核验路径 同样处于半可验证的区间 以诗歌跨语种翻译举例 诗词的韵律和文化梗
可以依靠多轮模型交叉核验 来实现部分量化验证 但是译文的文学品味和文字氛围感 无法用标准化指标校验 属于典型的不可验证场景 针对这类不可验证场景 当下通用的解法是大规模引入人工标注 招募人类对生成内容打分评级
靠海量标注的数据不断修补模型短板 但是这套方案有一个天生缺陷 那就是虽然所有发现的模型漏洞 都可以靠堆砌数据 暂时封堵 却无法让模型从底层理解内容的本质 新漏洞会源源不断的持续出现 陷入无限堆数据补坑的循环 紧接着卢卡斯给出了本期访谈中最出圈的核心观点 大模型不是不具备跨域泛化能力
而是在以人类无法理解的“外星人逻辑”来完成泛化 他用几何题型作为具象案例 同一套大模型 可以顺利攻克高等代数、数理逻辑等超高难度的数学难题 但是在欧式几何题型上持续翻车 业内一度判定模型缺少空间感知的底层能力 可是后续仅仅靠补充海量几何题库的文本数据 没有新增任何实景和空间图像训练素材
模型突然就能批量破解几何难题 站在人类视角 代数和几何同属数学大类 逻辑具备高度的关联性 人类学会代数 能够自然迁移部分解题思路到几何 但是在模型的特征表征空间里 两类内容处于完全割裂的位置 跨域迁移无法自然发生
只能靠海量同领域数据重新学习 这种锯齿状的怪异泛化 直接导致大模型的能力边界 充满了不可预知的隐性盲区 你永远不知道模型在哪一个看似相近的细分领域突然失效 这也是很多企业落地AI系统时 不敢全权交由模型自主运行的关键原因 不过这种非人类逻辑的泛化特性 从另一个层面倒逼使用方保持严谨
客观上提升了科研与工程落地的严谨度 顺着模型能力的讨论 两人切入了近两年行业热议的大小模型路线之争 前两年行业普遍出现 大模型走到天花板 轻量化小模型才是未来的主流论调 随着Gemma等开源小模型不断刷新性能上限 小模型在轻量化部署和低成本落地场景中 确实交出了亮眼的答卷 但是卢卡斯坚持自己的判断
小模型永远无法完全替代巨型参数的旗舰大模型 从实操落地来看 蒸馏而来的轻量化模型 可以承接日常的标准化需求 性价比优势突出 但是一旦面对复杂产业定制、前沿科研攻坚等重大问题 巨型原生大模型的综合能力下限和隐性泛化能力
是蒸馏小模型无法追赶的 他分享了自己的日常使用经历 平时测试任务会优先选用轻量化的小模型 大部分常规任务可以运转正常 但是总会在某个细分难点突然崩盘 最终只能换回原生大模型推进工作 延伸到开源与闭源模型的未来格局 卢卡斯预判 两者会长期并行共存 闭源大厂手握顶尖的原生大模型
靠持续技术迭代守住商业化的领先优势 而各国政企出于数据主权和信息安全需求 会持续投入开源模型的研发 哪怕开源模型的综合性能 弱于同期闭源产品 本土化部署刚需也会持续驱动开源生态的迭代 短期内不存在一方彻底取代另一方的可能性 随后 话题转到了硬件迭代对AI科研的颠覆性改变
2017年卢卡斯和Transformer团队研发初代Transformer时 实验室的顶配是八卡GPU集群 整套设备总算力仅70~80 TFLOPS 而2026年消费级旗舰RTX5090 FP32的官方峰值算力标称约为400T FLOPS
BF16精度下的实际有效算力约200T FLOPS 单张显卡算力就达到了当年整套八卡集群的2.5倍以上 换算一下 如今任何人只需要在桌面配置一张RTX5090 就能在家完整复现2017年Transformer诞生以来所有经典科研实验 硬件性能暴涨之外 AI辅助编写CUDA内核
进一步打破了硬件适配的瓶颈 早年想要优化代码适配GPU硬件 研究员需要手动编写复杂的CUDA底层代码 调试周期漫长 现在只需要向AI下达优化指令 短时间内AI就能完成定制化内核的开发 过去受限于硬件适配无法落地的小众算法 如今普通个人研究者就能低成本落地测试 硬件成本的持续下行
直接拉低了AI前沿研究的入场门槛 高校课题组、独立个人开发者 不用再依附头部AI大厂的海量算力资源 就能开展后Transformer新架构的小规模探索 哪怕多数的小众创新最终无法实现规模化落地 但是源源不断的民间创新
持续为全行业提供了新的研发思路 硬件带来研发门槛变革之后 卢卡斯结合自身在Google、OpenAI的从业经历 深度拆解了全球三大AI巨头OpenAI、Anthropic、Google的差异化发展抉择 首先是OpenAI 它在发展路上最关键的战略抉择 就是全面押注深度推理模型
在早期推理模型响应缓慢、对话效果不及纯聊天模型的质疑声中 全公司集中资源攻坚o1、o3系列推理模型 也正是这次孤注一掷的投入 让OpenAI在复杂推理赛道 长期保有先发优势 但是随着OpenAI用户体量突破十亿 成长为巨型商业化企业 过往初创阶段敢于不计成本豪赌冷门方向的激进企业文化逐步收敛
大公司受制于庞大的用户体量和合规风险 很难再毫无顾虑地all in前景不明的前沿冷门架构研发 其次是Anthropic 在通用聊天赛道难以正面抗衡手握ChatGPT的OpenAI的前提下 果断选择差异化路线
全公司聚焦代码模型研发 Claude Code凭借精准的产品定位 在代码商用赛道撕开市场缺口 成为能和Codex分庭抗礼的产品 最后是谷歌 谷歌采用全赛道、广撒网的研发布局 几乎所有前沿技术方向都会配套专属的研发团队 这种模式的短板是很难像Anthropic一样单点突破 抢占先发红利
但是优势在于无论未来哪一条技术路线成为行业主流 谷歌都能依托前期技术储备 快速后发追赶 最新一代谷歌大模型在通用对话层面 已经追平了ChatGPT的水准 但是在代码推理细分场景 距离Codex还有小幅差距 聊到行业热点 主持人顺势问到安德烈·卡帕西(Andrej
Karpathy)入职Anthropic 主攻递归自我提升RSI项目一事 卢卡斯表示RSI的赛道潜力巨大 但是研发的难度远超市场预期 即便依托顶尖的AI Agent加速科研 人类几十年的科研积淀 都没能破解通用自我进化的底层逻辑
仅凭短期投入很难落地突破性的成果 大量研发方向大概率会走入死胡同 聊完厂商格局 两人聚焦了AI编程赛道的未来走向 卢卡斯认为 当下Codex和Claude Code组成的双寡头格局会长期稳定 编程赛道的市场体量 足够容纳两款头部产品共存 编程只是AI落地的阶段性风口
全行业的职业化Agent才是下一个万亿级蓝海市场 代码模型的底层能力已经可以迁移到会计做账、法律文书撰写、医疗病历整理等各行各业 但是目前产品落地存在明显的使用门槛 以Codex举例 产品最初使用需要用户提供GitHub仓库信息 直接劝退大量非技术从业者 虽然产品经过持续优化 降低了使用门槛
但是想要让各行各业的普通职场人 无门槛的使用AI Agent 还需要产品形态和交互逻辑层面的持续迭代优化 除此之外 用户信任建立是全行业落地的另一重难点 即便AI阶段性的表现完美 企业也不会轻易把核心业务全权交由AI自主管控
因此,循序渐进的试用和迭代 是职业化Agent落地的必经之路 访谈后半段进入了AI安全的相关议题 针对AI会不会诞生自主意识、最终灭绝人类的存在性风险 卢卡斯给出了审慎的看法 他长期保持不极端悲观、也不掉以轻心的中立态度 认为现阶段相比虚无缥缈的物种灭绝风险 他更警惕AI
Agent被恶意滥用带来的现实危害 比如不法分子借助AI能力入侵政企信息系统、恶意篡改电网控制系统、瘫痪关键基础设施等等 他并不否认长期存在性风险研究的价值 认为行业需要持续划定安全红线、完善管控预案 理论上 人类具备关停超算数据中心、切断大模型算力供给的管控能力 但是以当下大模型的智能水平
短期内还不存在自主脱离人类管控和威胁人类存续的客观条件 视频的收尾部分 主持人抛出一个行业圈内人都好奇的问题 Transformer八子其余七位成员陆续离开大厂创业 唯独卢卡斯·凯泽没有选择创办AI公司 背后是什么原因呢?
卢卡斯坦言,多位合作伙伴创业之后 大部分精力都消耗在了公司管理、融资和商业化运营上 真正留给一线算法研发的时间被大幅压缩 而他自己发自内心热爱底层技术研究 不管是在Google Brain还是OpenAI任职 都能够全身心聚焦算法实验和架构探索 不用被商业化琐事牵绊 因此时至今日
他依旧坚持深耕研发岗位 最后 卢卡斯总结了一下全行业的发展逻辑 未来AI会保持双线并行的发展节奏 一方面 各大厂商持续深挖现有Transformer架构的商业化潜力 依托海量数据和算力 把现有产品落地到各行各业 另一方面 全球大量实验室、独立研究者 会持续投入后Transformer全新架构的探索
两条路线互相补充、双向促进 也是AI行业能够持续保持高速迭代的核心动力 好了 以上就是卢卡斯这次访谈的核心内容了 整体来看 他对AI发展的观点还是非常理性和克制的 那大家是如何看待他的观点呢 欢迎在评论区留言
感谢收看,我们下期再见