AI科研圈的精神狂热 | Transformer作者Lukasz Kaiser | 底层设计短板 | 模型的学习效率 | 完全抛弃IDE | 思考逻辑像外星人 | 长上下文难题

大家好，这里是最佳拍档，我是大飞今天我们要分享的这期视频受访嘉宾不是普通大厂高管而是奠定如今全球大模型根基的卢卡斯·凯泽（Lukasz Kaiser）这位当年撰写《Attention Is All You Need》论文的Transformer八子之一先后在Google

Brain、OpenAI两大AI黄埔级实验室深耕多年亲身见证了从2017年Transformer诞生到如今万亿参数大模型遍地开花的全周期发展在这期对话里他从一名一线科研亲历者的视角抛出了一连串相当有意思的观点比如他说如今一张桌面级RTX5090消费显卡

就能完整复刻十年前改变AI历史的整套Transformer科研实验他还说大模型确实具备跨领域泛化能力但是它的思考逻辑是完全脱离人类认知的更一种类似外星人的怪异泛化逻辑他甚至批评曾经被全网追捧的、用小模型替代大模型论调站不住脚

复杂的产业难题终究绕不开巨型参数的旗舰大模型今天这期视频我就来为大家完整拆解一下访谈的内容看看这位Transformer的缔造者对AI的当下和未来有着怎样的思考我们首先从最核心的架构问题聊起沿用了近十年的Transformer架构到底还能走多远未来会不会被全新的后Transformer架构彻底取代呢？

作为架构的原始缔造者卢卡斯·凯泽的看法非常客观他明确表态当下的Transformer虽然撑起了全行业大模型以及多模态产品的基本盘但是这套架构从来没有进化到理论上本该抵达的性能上限依然存在大量的底层设计短板也正是这些客观短板催生了全球各大实验室

扎堆投入后Transformer新架构的研发浪潮不过截止目前还没有任何一款备选架构跑出决定性的优势谁能成为下一代AI底层基座整个行业依旧没有定论现在市面上所有多模态大模型从图文生成到音视频联动产品

看似落地成果遍地开花但是卢卡斯直言现阶段的多模态产品没有实现任何底层架构层面的革命性优化都是多模态落地所有多模态落地本质都是在现有Transformer框架上做拼接改造人类视觉接收画面是毫秒级同步完成全局信息的抓取可现有的Transformer处理高清图像

必须把整张图片切割成无数小块Token 逐个输入计算整个处理流程高度线性这种拆分逻辑直接导致模型无法在毫秒尺度完整吸收一张高分辨率图像这也是目前多模态产品在实景理解和物理世界感知层面频繁翻车的底层根源卢卡斯明确的提醒道大模型想要吃透一个基础概念需要消耗万亿级别Token数据

几乎穷尽所有表层数据样本之后才能勉强提炼出底层逻辑而人类的学习模式刚好相反我们依靠少量具象案例和零散信息就能自主总结规律甚至凭空创造全新的概念简单举例人类小朋友见过三四种不同类型的猫就能总结出猫的通用特征

后续见到新品种的猫咪可以瞬间识别但是大模型需要投喂海量猫咪图片和文字描述遍历几乎所有猫咪品类的样本才能稳定完成猫咪识别任务从这个维度来看现有Transformer的学习效率和人类大脑存在数量级上的差距这也是Yann LeCun常年坚持研发全新架构的核心动因当然行业内部也有反对声音

很多大厂研究员认为全球互联网、行业沉淀的文本以及图像数据的储量足够庞大只要持续扩充数据体量完全可以填平架构带来的性能缺陷没必要投入巨额成本研发全新的后Transformer架构但是卢卡斯从落地瓶颈的角度提出了不同的观点现在大量容易靠海量数据解决的标准化问题已经几乎都被逐个攻克

未来剩余的AI落地场景瓶颈几乎都会被数据体量所牢牢限制尤其是物理世界相关的落地项目最典型的就是自动驾驶赛道聊到自动驾驶卢卡斯拿全球标杆企业Waymo举了实例

Waymo在模拟环境中累计跑完了数百万英里的虚拟路况现实道路的落地里程同样达到了海量级别在城市常规路况、封闭园区里自动驾驶表现稳定但是一遇到高速公路的临时施工路段就极易出现决策失误反观人类驾驶员哪怕是刚拿到驾照的青少年也能够轻松理解施工区域的通用特征不管是城市道路

还是高速路面出现的围挡施工都可以依靠过往经验灵活应对这种落地差距本质就是现有模型泛化能力受限于数据与架构的具象体现而想要靠逐个补充各类施工场景数据、修补漏洞成本和周期会无限攀升顺着落地应用往下延伸卢卡斯给出了另一个关键判断 AI Agent 是过去二十年

机器学习研究员工作方式最大的颠覆性变革没有之一从业二十余年他经历了从手写全量代码、反复调试底层算法到如今依靠AI Agent辅助全流程科研的完整变迁 Agent工具链的出现更是直接重构了整个AI研发的工作链路而这种变革

也反向改变了科研人员的思维模式打破了大众长期以来认为AI会让人思维懒惰的刻板偏见这部分也是卢卡斯个人实操体验最丰富的他结合自己复现多年前遗失源码的老论文经历用真实工作量的变化来佐证AI对科研效率的提升早年他亲自复现了其中一篇经典论文从零梳理代码、调试环境、修复BUG

前前后后耗费整整三周时间才跑通全量实验现在借助Codex 相同的复现任务仅仅两天就能全部落地完成效率提升还只是表层变化更深层的改变在于工作的并行度过去做科研同一时段只能聚焦单个课题大量精力被语法拼写、函数命名、基础代码BUG占用现在他可以同时并行启动三项不同方向的科研任务

基础代码实现全交由AI完成自身只需要把控整体实验逻辑、损失函数设计、指标管控这些顶层内容他现在已经完全抛弃传统的代码编辑器日常工作全程靠口述指令让AI修改、迭代代码但是也正因为不用纠结细碎的代码问题

人类研究员必须牢牢守住全局逻辑控制权他举了一个很真实的踩坑案例 AI在调试模型时会自作主张新增额外的辅助损失函数 AI本身认为这个优化方向是合理的但是实际落地后会直接导致实验数据全面失真、模型训练彻底跑偏想要规避这类隐性错误研究员必须时刻保持对底层算法和训练逻辑的高度清醒

也正是这种需要时刻管控AI潜在失误的工作模式倒逼研究员的宏观思维持续精进如今全球AI科研圈甚至出现了轻度的“精神狂热” 研究员借助AI快速落地想法新的研究灵感源源不断很难停下研发探索的脚步顺着Codex的落地表现主持人顺势聊到了OpenAI此前公开的规划在今年11月左右

推出达到全职研究员水准的AI实习生产品卢卡斯则认为目前AI距离真正的研究员还有不可逾越的鸿沟他做过针对性测试给AI下达一个目标在原有模型基础上优化困惑度指标让模型效果进一步提升放任AI自主通宵迭代参数

最终AI只会做大量无意义的微小参数微调全程还无法触达能够真正优化模型性能的有效方案简单来说当前AI还不具备研究员级别的创新试错和跨方案的探索能力想要落地真正意义上的AI研究员实习生不管是依靠现有Transformer+持续堆数据微调还是等待后Transformer新架构的落地

都还有很长的迭代周期在访谈进入中段后话题落到困扰行业多年的长上下文技术难题上这里卢卡斯抛出了一个极具反差感的观点现在落地效果最好的长上下文解决方案在五年前会被所有研究员视作粗劣的临时补救方案这套方案的逻辑其实非常朴素核心就是把海量文本拆分存入本地文件

借助文本检索工具grep来做关键词检索再让AI自主生成文档索引靠文件存储+本地检索的方式绕开原生注意力机制在超长上下文下算力爆炸的缺陷熟悉早期NLP研发的朋友都清楚早年行业研究长上下文

所有人都在优化注意力算法、改造位置编码、设计稀疏注意力架构没人能想到最后落地的最优解竟然是靠传统的文本检索工具卢卡斯补充道这套方案能进一步搭配强化学习驱动的上下文压缩技术 Codex在对话压缩层面的表现优于Claude Code 也正是依托这种针对性强化学习优化的上下文压缩能力

哪怕在五年前有人提出这套落地思路业内研究员都会把它判定为是治标不治本的创可贴方案但是在工程落地领域从来不以方案设计的优雅度评判优劣最终落地效果才是唯一的标准而文件+检索+索引的组合在商用长上下文落地场景里表现出了远超各类花哨的算法改造聊完工程落地层面的细节

两人把话题拔高到了模型能力跃迁的问题上近一年 Codex、Claude Code代码模型迎来了跨越式的能力提升但是整个行业至今无法精准定位能力暴涨的核心诱因没人能确定是强化学习的参数调整、训练数据的迭代

亦或是提示词工程优化这些单一因素导致的还是多重变量叠加催生的质变正是因为突破的根源十分模糊所以各大厂商的后续技术迭代方向只能在试错中摸索随后两人延伸讨论了模型可验证领域与不可验证领域的发展边界卢卡斯纠正了行业的两大认知误区第一，编程属于全维度的可验证领域但是对于前端开发这类场景

页面效果和交互体验没有绝对统一的标准答案可验证性大幅下降第二数学被行业过度神化了可验证属性只有借助Lean形式化后的数学题目能够精准验证市面上绝大多数大模型训练用的数学题干证明过程其实都没有标准化核验路径同样处于半可验证的区间以诗歌跨语种翻译举例诗词的韵律和文化梗

可以依靠多轮模型交叉核验来实现部分量化验证但是译文的文学品味和文字氛围感无法用标准化指标校验属于典型的不可验证场景针对这类不可验证场景当下通用的解法是大规模引入人工标注招募人类对生成内容打分评级

靠海量标注的数据不断修补模型短板但是这套方案有一个天生缺陷那就是虽然所有发现的模型漏洞都可以靠堆砌数据暂时封堵却无法让模型从底层理解内容的本质新漏洞会源源不断的持续出现陷入无限堆数据补坑的循环紧接着卢卡斯给出了本期访谈中最出圈的核心观点大模型不是不具备跨域泛化能力

而是在以人类无法理解的“外星人逻辑”来完成泛化他用几何题型作为具象案例同一套大模型可以顺利攻克高等代数、数理逻辑等超高难度的数学难题但是在欧式几何题型上持续翻车业内一度判定模型缺少空间感知的底层能力可是后续仅仅靠补充海量几何题库的文本数据没有新增任何实景和空间图像训练素材

模型突然就能批量破解几何难题站在人类视角代数和几何同属数学大类逻辑具备高度的关联性人类学会代数能够自然迁移部分解题思路到几何但是在模型的特征表征空间里两类内容处于完全割裂的位置跨域迁移无法自然发生

只能靠海量同领域数据重新学习这种锯齿状的怪异泛化直接导致大模型的能力边界充满了不可预知的隐性盲区你永远不知道模型在哪一个看似相近的细分领域突然失效这也是很多企业落地AI系统时不敢全权交由模型自主运行的关键原因不过这种非人类逻辑的泛化特性从另一个层面倒逼使用方保持严谨

客观上提升了科研与工程落地的严谨度顺着模型能力的讨论两人切入了近两年行业热议的大小模型路线之争前两年行业普遍出现大模型走到天花板轻量化小模型才是未来的主流论调随着Gemma等开源小模型不断刷新性能上限小模型在轻量化部署和低成本落地场景中确实交出了亮眼的答卷但是卢卡斯坚持自己的判断

小模型永远无法完全替代巨型参数的旗舰大模型从实操落地来看蒸馏而来的轻量化模型可以承接日常的标准化需求性价比优势突出但是一旦面对复杂产业定制、前沿科研攻坚等重大问题巨型原生大模型的综合能力下限和隐性泛化能力

是蒸馏小模型无法追赶的他分享了自己的日常使用经历平时测试任务会优先选用轻量化的小模型大部分常规任务可以运转正常但是总会在某个细分难点突然崩盘最终只能换回原生大模型推进工作延伸到开源与闭源模型的未来格局卢卡斯预判两者会长期并行共存闭源大厂手握顶尖的原生大模型

靠持续技术迭代守住商业化的领先优势而各国政企出于数据主权和信息安全需求会持续投入开源模型的研发哪怕开源模型的综合性能弱于同期闭源产品本土化部署刚需也会持续驱动开源生态的迭代短期内不存在一方彻底取代另一方的可能性随后话题转到了硬件迭代对AI科研的颠覆性改变

2017年卢卡斯和Transformer团队研发初代Transformer时实验室的顶配是八卡GPU集群整套设备总算力仅70~80 TFLOPS 而2026年消费级旗舰RTX5090 FP32的官方峰值算力标称约为400T FLOPS

BF16精度下的实际有效算力约200T FLOPS 单张显卡算力就达到了当年整套八卡集群的2.5倍以上换算一下如今任何人只需要在桌面配置一张RTX5090 就能在家完整复现2017年Transformer诞生以来所有经典科研实验硬件性能暴涨之外 AI辅助编写CUDA内核

进一步打破了硬件适配的瓶颈早年想要优化代码适配GPU硬件研究员需要手动编写复杂的CUDA底层代码调试周期漫长现在只需要向AI下达优化指令短时间内AI就能完成定制化内核的开发过去受限于硬件适配无法落地的小众算法如今普通个人研究者就能低成本落地测试硬件成本的持续下行

直接拉低了AI前沿研究的入场门槛高校课题组、独立个人开发者不用再依附头部AI大厂的海量算力资源就能开展后Transformer新架构的小规模探索哪怕多数的小众创新最终无法实现规模化落地但是源源不断的民间创新

持续为全行业提供了新的研发思路硬件带来研发门槛变革之后卢卡斯结合自身在Google、OpenAI的从业经历深度拆解了全球三大AI巨头OpenAI、Anthropic、Google的差异化发展抉择首先是OpenAI 它在发展路上最关键的战略抉择就是全面押注深度推理模型

在早期推理模型响应缓慢、对话效果不及纯聊天模型的质疑声中全公司集中资源攻坚o1、o3系列推理模型也正是这次孤注一掷的投入让OpenAI在复杂推理赛道长期保有先发优势但是随着OpenAI用户体量突破十亿成长为巨型商业化企业过往初创阶段敢于不计成本豪赌冷门方向的激进企业文化逐步收敛

大公司受制于庞大的用户体量和合规风险很难再毫无顾虑地all in前景不明的前沿冷门架构研发其次是Anthropic 在通用聊天赛道难以正面抗衡手握ChatGPT的OpenAI的前提下果断选择差异化路线

全公司聚焦代码模型研发 Claude Code凭借精准的产品定位在代码商用赛道撕开市场缺口成为能和Codex分庭抗礼的产品最后是谷歌谷歌采用全赛道、广撒网的研发布局几乎所有前沿技术方向都会配套专属的研发团队这种模式的短板是很难像Anthropic一样单点突破抢占先发红利

但是优势在于无论未来哪一条技术路线成为行业主流谷歌都能依托前期技术储备快速后发追赶最新一代谷歌大模型在通用对话层面已经追平了ChatGPT的水准但是在代码推理细分场景距离Codex还有小幅差距聊到行业热点主持人顺势问到安德烈·卡帕西（Andrej

Karpathy）入职Anthropic 主攻递归自我提升RSI项目一事卢卡斯表示RSI的赛道潜力巨大但是研发的难度远超市场预期即便依托顶尖的AI Agent加速科研人类几十年的科研积淀都没能破解通用自我进化的底层逻辑

仅凭短期投入很难落地突破性的成果大量研发方向大概率会走入死胡同聊完厂商格局两人聚焦了AI编程赛道的未来走向卢卡斯认为当下Codex和Claude Code组成的双寡头格局会长期稳定编程赛道的市场体量足够容纳两款头部产品共存编程只是AI落地的阶段性风口

全行业的职业化Agent才是下一个万亿级蓝海市场代码模型的底层能力已经可以迁移到会计做账、法律文书撰写、医疗病历整理等各行各业但是目前产品落地存在明显的使用门槛以Codex举例产品最初使用需要用户提供GitHub仓库信息直接劝退大量非技术从业者虽然产品经过持续优化降低了使用门槛

但是想要让各行各业的普通职场人无门槛的使用AI Agent 还需要产品形态和交互逻辑层面的持续迭代优化除此之外用户信任建立是全行业落地的另一重难点即便AI阶段性的表现完美企业也不会轻易把核心业务全权交由AI自主管控

因此，循序渐进的试用和迭代是职业化Agent落地的必经之路访谈后半段进入了AI安全的相关议题针对AI会不会诞生自主意识、最终灭绝人类的存在性风险卢卡斯给出了审慎的看法他长期保持不极端悲观、也不掉以轻心的中立态度认为现阶段相比虚无缥缈的物种灭绝风险他更警惕AI

Agent被恶意滥用带来的现实危害比如不法分子借助AI能力入侵政企信息系统、恶意篡改电网控制系统、瘫痪关键基础设施等等他并不否认长期存在性风险研究的价值认为行业需要持续划定安全红线、完善管控预案理论上人类具备关停超算数据中心、切断大模型算力供给的管控能力但是以当下大模型的智能水平

短期内还不存在自主脱离人类管控和威胁人类存续的客观条件视频的收尾部分主持人抛出一个行业圈内人都好奇的问题 Transformer八子其余七位成员陆续离开大厂创业唯独卢卡斯·凯泽没有选择创办AI公司背后是什么原因呢？

卢卡斯坦言，多位合作伙伴创业之后大部分精力都消耗在了公司管理、融资和商业化运营上真正留给一线算法研发的时间被大幅压缩而他自己发自内心热爱底层技术研究不管是在Google Brain还是OpenAI任职都能够全身心聚焦算法实验和架构探索不用被商业化琐事牵绊因此时至今日

他依旧坚持深耕研发岗位最后卢卡斯总结了一下全行业的发展逻辑未来AI会保持双线并行的发展节奏一方面各大厂商持续深挖现有Transformer架构的商业化潜力依托海量数据和算力把现有产品落地到各行各业另一方面全球大量实验室、独立研究者会持续投入后Transformer全新架构的探索

两条路线互相补充、双向促进也是AI行业能够持续保持高速迭代的核心动力好了以上就是卢卡斯这次访谈的核心内容了整体来看他对AI发展的观点还是非常理性和克制的那大家是如何看待他的观点呢欢迎在评论区留言

感谢收看，我们下期再见

AI科研圈的精神狂热 | Transformer作者Lukasz Kaiser | 底层设计短板 | 模型的学习效率 | 完全抛弃IDE | 思考逻辑像外星人 | 长上下文难题 | 模型能力跃迁 · 全文文字稿