AI科研圈的精神狂热 | Transformer作者Lukasz Kaiser | 底层设计短板 | 模型的学习效率 | 完全抛弃IDE | 思考逻辑像外星人 | 长上下文难题

硬件民主化与Transformer的复刻奇迹

卢卡斯·凯泽作为《Attention Is All You Need》论文的八位作者之一，亲历了从2017年Transformer诞生到万亿参数大模型爆发的全过程。他指出了一个令人震惊的硬件变迁事实：如今消费级显卡的性能已足以复刻当年的顶级科研实验。在2017年，实验室的顶配设备是八卡GPU集群，总算力仅为70~80 TFLOPS；而到了2026年，单张桌面级RTX5090显卡在FP32精度下的官方峰值算力标称约为400T FLOPS，在BF16精度下的实际有效算力约200T FLOPS。单张显卡算力达到了当年整套八卡集群的2.5倍以上，这意味着任何人只需一张RTX5090，就能在家完整复现2017年以来所有经典的Transformer科研实验。

“如今一张桌面级RTX5090消费显卡，就能完整复刻十年前改变AI历史的整套Transformer科研实验。”

这种硬件性能的暴涨不仅体现在算力数值上，更体现在开发门槛的降低。过去，研究员需要手动编写复杂的CUDA底层代码来适配GPU硬件，调试周期漫长且小众算法难以落地。现在，借助AI辅助编写CUDA内核，只需下达优化指令，AI就能在短时间内完成定制化内核开发。硬件成本的持续下行直接拉低了AI前沿研究的入场门槛，高校课题组和独立开发者不再依附头部大厂，即可开展后Transformer新架构的小规模探索，源源不断的民间创新为全行业提供了新的研发思路。

硬件/配置项	2017年实验室顶配	2026年消费级旗舰 (RTX5090)	性能对比/备注
设备构成	八卡GPU集群	单张桌面显卡	算力集中化
FP32峰值算力	70~80 TFLOPS (集群总计)	~400 TFLOPS (单卡标称)	单卡超越集群
BF16有效算力	未提及	~200 TFLOPS	实际可用算力大幅提升
代码适配方式	手动编写复杂CUDA代码	AI辅助生成定制化内核	开发效率质变

架构底层短板与多模态的线性困境

尽管Transformer撑起了全行业的大模型基座，但卢卡斯明确指出，这套架构从未进化到理论上本该抵达的性能上限，存在大量底层设计短板。这也是全球实验室扎堆投入后Transformer新架构研发的核心动因。目前市面上所有多模态大模型，从图文生成到音视频联动，看似落地成果遍地开花，但本质都是在现有Transformer框架上做拼接改造，没有实现任何底层架构层面的革命性优化。

卢卡斯以高清图像处理为例，揭示了Transformer的线性处理缺陷。人类视觉接收画面是毫秒级同步完成全局信息的抓取，而Transformer处理高清图像必须将整张图片切割成无数小块Token，逐个输入计算。这种高度线性的拆分逻辑导致模型无法在毫秒尺度完整吸收一张高分辨率图像，这也是目前多模态产品在实景理解和物理世界感知层面频繁翻车的底层根源。

“现阶段的多模态产品，没有实现任何底层架构层面的革命性优化，都是多模态落地，所有多模态落地本质都是在现有Transformer框架上做拼接改造。”

这种架构局限直接导致了学习效率的巨大差距。大模型想要吃透一个基础概念，需要消耗万亿级别Token数据，几乎穷尽所有表层数据样本后才能勉强提炼出底层逻辑。相比之下，人类依靠少量具象案例和零散信息就能自主总结规律，甚至凭空创造全新概念。例如，人类小朋友见过三四种不同类型的猫就能总结出猫的通用特征，后续见到新品种可瞬间识别；而大模型需要投喂海量猫咪图片和文字描述，遍历几乎所有猫咪品类的样本，才能稳定完成识别任务。现有Transformer的学习效率和人类大脑存在数量级上的差距，这也是Yann LeCun坚持研发全新架构的核心原因。

自动驾驶瓶颈与泛化能力的“外星人逻辑”

在落地应用层面，卢卡斯以自动驾驶赛道为例，指出了数据驱动模式的局限性。全球标杆企业Waymo在模拟环境中累计跑完了数百万英里的虚拟路况，现实道路落地里程也达到海量级别，在城市常规路况和封闭园区表现稳定。但是一遇到高速公路的临时施工路段，就极易出现决策失误。反观人类驾驶员，哪怕是刚拿到驾照的青少年，也能凭借过往经验灵活应对不同场景下的施工区域。这种差距本质上是现有模型泛化能力受限于数据与架构的具象体现，想要靠逐个补充各类施工场景数据来修补漏洞，成本和周期会无限攀升。

卢卡斯提出了本期访谈中最出圈的观点：大模型不是不具备跨域泛化能力，而是在以人类无法理解的“外星人逻辑”来完成泛化。他以几何题型为例，同一套大模型可以顺利攻克高等代数、数理逻辑等超高难度数学难题，但在欧式几何题型上持续翻车。业内曾判定模型缺少空间感知能力，但后续仅靠补充海量几何题库的文本数据（未新增实景图像），模型突然就能批量破解几何难题。在人类视角中，代数和几何逻辑关联紧密，可自然迁移；但在模型的特征表征空间里，两类内容处于完全割裂的位置，跨域迁移无法自然发生。

“大模型确实具备跨领域泛化能力，但是它的思考逻辑是完全脱离人类认知的，更一种类似外星人的怪异泛化逻辑。”

这种锯齿状的怪异泛化导致大模型的能力边界充满不可预知的隐性盲区，你永远不知道模型在哪个看似相近的细分领域突然失效。这也是企业不敢全权交由模型自主运行的关键原因，但客观上，这种非人类逻辑的泛化特性倒逼使用方保持严谨，提升了科研与工程落地的严谨度。

科研范式变革：从手写代码到AI Agent

AI Agent是过去二十年机器学习研究员工作方式最大的颠覆性变革。卢卡斯结合自身经历，用真实工作量变化佐证了AI对科研效率的提升。早年他亲自复现一篇经典论文，从零梳理代码、调试环境、修复BUG，前前后后耗费整整三周时间才跑通全量实验；现在借助Codex，相同的复现任务仅仅两天就能全部落地完成。

更深层的改变在于工作的并行度。过去做科研，同一时段只能聚焦单个课题，大量精力被语法拼写、函数命名、基础代码BUG占用。现在他可以同时并行启动三项不同方向的科研任务，基础代码实现全交由AI完成，自身只需要把控整体实验逻辑、损失函数设计、指标管控这些顶层内容。他现在已经完全抛弃传统的代码编辑器，日常工作全程靠口述指令让AI修改、迭代代码。

“他现在已经完全抛弃传统的代码编辑器，日常工作全程靠口述指令让AI修改、迭代代码。”

然而，这种模式也要求研究员牢牢守住全局逻辑控制权。卢卡斯分享了一个踩坑案例：AI在调试模型时，会自作主张新增额外的辅助损失函数，认为优化方向合理，但实际落地后会导致实验数据全面失真、模型训练彻底跑偏。想要规避这类隐性错误，研究员必须时刻保持对底层算法和训练逻辑的高度清醒。这种需要时刻管控AI潜在失误的工作模式，倒逼了研究员宏观思维的持续精进，甚至让全球AI科研圈出现了轻度的“精神狂热”，新的研究灵感源源不断，很难停下研发探索的脚步。

长上下文难题与工程落地的务实主义

在长上下文技术难题上，卢卡斯抛出了一个极具反差感的观点：现在落地效果最好的长上下文解决方案，在五年前会被所有研究员视作粗劣的临时补救方案。这套方案逻辑朴素：将海量文本拆分存入本地文件，借助文本检索工具grep做关键词检索，再让AI自主生成文档索引，靠文件存储+本地检索的方式绕开原生注意力机制在超长上下文下的算力爆炸缺陷。

熟悉早期NLP研发的朋友都清楚，早年行业都在优化注意力算法、改造位置编码、设计稀疏注意力架构，没人想到最终落地的最优解竟然是靠传统的文本检索工具。卢卡斯补充道，这套方案可进一步搭配强化学习驱动的上下文压缩技术，Codex在对话压缩层面的表现优于Claude Code，正是依托这种针对性强化学习优化的上下文压缩能力。在工程落地领域，从来不以方案设计的优雅度评判优劣，最终落地效果才是唯一的标准。

“在工程落地领域，从来不以方案设计的优雅度评判优劣，最终落地效果才是唯一的标准。”

即便在五年前有人提出这套思路，业内也会判定其为治标不治本的创可贴方案。但在商用长上下文落地场景里，文件+检索+索引的组合表现出了远超各类花哨算法改造的实际效果。这反映了AI行业从追求理论完美向追求工程实效的转变，也揭示了当前技术迭代中“实用主义”至上的趋势。

模型能力跃迁与可验证性误区

近一年，Codex、Claude Code等代码模型迎来了跨越式的能力提升，但行业至今无法精准定位能力暴涨的核心诱因，没人能确定是强化学习的参数调整、训练数据的迭代，亦或是提示词工程优化这些单一因素导致的，还是多重变量叠加催生的质变。这种模糊性导致各大厂商的后续技术迭代只能在试错中摸索。

卢卡斯纠正了行业对模型可验证领域的两大认知误区。第一，编程属于全维度的可验证领域，但前端开发等场景因页面效果和交互体验无绝对统一标准，可验证性大幅下降。第二，数学被行业过度神化了可验证属性，只有借助Lean形式化后的数学题目能够精准验证，市面上绝大多数大模型训练用的数学题干，证明过程其实都没有标准化核验路径，同样处于半可验证区间。

“数学被行业过度神化了可验证属性，只有借助Lean形式化后的数学题目能够精准验证，市面上绝大多数大模型训练用的数学题干，证明过程其实都没有标准化核验路径。”

对于诗歌跨语种翻译等不可验证场景，通用解法是大规模引入人工标注，靠海量标注数据修补模型短板。但这套方案有天生缺陷：虽然所有发现的模型漏洞都可以靠堆砌数据暂时封堵，却无法让模型从底层理解内容的本质，新漏洞会源源不断地持续出现，陷入无限堆数据补坑的循环。

大小模型路线之争与开源闭源格局

前两年行业普遍出现“大模型走到天花板，轻量化小模型才是未来”的论调，随着Gemma等开源小模型刷新性能上限，小模型在轻量化部署和低成本落地场景中交出亮眼答卷。但卢卡斯坚持判断：小模型永远无法完全替代巨型参数的旗舰大模型。

从实操落地来看，蒸馏而来的轻量化模型可以承接日常标准化需求，性价比优势突出，但一旦面对复杂产业定制、前沿科研攻坚等重大问题，巨型原生大模型的综合能力下限和隐性泛化能力是蒸馏小模型无法追赶的。卢卡斯分享了自己的使用经历：平时测试任务优先选用轻量化小模型，大部分常规任务正常，但总会在某个细分难点突然崩盘，最终只能换回原生大模型推进工作。

在开源与闭源格局上，卢卡斯预判两者会长期并行共存。闭源大厂手握顶尖原生大模型，靠持续技术迭代守住商业化领先优势；而各国政企出于数据主权和信息安全需求，会持续投入开源模型研发。哪怕开源模型的综合性能弱于同期闭源产品，本土化部署刚需也会持续驱动开源生态的迭代，短期内不存在一方彻底取代另一方的可能性。

巨头战略分化与AI研究员的鸿沟

卢卡斯深度拆解了全球三大AI巨头的差异化发展抉择。首先是OpenAI，其关键战略是全面押注深度推理模型，在早期质疑声中孤注一掷攻坚o1、o3系列，从而在复杂推理赛道保有先发优势。但随着用户体量突破十亿，大公司受制于庞大的用户体量和合规风险，很难再毫无顾虑地all in前景不明的前沿冷门架构研发，激进企业文化逐步收敛。

其次是Anthropic，在通用聊天赛道难以正面抗衡OpenAI的前提下，果断选择差异化路线，全公司聚焦代码模型研发，Claude Code凭借精准定位在代码商用赛道撕开市场缺口，成为能和Codex分庭抗礼的产品。最后是谷歌，采用全赛道、广撒网的研发布局，几乎所有前沿技术方向都配套专属团队。这种模式短板是难像Anthropic一样单点突破抢占先发红利，但优势在于无论哪条路线成为主流，谷歌都能依托前期储备快速追赶。最新一代谷歌大模型在通用对话层面已追平ChatGPT，但在代码推理细分场景距离Codex还有小幅差距。

“大公司受制于庞大的用户体量和合规风险，很难再毫无顾虑地all in前景不明的前沿冷门架构研发。”

关于AI研究员实习生，卢卡斯认为目前AI距离真正的研究员还有不可逾越的鸿沟。他做过测试，给AI下达优化困惑度指标的目标，放任AI自主通宵迭代参数，最终AI只会做大量无意义的微小参数微调，全程无法触达能真正优化模型性能的有效方案。当前AI还不具备研究员级别的创新试错和跨方案的探索能力，想要落地真正意义上的AI研究员实习生，无论是依靠现有Transformer+持续堆数据微调，还是等待后Transformer新架构落地，都还有很长的迭代周期。

职业化Agent落地与AI安全审慎观

卢卡斯认为，当下Codex和Claude Code组成的双寡头格局会长期稳定，编程赛道的市场体量足够容纳两款头部产品共存。但编程只是AI落地的阶段性风口，全行业的职业化Agent才是下一个万亿级蓝海市场。代码模型的底层能力可迁移到会计做账、法律文书撰写、医疗病历整理等各行各业，但目前产品落地存在明显使用门槛。以Codex为例，最初使用需用户提供GitHub仓库信息，直接劝退大量非技术从业者。虽然产品经过优化降低了门槛，但想让普通职场人无门槛使用，还需产品形态和交互逻辑的持续迭代。

此外，用户信任建立是另一重难点。即便AI阶段性表现完美，企业也不会轻易把核心业务全权交由AI自主管控，因此循序渐进的试用和迭代是职业化Agent落地的必经之路。在AI安全议题上，卢卡斯保持不极端悲观也不掉以轻心的中立态度。他认为现阶段相比虚无缥缈的物种灭绝风险，更警惕AI Agent被恶意滥用带来的现实危害，如不法分子借助AI入侵政企信息系统、篡改电网控制系统、瘫痪关键基础设施等。

“他认为现阶段相比虚无缥缈的物种灭绝风险，更警惕AI Agent被恶意滥用带来的现实危害。”

他并不否认长期存在性风险研究的价值，认为行业需持续划定安全红线、完善管控预案。理论上人类具备关停超算数据中心、切断大模型算力供给的管控能力，但以当下大模型的智能水平，短期内还不存在自主脱离人类管控和威胁人类存续的客观条件。

坚守研发初心与双线并行的未来

访谈最后，主持人问及Transformer八子中其余七位陆续离开大厂创业，唯独卢卡斯·凯泽未创办公司的原因。卢卡斯坦言，合作伙伴创业后大部分精力消耗在公司管理、融资和商业化运营上，真正留给一线算法研发的时间被大幅压缩。而他自己发自内心热爱底层技术研究，在Google Brain或OpenAI任职时，都能全身心聚焦算法实验和架构探索，不用被商业化琐事牵绊。因此，他至今坚持深耕研发岗位。

卢卡斯总结道，未来AI会保持双线并行的发展节奏：一方面，各大厂商持续深挖现有Transformer架构的商业化潜力，依托海量数据和算力把现有产品落地到各行各业；另一方面，全球大量实验室和独立研究者会持续投入后Transformer全新架构的探索。两条路线互相补充、双向促进，也是AI行业能够持续保持高速迭代的核心动力。

“两条路线互相补充、双向促进，也是AI行业能够持续保持高速迭代的核心动力。”

整体来看，卢卡斯对AI发展的观点理性且克制，既看到了硬件民主化带来的创新活力，也清醒认识到架构短板和泛化逻辑的局限，为行业未来的演进提供了深刻的洞察。

AI科研圈的精神狂热 | Transformer作者Lukasz Kaiser | 底层设计短板 | 模型的学习效率 | 完全抛弃IDE | 思考逻辑像外星人 | 长上下文难题 | 模型能力跃迁