140. 对姚顺宇的4小时访谈：请允许我小疯一下！在Anthropic和Gemini训模型、技术预测、英雄主义已过去

两个姚顺宇：物理背景的半道入局者

姚顺宇本科就读于清华大学物理系（机科班），后赴斯坦福大学攻读理论高能物理与量子信息方向，曾在伯克利短暂担任博士后但很快离职，于2024年加入Anthropic，2025年跳槽至Google DeepMind，现任研究科学家，参与了Claude 3.7、4.5、Gemini 3等核心模型的开发。他与另一位同名的姚顺宇（清华姚班出身、普林斯顿背景、现就职于腾讯）常被混淆，但两人背景差异显著：前者是“半道出家”的物理学者，后者是科班出身的计算机研究者。两人本科即相识，虽路径不同，但彼此尊重、常交流。姚顺宇评价对方“更有趣”，并坦言自己从其身上学到许多关于人机交互与产品思维的视角。尽管常被放在一起比较，但他本人因较少关注社交媒体，对此“没什么感觉”。

我觉得他是一个比我有趣的多的人……我也从他那儿学到了很多东西。

他回去之后，其实我们也还是经常会打电话……最近一次电话聊啥了？好像就是前一两个星期……会过几个月，然后就开叉up大家最近的近况吧。

AI进入‘定义问题’阶段：能力趋同，方向分化

姚顺宇认为，当前AI已告别“能力焦虑期”，进入一个更关键的‘定义问题’阶段：大家不再争论模型是否能做到某事，而是聚焦于“这件事是否被良好定义”。以2024年初在Anthropic的经历为例，当时业内最关心的是能否在reasoning上追平OpenAI；而如今，在Gemini、OpenAI、Anthropic三家之间，纸面指标（如SpeedBench）已高度趋同，差距常在1–2个百分点内，更多是噪声而非信号。但实际用户体验仍有可辨识差异：Claude在工具调用与Agent任务中仍领先；Gemini在纯reasoning和日常交互中表现更优；OpenAI在coding上正快速追赶。这些差异既源于早期战略偏好（如Anthropic重视工具使用、OpenAI曾重推理），也因数据构建与基础设施投入不同——意愿决定资源分配，资源决定能力侧重。

AI的本质是简单的，预训练也是一种强化学习，不要迷信老登，AI个人英雄主义的时代已经过去了。

我觉得这个行业最重要的特质，就是靠谱：做事儿细，然后对自己做的事儿负责任，这是最重要的特质。

Open Cloud：能力溢出，而非技术突破

姚顺宇指出，Open Cloud的发布在业内并未引发技术层面的震惊——它并非横空出世，而是模型能力的自然溢出。早在2024年Q4，Claude 3.7发布时，其多模型协同与长链Agent能力已具备落地基础；Open Cloud只是将其产品化并推向公众视野。业内早有团队在内部探索类似demo，但因大公司流程冗长或未达产品成熟度而未公开。其真正意义在于唤醒意识：人们开始意识到，可以主动调度多个模型协同完成复杂、长周期任务，这标志着AI应用从“单点能力”迈向“系统级编排”。未来，这类产品形态将成为行业标配，而竞争焦点将转向任务定义能力、系统稳定性与用户体验。

它很重要的是给大家展示了这种可能性……未来像大O、Open Cloud作者自己也加入楼盘，那可能就是这些模型的实验室，或者说一些大一点创业公司会很快跟上。

模型能力的自然溢出与产品形态的分化

姚顺宇认为，像 Minus 或 Open Cloud 这类产品的走红，并非源于某项颠覆性技术突破，而是模型能力自然溢出的结果——即现有模型在足够大的规模下，自发涌现出长链路、多步骤协同执行任务的能力。这种能力此前虽未被广泛认知，但一旦被某款产品具象化呈现，便迅速引发行业共鸣。他指出，从 Minus 到 Open Cloud 的变化，未必是模型能力的质变，更多是产品策略与市场时机的差异；二者最终均被模型公司收购（Minus→Meta，Open Cloud→OpenAI），反映出当前阶段“壳”（即独立产品）的生存困境：若无法在模型公司反应前快速建立壁垒，便极易被整合。

它让大家意识到了这个事可以做：你可以控制很多不一样的模型，然后做很多不一样的事情，然后把这个事情汇总之后，做一个很长很长 long horizon 的这种工作。

你看，不管是 Minus 还是 Open Cloud，他们都选择了卖给了模型公司……这个现象说明什么呢？

创业公司的两条生存路径：快逃 or 小而美

姚顺宇提出，当前独立 AI 产品公司面临模型巨头挤压，生存路径高度受限，大致可归为两类：其一是“逃逸速度”路径——通过极快增长抢占用户心智，同时自建模型能力以构建反哺闭环；Cursor 是典型代表，它在 AI 原生 coding 场景中增长迅猛，但已与 Anthropic 从合作转向潜在竞争（Anthropic 自研 Claude，Cursor 自研 Composer 模型）。其二是“小而美”路径——聚焦足够小的垂直场景，使模型公司因“看不上”而暂不干预；Mini Journey 即为例证：市场虽小，但足够支撑一个独立产品存活。

对 Cursor 来说，现在和 Anthropic 已经进入了一个非常微妙的关系……曾经他们是亲密无间的合作伙伴，后来 Anthropic 自己有了 Claude，现在又自己试图做模型。

如果是我，我会选择去吃一个先吃一个小的，但是我会选择一个有想象空间的小的。

模型进步未放缓：预训练仍具潜力，学习能力持续增强

针对“模型进步是否放缓”的疑问，姚顺宇明确表示：从研究员视角看，模型学习能力正显著增强——过去需要大量工程干预才能教会模型的任务，如今往往只需清晰定义问题与构建合适数据即可“顺其自然”达成。他强调，预训练的 scaling law 仍未触顶；所谓“到头”的判断，更多源于实验设计中的偏差（如 token horizon 选取不当）或技术实现中的隐藏 bug，而非物理极限。他特别提出一个关键愿景：“train with finite context, use as infinite context”——即用有限上下文训练模型，却能在推理时动态处理近乎无限的上下文，这将极大推动持续交互式个人助手的落地，而该能力有望在 2026 年实现。

我觉得模型做到 train with finite context, use as infinite context……这件事儿今年是会有机会能够实现的。

我觉得绝大多数撞到墙的人是因为第三种：其实他这个工作哪里有一个 bug，他自己没发现。

Bug 是瓶颈，系统性思维是解药

在模型研发过程中，绝大多数团队撞墙的主因并非算力或数据不足，而是隐藏的 bug。这些 bug 分为两类：一类源于科学假设的偏差，例如 token horizon 设定不合理、训练数据量与模型规模不匹配、数据来源选择失当等；另一类则是纯粹的工程性 bug——修好一个 bug 带来的进展，往往远超某些‘神奇技巧’的叠加效果。面对 bug，关键不在于技术本身，而在于信念与系统性方法论：若认为 bug 不可解，就会早早放弃；若坚信其可解，则能持续推进。真正关键的能力是能否在结果偏离预期时，系统性地设计 ablation 实验，逐一验证假设是否成立。这种严谨的排查逻辑，是团队能否持续突破的核心竞争力。

当你遇到一个 bug，你觉得它不能解除，你就会说这个到头了。当你遇到个 bug，我觉得哦，这个肯定可以解决，那你就觉得这还没有到头，因为肯定每个人都要遇到 bug。

这个做问题的系统性才是才是关键。

驱动力：数据与算力主导，算法迎来相变

当前大模型能力提升的驱动力，数据与算力高度耦合：算力增长自然催生更大规模数据需求，而更多数据又倒逼算力升级。算法的作用则呈现典型的“相变特征”——在技术路径尚不清晰的阶段，算法突破具有决定性意义（如 Transformer 的出现使大规模语言建模成为可能）；一旦范式确立，算法更多表现为效率的渐进式优化（如训练效率、数据利用效率的提升）。在当前主流的预训练-后训练（包括监督微调与强化学习）框架下，算力与数据是主要驱动力；但某些前沿方向（如多模态生成）仍处于科学探索阶段，尚未形成清晰路径。

算法作用往往是有有一个相变的，就是算法有一个阶段是你完全没有搞清楚该怎么做，那个阶段就算法会非常非常关键……然后之后算法的提升更多的是一种比较平滑的提升。

所以现在的驱动力是算力和数据。我觉得在现在比较清晰的框架里面。主要的驱动驱动力是算力和数据。

Coding 为何率先爆发？清晰反馈 + 天然数据池

编程场景之所以成为 AI 应用落地最快的领域，源于两大核心优势：一是反馈信号高度明确——代码是否满足输入-输出行为可通过测试自动验证；二是拥有天然高质量数据源——GitHub，汇聚了数十年积累的优质代码，为模型训练提供丰富语料。从产品角度看，优秀程序员的编码风格趋同（简洁、结构清晰、可维护），降低了模型泛化难度。实际工作中，模型生成代码占比保守估计超 90%，人类角色已转向更高阶的逻辑设计、上下文构建与质量把控。AI 的介入使实验迭代效率提升20–50 倍，但工作密度与时间投入反而增加——“开发速度越快，想试的想法越多”。这一趋势正从工程领域向基础科研（如数学、理论物理）蔓延，尽管后者尚未形成显著市场效应。

好的代码是不脏，是有一个有一些共同的标准的。比如说像你说，就是这个代码简洁、结构清楚，啊，适于未来的开发，然后有合理的抽象……

你看到这个文件，你不懂，拿去问一下 Cloud 或者 Gemini，Gemini 可能五秒钟就告诉你结果，你就接着干了。

AI对职业结构的深层冲击：从‘难事’到‘模糊事’

当前AI的发展路径呈现出一个反直觉的趋势：它最先攻克的，反而是人类普遍认为‘最智力挑战性高’的理性工作——比如数学、编程、科研等。原因在于，这类任务往往具备可明确评估的标准，从而便于构建训练闭环。而真正让AI难以介入的，是那些缺乏客观评价标准、反馈信号模糊的领域，例如产品经理角色：什么是“好产品”？答案高度依赖用户反馈与情境演化，无法被轻易形式化。

这预示着未来职业分化的必然趋势：传统软件工程岗位不会被瞬间取代，但会经历渐进式重构。部分重复性实现工作（如“下周五前完成某模块编码”）将被AI接管，而高阶能力——如系统性方案设计、组织适配性判断、复杂任务拆解与多AI协同调度——将成为人类程序员的核心护城河。作者虽自称悲观主义者，但仍强调：技术能力是基础，但非唯一门槛；战略视野与组织理解力正变得同等关键。

“人为什么比较难呢？我觉得你看人都是智力分配最高的那部分人做这些工作，对，但是可能未来就不是这样了。”

“千分之一的程序员……可能六个月之后你过来问我，我发现最后一个事AI已经能干了，那就只剩两个事。”

中美模型竞赛：算力劣势倒逼技术创新

中美在大模型领域的差距正持续收窄，但中国在算力资源上的结构性劣势，反而催生出独特的技术路径创新——尤其是对模型蒸馏（distillation）技术的深度探索。作者区分了两种蒸馏策略：“硬蒸馏”（直接复用他人生成数据训练）被视为低效且缺乏技术自主性；而“软蒸馏”（如利用多模型协作生成数据、引入交叉模型评估机制）则代表更富科学价值的方向。

这种实践客观上推动了中国实验室在多智能体（multi-agent）训练系统上的前沿探索——通过整合不同模型的输出分布，构建更具鲁棒性的训练闭环。尽管存在商业伦理争议，但其技术复杂性不容忽视。作者特别指出，字节跳动在多模态生成领域已展现出显著产品优势，其豆包模型虽在“聪明度”上暂逊于Gemini/Claude，但在语音生成质量上被评价为‘可能全球最佳’，凸显其在特定场景下的极致优化能力。

“我觉得中国确实在实际的算力资源上来说是占很大劣势的。但是这个很大的劣势，可能反而逼出了一些有趣的事儿……中国的模型公司其实对蒸馏就蒸馏别人很在行。”

“从技术上来说，其实很有意思……可能中国的实验室成为了做multi agent的训练的先驱。”

产品与模型的辩证：豆包手机的启示

豆包手机的推出代表了一种以产品场景驱动模型优化的新范式：其核心价值不在于通用智能的绝对高度，而在于针对高频生活场景（如语音交互、即时问答）的极致响应效率。作者推测，其技术优势可能主要源于数据积累与工程细节的深度打磨，而非模型架构的范式突破。

值得注意的是，中美用户需求差异深刻影响产品优先级：美国模型更聚焦工作效率提升，而中国模型在生活化服务（如烹饪指导、情感陪伴）上投入更多资源。这种分化也解释了为何豆包在语音生成等场景表现突出——它被训练用于解决真实用户的高频痛点，而非追求学术指标的全面领先。

“豆包的语音生成非常非常强……不客气的说，我觉得就是全世界最好的。”

“你生活中有困惑吗？我生活中有……但可能更多是数据上的问题，然后可能更多的只是说美国的公司现在主要的优先级是在智能或者工作效率上。”

语音能力与用户体验：豆包的差异化优势

在访谈中，姚顺宇特别强调了豆包模型在语音合成能力上的突出表现。他认为，这一能力不仅是产品层面的优化，更根植于模型底层架构与训练策略的深度打磨——“它一定会是模型的事儿，它有可能也包含一些产品的部分，但一定是一个模型的事儿”。他甚至毫不客气地评价：“语音这个效果可能是……全世界最好的之一；不客气的说，我觉得就是全世界最好的。”此外，豆包在响应速度和对话自然度方面也展现出优势：相比许多模型热衷展示冗长的思维链，豆包在日常琐事对话中能跳过中间推理过程，直接给出简洁流畅的回应。姚顺宇指出，这种“省略思维链”的能力技术上并不难实现，更多是产品优先级的取舍问题——“它更多只是什么时候去重视去做这个事儿”。他以Gemini 3.1为例，说明大模型在响应效率与信息密度上已有明显进步，印证了“这不是技术难点，而是重视程度问题”这一判断。

语音这个效果可能是……全世界最好的之一；不客气的说，我觉得就是全世界最好的。

它更多只是什么时候去重视去做这个事儿。

机器人AI：硬件爆发与软件瓶颈并存

姚顺宇对中国机器人产业的迅猛发展表示惊讶，尤其指出其硬件成本的大幅下降——过去他认为人形机器人至少需“大几百万美金”，而如今在亚马逊上已能以极低价格购得。他认为这凸显了中国在硬件产业链上的显著优势。然而，他同时指出，软件层面仍处于早期阶段：当前机器人模型大多处于“feature engineering的时代”，即针对特定场景（如叠衣服、倒水）做定制化强化学习训练，缺乏泛化能力。他将此与语言模型的发展阶段对比：Transformer与GPT之后，语言模型已跨越‘单一场景优化’阶段，进入可水平提升多项能力的‘泛化 scaling’时代；而机器人领域尚未找到有效的 scaling 法则，仍处于“还没想明白怎么去 scale up”的阶段。他观察到，硅谷团队正尝试将语言模型作为基底模型，结合多模态架构（如VLA）推动机器人发展，但整体方向仍“没有找到自己的路”。他特别推荐实地参观机器人实验室——“做语言模型的实验室感觉就是正常的办公室，但机器人他们是真的会有人去操控这个机器人，采集各种数据”，认为其过程远比纯模型研究更具现场感与趣味性。

机器人，我觉得没到那个阶段，嗯，更多的还是在那个阶段之前，就是我有一个单一的场景、单一的事情，然后我能够为这个事情去做优化。

你去的是哪家？……他们是一个叠衣服的机器人，对他们就是可能场景更单一一点……

从物理少年到AI闯将：一次‘赌上一切’的主动选择

姚顺宇的成长轨迹颇具代表性：生于宁夏小城大武口（因煤矿而建），小学后迁至上海，高中阶段做出关键抉择——放弃上海‘四校’普通班，选择格致中学竞赛班。他坦言自己并非传统意义上的‘学霸’，初中学校“无名之辈”，竞赛经验为零，但因“总是爱干一些自己不太会的事儿”，抱着‘光脚的不怕穿鞋的’心态主动争取机会。他通过一封短信成功说服清华招生办，让上海学生参加自主招生考试，最终以“降到一本线”的优惠被录取。他总结道：“胆子要大。你不争取是永远得不到的，争取了也有可能得不到，但不争取就绝对得不到。” 回顾这段经历，他强调竞赛虽未带来保送资格（其时仅国家集训队可保送），却成为通往清华乃至斯坦福的跳板；他笑称自己“挺菜的”，但正是这种敢于挑战未知的特质，塑造了他后来在AI领域的探索路径。

我这个人，我这个人的个性就是：总是爱干一些自己不太会的事儿，对。

我所以，我为什么我感觉我一直对清华还是挺有感情的，就我感觉这个学校是愿意给大家提供机会，给大家提供平等机会的。

## 与父母的相处：通知式自主与克制式尊重

姚顺宇坦承自己在中学竞赛中并未达到顶尖水平，自评“挺菜的”，原因并非天赋不足，而是没有做到最好。他提到，父母对他的成长采取了罕见的“佛系”态度：当无法理解他人所为时，不指手画脚就是最好的帮助。他与父母的关系更接近“通知制”——比如自主招生、中高考填志愿等重大决定，他往往直接告知父母，而非协商；父母甚至可能从未见过他的成绩单。这种模式并非源于疏离，而是彼此对自主边界的默契尊重。他自认性格中带有强烈的胜负欲，但更关键的是与自己较劲：一旦认定某事，便全力以赴；若非所愿，即便强迫也难以推进。这种内驱力塑造了他后来不断挑战新领域的习惯。

“我觉得我爸妈这个道理懂得很好。”

“如果这件事儿是我自己想明白了要去做，你就是别拦我。”

## 从清华机科班到凝聚态理论：一场阴差阳错的科研启蒙

姚顺宇进入清华物理系“机科班”（机械与化学交叉班，实为物理系中的特殊班级）并非出于明确志向，而是阴差阳错的结果。该班虽归属物理系，却不限制学生方向，且鼓励学生尽早进入实验室实践。他本想做理论，后被推荐进入清华高等研究院（由杨振宁先生创立），并在当时尚年轻的王忠老师指导下开启科研。王忠虽未声名显赫，但被姚评价为“very sharp”，理解问题透彻，且能耐心引导初学者。

他选择凝聚态理论作为切入点，因其对本科生而言门槛较低：只需掌握量子力学、统计力学、固体物理三大基础课程，却能深入探讨前沿课题，如拓扑绝缘体。他参与的关于开放量子体系的研究，后来被视作重要工作——其核心在于：理论推导（解析解）与数值模拟（开放边界）结果长期不一致，最终揭示出布洛赫波范式在非厄米系统中失效。他们系统构建了适用于非厄米开放系统的本征态描述框架，从而解释了动力学行为。姚指出，这段科研经历与当下AI研究高度相似：都是先有想法与理解，再通过实验（数值/训练pipeline）验证其正确性。

“现在回头来看，做那个工作……其实和现在做AI特别特别像。”

“你发现AI其实也这样，AI也是你有一个想法，你有一个理解，你去设计一些实验，验证你的理解是不是对的。”

## 非厄米系统与范式迁移：一场主动的“断舍离”

姚顺宇团队在非厄米系统研究中发现，传统厄米量子力学中基于布洛赫波的本征态描述在开放边界下会崩溃——系统本征态会局域在边界（即“非厄米趋肤效应”雏形），从而解释了此前解析与数值结果的矛盾。这项工作推动了对开放量子系统的新范式理解，后续被大量跟进。然而，姚选择在“可能成为该方向奠基性工作”的节点主动转向：他坦言，继续深耕虽可带来更高学术回报（引用、教职等），但作为科学生涯，已缺乏“令人激动”的探索感。他更渴望进入“自己不太会”的领域，于是博士阶段转战高能理论——与本科凝聚态几乎无交集。

他将这种行为归因于挑战自我的内驱力：“难听了是爱折磨自己；说好听了是挑战自己。”他强调，被折磨本身无意义，唯有为拓展认知边界而主动承受，才值得。他亦澄清，王忠老师虽当时未负盛名，但能力极强，是张守成教授（高能领域权威）培养出的优秀学者，其“不干涉他人选择”的风格也体现在对姚转方向的默许中。

“很难抓住一次范式的变化，是的，是呢。”

“作为一个科学生涯来说，就没那么令人激动了。”

蝴蝶效应与量子世界的张力

我们常听到的“蝴蝶效应”——比如南美洲一只蝴蝶扇动翅膀，半个月后引发北美洲的台风——其实是经典物理中对混沌系统的形象描述。从数学角度看，它意味着：在初始时刻施加一个极小的扰动，其后果会随时间呈指数级放大。然而，这一现象在量子体系中似乎难以成立：孤立量子系统的演化是幺正的、线性的，若两个初态矢量夹角不大，演化后其夹角应基本保持不变，因此难以解释为何微小差异会指数级扩散。

但现实是，宏观世界确实表现出经典混沌行为，而微观基础却是量子力学。这促使人们反思：讨论量子系统中的“混沌”，不应聚焦于两个量子态之间的距离变化，而应转向局域可观测量（local observables）的演化——这些才是我们宏观观测到的“变化”的对应物。这一视角转换，让量子与经典混沌之间建立起逻辑桥梁。

“你读了四年的量子物理以后，你当时在想什么？……本科期间读物理最大的帮助就是，第一，想问题要想清楚，就是读书不在于读得多，而在于读得深。”

“别太相信理论，别太相信纯理论，因为得出这个结论，因为当时那个事儿发现的主要原因还是因为能做数值。就是一开始是因为数值和理论对不上，才仔细研究那个问题，然后发现了这个事儿。”

从高能理论到科研价值的再思考

作者博士阶段选择进入高能理论物理，源于对“挑战极难问题”的执着。但这一选择带来了深刻反思：高能理论已进入实验完全无法验证的阶段，其进步高度依赖数学自洽性（如弦论能否在低能下还原量子场论），而非实证检验。当缺乏客观评价标准时，领域内判断往往沦为“老登的主观判断”，这让他感到荒谬——“人这一辈子也没多长，为什么要把自己的时间浪费在伺候老灯身上？”

尽管博士期间成果“光鲜”（斯坦福博士、符合学术圈所有评价标准），但他坦言：于世界而言，贡献几乎为零。他意识到，达到小圈子的评价标准不难——就像训练模型一样，一旦摸清规则，即可稳定输出；但若内心不认同该标准，长期自我欺骗终将失效。这种“冷暖自知”的落差感，在博士后期愈发强烈。

“我也没有被谁伤害，只是我在那个领域待时间越长，就越觉得这件事儿蠢。”

“摸着良心说，对这个世界有多大的影响？我觉得几乎没有零，没有影响，几乎为零。”

AI：新时代的‘实验物理’

在量子计算与AI之间抉择时，作者最终选择后者。表面看，量子计算更贴近其物理背景；但深入调研后发现，量子计算的核心瓶颈其实在实验实现层面——这恰恰与他擅长的理论建模和数值验证路径相距甚远。而AI则不同：它更像18世纪物理学——理论与实验未分家，研究者可自主提出想法、通过训练模型进行数值验证。这种“动手即实验”的模式，与他习惯的系统性、实证性思维高度契合。

关于AI的“黑盒”争议，他认为：“黑盒”本质是相对的。物理学本身也未真正“理解”微观机制（如量子场论仅描述特定能标下的行为），而AI中已出现如scaling law这类经验规律——它们虽非终极理论，却可能是通向科学规律的必经阶段。至于“智能涌现”，他更倾向视为技术层面的跃迁（即发现可水平提升所有能力的训练范式），而非某种神秘的质变。

“我觉得AI就有点像那个时代（18世纪物理学），理论和实验不分家……你自己可以做实验，然后也可以做理论的推测。”

“所以，其实从理论物理跨越到实验物理的距离，比你直接跨到AI要远，要远……而且从兴趣上来说也更远。”

AI研究的前科学时代特征

姚顺宇将当前AI研究比作17世纪热力学发展的前科学阶段：尽管缺乏对底层机制的清晰理解（例如热的本质或语言模型中矩阵元的具体作用），但经验性规律（如热力学定律或当前的scaling law）仍能驱动技术快速演进。他指出，AI研究正处在一个理论与实验高度融合、边界模糊的阶段——研究者往往兼具理论建模与工程实现能力，类似早期物理学家既做实验又做理论推测。这种状态与现代高度分工的学科体系形成鲜明对比：从理论物理跨越到实验物理的门槛，远高于直接转向AI研究，尤其在兴趣匹配度上更远。他坦言自己对传统实验（如搭建光学平台）缺乏直觉和动手能力，而对数值实验（如模型训练、技巧对比）则更易理解其动机与逻辑。这种认知差异也印证了AI研究的特殊性：它更依赖可复现、可解释的数值实验，而非高度依赖经验与直觉的传统实验物理。

‘你不喜欢实验物理？我觉得喜欢做实验。我觉得，嗯，确实不是我的兴趣所在……但我确实很有兴趣知道别人实验做的怎么样。’

‘AI不用做实验吗？用，但是它是更多是像数值哦。对，它不太像那个，就是你实验室去搭一个光学平台……’

Anthropic的物理人基因与组织优势

姚顺宇提到，Anthropic早期大量招募物理背景（尤其是理论物理）人才，并非因其“擅长AI”，而是源于创始团队的技术核心人物本身即为物理出身，由此形成一种基于信任与历史联系的用人惯性。他强调，这本质上是一个时代的产物——在AI尚处早期、缺乏明确路径时，物理人所具备的建模能力、抽象思维与对不确定性环境的适应力成为关键优势。他加入Anthropic前曾接触OpenAI与Google Gemini，但因后者进展缓慢而未入选；最终因前同事（同为理论物理背景）邀请参与强化学习方向而加入。当时他对工业级模型训练几乎零认知，仅靠自学Andrej Karpathy的NanoGPT项目实战演练完成面试准备，迅速获得offer。

他加入的“Horizon”团队初期仅十余人，聚焦大规模强化学习研究，而整个公司规模约七八百人。他评价Anthropic具备极强的执行力与Top-Down决策机制：一旦判断某方向合理（如Claude 3在代码能力上超越GPT-4的市场信号），便迅速集中资源全力推进。这种能力源于技术负责人同时是公司决策者（如Javier Kaplan与Sam），既具技术公信力，又能为结果担责——这在OpenAI等大公司中难以复现。相比之下，Google等大厂更倾向Bottom-Up、框架驱动的研发模式，决策链条长、试错成本高。

‘他非常非常reactive，反应非常快……一旦给他一个信号，让他觉得是很reasonable，这公司该做的事儿，那就会扑上去。’

‘为什么他的coding会比GPT-4要好？……是一个纯技术原因……是某个人做了某个事情……最开始可能是自下而上的，但是后来就变成了一个自上而下的事儿。’

创始团队的信任是技术领导力的基石

在姚顺宇看来，技术一号位必须具备公信力，而这种公信力往往根植于创始团队之间深厚的信任基础。他特别指出，Anthropic 的核心优势之一，正是其创始团队——一群曾同在 OpenAI 并肩作战的“战友”——无人离职，彼此间有长期协作的历史。例如，Jared Kaplan、Sam Altman、Wu 等人共同参与了 Scaling Laws 和 GPT-3 等关键论文的撰写，这种“一起趴过战壕”的经历，构成了极强的协作韧性。姚顺宇认为，若连小团队都无法维系团结，就更不可能支撑起一家大型公司的长期发展。

对我来说，技术的一号位有公信力很重要。

他们是一块儿趴过战壕的人，互相之间的信任还是很关键。

Claude 3.7 的诞生：大尺度强化学习的实战突破

姚顺宇加入 Anthropic 时，正赶上公司聚焦于大尺度强化学习以提升模型的 coding 能力——这成为他参与的首个核心项目，并最终催生了 Claude 3.7。他提到，3.5 New 已初现 Agent Coding 的苗头，管理层据此“下注”，而他加入时正处于“知道这事能成且重要，但还不清楚怎么做成”的关键阶段。团队的研究重心集中于：如何构建稳定、可扩展的训练环境，包括设计清晰的回归信号、构建高质量数据集，以及在基础设施与算法之间做权衡。

他特别强调，“把简单的事做得比谁都干净” 是研究中的核心哲学：并非越复杂的算法越好，而应优先选择最稳定、最可复现、与基础设施最匹配的路径。例如，Policy Gradient 虽简单，但若与系统异步架构兼容性差，反而不如更适配的变体高效。

我觉得把简单的事儿做的比谁都干净是最关键的。

它重要的原因有二……Coding其实是模型使用工具和环境交互的一个很好的抽象。

范式之争：预训练 vs 后训练，以及平台期的误判

姚顺宇观察到，3.7 是Anthropic后训练能力的分水岭：此前，行业普遍对如何规模化后训练（尤其是强化学习）缺乏清晰路径；而 3.7 时代，大家已逐步明确——需在反馈信号清晰、数据丰富且可学习的环境（如 coding）中开展训练。他对比了 OpenAI 与 Anthropic 的路径：虽同属“大方向一致”，但具体算法、数据组织与基础设施设计差异显著，且双方初期目标并不相同——OpenAI 更关注通用后训练范式，而 Anthropic 聚焦 coding 场景的工程落地。

他坦言，自己曾一度认为“预训练的 Party is over”，但后续发现：预训练与后训练均未达平台期。当前真正的瓶颈并非模型学不会，而是人类作为“教师”尚不清楚下一个该教什么、该怎么教。他用一个生动的比喻：“模型还是一个非常聪明的小孩儿，但我们还不知道该教它什么。”

预训练scaling law这个事儿，它其实本质上是一个很系统的框架，能够告诉你做什么样的事儿是更有效的。

我们人类作为老师，现在还不知道下一个东西该教什么。

训练系统的异构性与集体主义本质

在大模型训练中，训练模型的机器与改变模型权重的机器往往存在差异，这种差异既可能源于数值精度差异，也可能来自异步训练架构的设计选择。不同公司因基础设施水平不同，对这类差异的容忍度也不同：有的公司差异极大，因此算法设计重点在于控制训练稳定性；有的公司基础设施强大，差异小，便能更聚焦于训练效果优化。这也解释了为何许多“小技巧”（如某些no-hardest方法）在实践中效果有限——它们脱离了系统整体语境，脱离了‘为什么这个方法在此处有用’的因果链条。现代AI训练是一个高度复杂的系统工程，任何局部经验都难以直接迁移，必须放在全局中理解其作用机制。

‘现代的AI训练是一个大的系统，你其实要把要了解这个方这个系统的方方面面，才能有一个全局的认识。什么事儿是因为什么而变得有用了，而不是说这个事儿本身有用。’

‘我觉得在模型侧主要这样……发论文的时候，他还是有一座呃，这种作者主导作者。现在现在呢？嗯，其实没有办法量化……在这个时代，其实谈每一个个人个体的影响是一个很很虚无缥缈的事情。’

从Anthropic离职的深层动因

作者在Anthropic经历了公司从“小作坊”向大规模组织的剧烈转型：初期文化简单、紧迫感强、人人专注做事；后期因快速扩张（员工接近2000人，翻倍增长），文化出现混沌与冲突，尤其个人与部分新加入成员的价值观产生摩擦——他反感过度强调想法却轻视落地的“空谈文化”，认为“idea is cheap”，关键在于把模糊想法拆解为可执行步骤并真正实现。此外，Anthropic的专注性也带来学习瓶颈：多模态生成、底层工程基础设施等方向几乎无人涉足，限制了技术视野的拓展。因此，离职不仅是对文化不适的回应，更是对更广阔技术探索空间的主动追求。

‘我觉得，呃，我不不太喜欢在这个领域里面说很多话的人……我觉得idea is cheap，想法是是是便宜的。很多想法其实很显然，所有人都知道难的是怎么把实现，怎么把它变成一个一个小的可实现的步骤，把它做出来。’

英雄主义的终结与AI发展的不可逆性

作者明确指出：个人英雄主义时代在AI领域已基本结束。Transformer的诞生是少数关键突破点，属于英雄时刻；但进入scale-up阶段后，模型进步越来越依赖集体协作能力——能否高效协同、持续投入、容忍试错。即便像Agent/Coding这类热点，其本质也是在已有大模型能力涌现基础上的顺势而为，而非某个个体的灵光一闪。更深层看，AI发展的驱动力已从“人推动世界”转向“世界推着人走”：任何组织试图单方面阻止进展（如Anthropic出于安全考虑）都难以奏效，因为“别人会发展，你的影响力反而会缩小”。因此，AI治理的出路不在于某家公司的道德权威，而在于构建多方制衡机制——类比核威慑中的mutual assured destruction，需通过多主体共存实现系统稳定。

‘我觉得在Anthropic经历了太多这个和产品息息相关的事儿之后，我可能也想给自己换个脑子，去学习一些不一样的东西。但是你说有没有哪一天，我可能又换回这个脑子，又想去产生一些产品的影响，也是有可能的。’

AI的本质在于可实验性

姚顺宇提出一个核心观点：AI的本质是简单的——这不是一个严谨结论，而是一个可证伪的个人陈述。他解释说，这一“简单性”体现在AI研究具有极强的实验可及性：与物理等依赖难以标定实验数据的学科不同，AI研究者几乎可以对任何想法快速落地实验，只需时间与算力支持，而无根本性障碍。当前进展受限并非因想法枯竭，而是想法太多、需逐一验证，这反而凸显了人类在浩瀚可能性前的渺小。他进一步指出，AI已开始辅助人类加速实验流程，但尚未实现从假设生成、代码编写、实验执行、结果分析到新假设提出的完整研究闭环；他预计这一闭环将在未来六至十二个月内逐步实现。

‘我觉得未来的六到十二个月，AI就会自己做实验。’ ‘A I自己提高自己或者自己来加快自己的发展过程这件事儿，其实已经在发生了。’

Anthropic的转折与产品洞察

姚顺宇坦言，离开Anthropic时曾对其前景感到悲观，主因是其当时高度依赖API收入（即卖token），而这种模式本质上是“差生意”——仅对Google有利，且易陷入价格战，缺乏完整价值链优势。但他后来观察到，Anthropic在产品层面展现出敏锐的AI原生思维：Claude体验持续优化，Claude Work等效率工具逐步整合，印证了其真正理解AI能力边界与协作逻辑。他特别强调，Boris是Claude相关产品（如Code、Work）的关键推动者，其角色介于研究员与产品经理之间，体现了新一代产品设计者与AI深度协同的范式——这类产品并非功能堆砌，而是基于对AI交互逻辑的直觉把握，甚至可能催生如抖音级的交互革命。

‘Claude几乎至少这个事的开端吧，是他自己想要做这个事儿，提高自己或者同事的工作效率。’ ‘他好像是知道怎么跟 AI 协作的某种产品经历。’

DeepMind的科研重心：长 horizon 与 ML coding

加入Google DeepMind后，姚顺宇的工作重心转向两大方向：ML coding（AI自主科研） 与 Long Horizon（长时程建模）。前者致力于构建AI自我驱动的研究闭环；后者则聚焦于突破上下文长度限制——他反对单纯延长训练语段，转而主张用短上下文训练模型，使其具备长时程推理能力，类比人类通过选择性遗忘与检索实现高效认知。他指出，当前方案可分为预训练端（如稀疏注意力） 与后训练端（如Cursor的上下文管理策略），而他更倾向后者，因其更契合“短训长用”的哲学。他坦言Gemini在长文本技术上确有突破性技巧（如预训练优化），但自己加入DeepMind的主因是其技术实力与研究多样性，而非某一代模型表现。

‘人本质上 context 是很短，但他能够选择性的遗忘。’ ‘Long Horizon是不是还是个科学问题啊？嗯，有科学问题，也有工程问题。’

文化差异与选择Gemini的动因

在访谈中，姚顺宇提到，他当年曾将OpenAI列为职业选项之一，也考虑过XAI等其他公司，但最终选择Gemini，核心原因在于对OpenAI文化氛围的担忧——他认为OpenAI更偏向“做事的人”，缺乏一种技术理想主义与人文温度的结合，即“宅门奶多”（指工程师文化中那种松弛、包容、有生活气息的氛围）和“俺消费也多”（可能指对用户需求、产品体验的深度共情与投入）。这种文化亲近感，加上他恰好赶上了Gemini 1.5（原文称“斩满三”，应为口误）发布的关键节点，使他选择加入。

Gemini的崛起并非单靠某一个模型，而是《纳罗普纳》（即Gemini 1.5 Flash的爆款效应）与Gemini 1.5 Pro的接力共同促成：前者以极强传播力吸引大量用户下载App，后者则成功将用户留存下来。姚顺宇指出，若没有Flash先“打爆”市场，Pro的模型优势难以被广泛感知；而OpenAI因胜战率已很高，模型微调对其影响相对有限。更关键的是，普通用户对模型能力的感知其实非常微弱——绝大多数人仍在使用基础版GPT，而非O系列等高端模型。因此，Gemini通过“拉新+留存”的组合拳，实质性地撼动了OpenAI的市场地位。

原话：“它有事实上抢走多少差GPT的用户？……我的感觉是展板来可能市占会在百分之二十左右吧。”

原话：“我觉得Open是救了Google一一命……因为大家以前一直都担心说这个聊天机器人会不会完全把搜索取代掉？……结果让Google自己把聊天机器人也追上来了。”

Google的组织进化与工程文化优势

从内部视角看，Google在AI领域的突破并非偶然。姚顺宇强调，技术储备与人才基础始终充足，而近年最大的变化是组织架构趋于清晰：预训练、后训练、运行链等关键环节的责任分工明确，每个节点都有清晰负责人。相比早期的混沌状态，如今Google在模型训练流程上已具备高度可预测性与可控性——工程师能较准确预判下一代模型的性能区间。

他进一步对比了不同公司的组织风格：Anthropic偏自上而下，而Google虽比早期更系统化，但仍保留更多自下而上的创新活力；相比之下，OpenAI早期组织划分更模糊（如将后训练与产品团队交叉整合），虽有灵活性，但也带来不确定性。

Google的核心优势在于其工程化能力——尤其在预训练这类确定性范式中，能像做大型工程项目一样推进：目标明确、节点清晰、评估标准统一。姚顺宇认为，预训练已进入Google的“舒适区”，而更具不确定性的后训练阶段仍需更多探索。值得注意的是，他提出一个技术观点：预训练与监督微调（SFT）本质上可视为强化学习（RL）的子集，二者最大差异不在算法，而在数据分布特征——预训练强调广度与多样性，对质量要求相对宽松；后训练则追求窄范围内的极致数据质量。

原话：“你能够，你能知道下一代不会差，然后可能你还会知道它会有多好。”

模型形态、产品力与未来不确定性

姚顺宇对当前AI竞争格局持开放态度：“现在谁的位置都不稳固”，因为AI形态远未到终局。他质疑国内将AI竞争简化为“Super App争夺战”的逻辑——若未来出现全新交互范式（如非对话框形态），当前主流模型的功能可能仅成为其子集。

他特别指出：人类至今仍仅通过“插爆”（即聊天机器人）与AI沟通，是一种低效且不自然的方式，亟需产品经理来“解放模型能力”。尽管对话框是当前主流，但其局限性明显：面对简单查询（如“买大米”），用户宁愿用传统搜索，也不愿在对话中绕圈。

他进一步分析Google与OpenAI的护城河差异：OpenAI的壁垒在于产品与品牌（投资人认可其为产品公司），而Google虽技术实力强劲，却长期面临“华尔街不认可”的困境——其搜索引擎虽简单（一框一键），却凭借极致性能建立护城河，但这种“技术溢出型产品”难以复制到新领域。Gemini的追赶证明Google在模型层面已不落下风，但在产品化与用户心智占领上，仍需时间。

原话：“人类到现在只通过插爆去跟 AI 沟通，让你觉得很蠢是吧？……那应该用什么去跟 AI 沟通？没想明白，要想明白我就干了。”

浪在往前走，冲不冲由你

姚顺宇用“冲浪者与浪”的比喻，精准概括了当前AI发展的本质：AI本身是一股不可阻挡的浪潮，它会持续向前推进，无论个体是否主动参与。他坦言，即便自己不参与某个项目，项目效果也不会因此变差——这并非谦辞，而是对技术演进客观规律的清醒认知。在Google或其它机构的经历让他意识到，真正决定成败的不是某个“英雄式”的个人贡献，而是系统性地顺应并驾驭这股浪潮的能力。

“本质上是那个浪，而不是你那个冲浪的人。”

“浪是AI吗？对，就是AI这个事情本身是是这个浪，它会往前走，不管你冲不冲这个浪，这个浪都会拍到岸上。”

benchmark打满之后，范式革命在哪里？

姚顺宇指出，当前模型能力的“打榜竞赛”已进入饱和阶段：从MMLU、IMO到GSM8K、RKG，分数早已从十几分跃升至六七十甚至八十多分，公众认知中的“高分”指标基本打满。OpenAI曾因“超过83分”被指出题目定义不良而陷入尴尬，侧面印证了当前评测体系的脆弱性。他强调，单纯追求榜单排名已失去实质意义，技术焦点正在从“能力打分”转向更深层的系统性问题。

他进一步提出，真正的范式级变化尚未到来，但几个方向值得期待：MLOps/Coding（提升AI研发自身效率）与Long Horizon（长时程推理与规划）。尽管这些尚不构成“从零到一”的范式跃迁，但对Google这样全栈布局的公司极具战略价值。他特别澄清：Continual Learning与Long Horizon在本质上并无区别——二者都试图解决模型如何在动态环境中持续适应的问题，区别仅在于是否显式更新权重；而context中的KV缓存本身也是一种权重，因此二者殊途同归。

“大家在争什么？现在感觉群魔乱斗……其实现在看来已经没那么重要了。”

系统性做AI：从个人英雄到可靠组件

姚顺宇认为，在当下阶段，系统性做AI的核心是“科学态度+可靠个体”的双重支撑：一方面需清晰识别模型背后的预设与假设；另一方面，个体必须超越“为项目负责”的学术思维，转向“为组织负责”的工程伦理——即不只追求指标好看，更要追问：在真实生产环境中，限制因素究竟是训练flops、采样策略，还是部署延迟？

他尖锐指出：“评价框架很容易被hack”，一个值得信赖的研究员，必须主动审视自己是否在‘只展示有利部分’。例如，强化学习算法若仅在训练阶段胜出，却在sampling或production run中失效，便是系统性失职。这种自觉性并非天生，而是源于对组织契约的尊重与“拉不下脸”的责任感。

在组织层面，他强调：技术Leader比CEO更关键，其需具备两大特质：一是“救火能力”——能亲自下场解决核心瓶颈；二是“理解力”——能尊重并支持非己主导但至关重要的方向。他总结道：“最好的状态往往是最不稳定的，得有一个leader来控制这个事儿。”

“你作为一个个体的话，你不知道怎么样是对全局最好的呀……如果一个研究员做不到对全局去考虑的话，他就不是一个好的研究员，在现在这个时代。”

领导力的核心：救火能力与共情力

姚顺宇认为，一个合格的 leader 至少需具备两个核心特质：救火能力与共情理解力。所谓救火能力，并非仅停留在战略层面的构想，而是当项目真正陷入困境时，能亲自下场带团队解决问题——即便绝大多数时候无需动用这项能力，但必须保有这种实战级的应对能力。而共情理解力则体现在：即便某件事不由自己执行，也能深刻理解其价值与重要性，并愿意包容、支持他人完成。这种双重能力，是推动复杂技术项目落地的关键保障。

他自己有救火的能力，说不是说他光嘴上说要做什么要做什么要做什么，而是说有一件事儿真的遇到困难了，他能自己下场去带人把这个困难解决掉。

第二个重要特质就是他得能够能够理解别人，就哪怕一件事儿可能是他不做的事儿，但他能能够理解到为什么别人做那事儿重要，能够容得下别人。

GPU vs TPU：生态与通用性的权衡

从硬件角度看，GPU 与 TPU 并无绝对优劣，尤其在大规模商用场景下，差异更多体现在设计理念与生态支持上。GPU 的最大优势在于成熟的开源生态，而 TPU 虽缺乏开源支持，但 Google 会为自家集群构建专属基础设施——当规模达到数十万卡时，基础设施投入已不成负担。架构上，GPU（如 Hopper）采用小规模 Pod 设计（如 8 卡），通过 NVLink 实现极低通信延迟；而 TPU 采用三维 Torus 架构，牺牲点对点高速互联，换取更大规模集群集成能力。若 compiler 与 sharding 策略足够优化，TPU 可实现更大的显存空间与更低的通信瓶颈。

从实际这种大规模商用来说，没有哪个孰优孰劣。

它肯定是比起 GPU 来说，至少在在小的 scale 上来说，比起 GPU 是更更加呃更加固定的一种结构吧。所以说它的它的易用性或者它的通用性可能没有那么强。

中美 AI 产品逻辑的分野：C 端复杂性 vs B 端直接性

中美在 AI 产品路径上已出现显著分化：美国聚焦高利润的 enterprise 效率软件市场，产品逻辑高度直接——如代码辅助工具按月订阅收费；而中国 C 端市场则擅长构建多层次、间接变现的复杂生态，如抖音通过免费内容吸引用户，再通过广告、直播、电商等多路径盈利，形成难以切入的闭环系统。姚顺宇指出，美国缺乏能复刻此类“无感变现”模式的产品能力，Meta 即便试图模仿字节跳动（如豆包），也因缺乏本地化产品直觉而难以复制其生态深度。

中国很强的，就是 C 端，就是它能够想出一些哎非常非常复杂的产品的的性质或者结构，然后用一种很间接、很不自然的方式。把这个利润滚起来。

一开始不挣钱，但一旦他开始挣钱，你就拦不住他。啊，就是他，就是他是真的能形成那个 B 那个那个自己的那个那个圈的。你就是他真的把那个圈转起来的时候，你再想往里插就插不进去了。

AI 人才评估：靠谱 > 聪明，协作 > 单干

姚顺宇强调，AI 行业已告别“个人英雄主义”，靠谱（细致、负责）比智力更重要。他设计了一道面试题：要求候选人24 小时内从零完成一个强化学习项目（含模型选型、数据处理、训练部署），并进行 1 小时深度复盘。该设计意在考察两点：一是能否高效利用 AI 工具链；二是是否真正理解 AI 输出结果，而非全盘依赖。熬夜完成体现对机会的重视程度，而讨论环节则暴露是否具备与 AI 协作的真实能力。

在AI时代没有那么难……过没有AI的时候，这个是不可能的，没有人能24小时之内把它做出来。

你有没有真的和AI形成了协作，还是说你就全权扔给他？那个是我，我觉得我个人看重的事儿。

Anthropic vs. Google：纵向深度与横向广度的抉择

姚顺宇对比了在 Anthropic 与 Google Gemini 的工作体验，指出两者在研究路径上存在本质差异：在Anthropic，由于其目标高度聚焦，研究者能深入挖掘 语言模型（language model）的纵向深度，把一条技术主线吃透；而在Google，研究环境更偏向横向拓展，能接触大量不同方向、不同背景的研究者与视角，但缺乏那种“一条线挖到底”的专注感。他强调，这种差异并非优劣之分，而是组织战略与文化差异的自然结果——Anthropic的坚定（bat的足够坚定）赋予了研究者深度探索的自由与空间。

‘在Anthropic就可以把一个事儿了解很，把一条线就是 language model 这条线的方方面面的了解的很很很透。’

‘你有想过用AI去解决物理问题吗？……我觉得这个事儿目前对我来说不是最高优先级。’

英雄主义退潮：从个体崇拜到集体演进

姚顺宇坦言，成年人很难真正崇拜某一个人，尤其在经历了足够多的理性判断之后。他提到物理学家中的远见者——如杨振宁、文小刚（“好蛋”）——如何在时代尚未认可其方向时坚持探索，比如文小刚在拓扑序与分数量子霍尔效应上的早期工作，在数十年后才被广泛理解其价值；而在AI领域，他将Jeff Hinton视为英雄级人物，因其在神经网络低谷期仍坚定投入。但他也指出，当前AI的突破更多是“英雄集体”的成果，如Transformer的提出者（如Noam Shazeer、Jakob Uszkoreit等）共同推动的范式跃迁。

他进一步批评了那些“not even wrong”式的言论——即观点模糊、无法证伪，却总能在范式更迭后声称“我早说过”。姚顺宇认为，科学必须建立在良好定义的基础上，模糊即无意义。他观察到，人年长后可能走向两种极端：一种是“德高望重”的引导者，另一种则是“老登”——既不懂又爱指手画脚。他自认属于前者，但承认自己越来越“厌蠢”，直言表达虽短期招人反感，长期却赢得尊重，因为AI领域有客观评价标准。

‘一个事儿模糊就是没有意义的。’

‘直接表达自己的想法是一个短期一定会有人恨你，但长期大家会欣赏的事情。’

阅读、食物与信念：一个务实主义者的日常

当被问及“人生之书”时，姚顺宇坦承自己“不爱读书”，文化水平不高，读的多是专业书或“闲书”。他最近读的是唐川（唐纳德·特罗特）的自传《旅人》，欣赏其中科学家年轻时的真实挣扎；若推荐小说，则是日本作品《来自新世界》——他认为其对文明演进与人性的探讨极具启发性。他偏爱寿司，若选一个全球最爱地点，目前是夏威夷，因热爱大海。

他调侃“老登”一词的流行，称自己并非迷信者，但承认“厌蠢症”普遍存在；当被问及影响AI进程的关键论文，他列出Sequence-to-Sequence模型（代表语言建模的工程高峰）、Scaling Law（将系统性量化研究引入AI领域）——尽管后者方法未必最优，但其范式意义重大。他当前最重要的“bet”是 Largerizer（虽未展开，但显然指向某种模型规模或架构优化方向）。

最后，他对工作室名“语言级世界（Language is World）”的解读颇具历史纵深感：十年前，意识到语言是智能核心载体，曾是超前视角；如今共识已成，但名称本身仍承载着一种对语言本质的信念——“我们是故事的开端，这个世界终将听见。”