所有人都感受到了,就是 coding agents are general agents。AI的自我进化变得更加的贴近现实了。Andrew Kapasi 最近在 Twitter 上讨论他的 Auto Research 实验。就是让 AI 自动优化自己的训练代码。OpenClaw 的开发者就是之前在奥地利的 Peter Steinberg,为什么这样一个应用形态是来自一个个人开发者?
可以参考一下之前的 Devin,有的时候一个灯塔效应,或者说给大家指一个方向,这个事情。他可能要稍微跳得远一点儿。Dylan Patel 开玩笑说,呃,Codex 像是一个弱智,但是他在编程这个事情上,就是花了很多时间去学习,然后吹得特别好。但是 Opus 感觉像是 AGI,相当于现在是主人是 Claude Code,奴隶是这个 Codex 在干活,那主人是和用户直接这个交付的。
这个奴隶到底用谁?他可以去改,对吧?所以这个 OpenAI 也在想怎么翻身,这个做主人。啊,Meta 这公司特别有意思啊,它就是前几周吧,大概有一周的时间,就是让全员停下来,管理层会看每一个人的这个 token 消耗量作为团队效率指标,所以就有我知道的朋友让这个 Claude Code 在那跑一个 loop,疯狂输出没有意义的这个 token 啊。
最近Anthropic这个几个 billion那个 revenue 增长里面,搞不好也有 Meta 这边贡献。欢迎收听晚点聊,我是曼奇。从二六年Q一开始,万点聊推出季度总结系列,会分为AI季报和巨深智能季报。其中AI季报的嘉宾是身在硅谷的MOE Capital创始合伙人Henry Yin,他此前已经两次做客万点聊,分享过Agent和工具链的创新机会和Gemini三之后的一些新进展。
分别是一百三十七期和一百四十六期。本期节目,我们从 Open Claw 开始聊一季度的进展,进而延展到 Anthropic 和 Cloud Code 以及 Co Work 产品的强劲增长,Anthropic 应用形态与 Open Claw 的相向而行,以及在这背后的 Open I 与 Anthropic 两家公司他们的 coding 产品 Codex。
和 Cloud Code 和最新模型 Opus 4.6 与 ChatGPT 5.4 之间的三重对阵。所有这一切的快速进展都发生在过去三个月。在 Coding 到通用 Agent 和个人 Agent 这条主线之外,我们也讨论了 Auto Research 等项目的 AI 自进化能力。和仍处于探索中的其他方向,如持续学习和世界模型。
亨瑞也分享了他在硅谷这个 AI 密度最高的地方感受到的科技带来的社会变化,科技大裁员。而我则补充了我了解到的一些中国公司的情况。不管是 AI 的主战场的快速发展,还是自进化开发方式端倪出现,二六年前三个月的变化显示,AI 越来越不只和科技圈相关。下面我们正式进入本期节目吧。今天非常高兴邀请到老朋友 M O E Capital 的创始合伙人 Henry In。
Henry,你可以和我们的听友简单打个招呼。嗯,大家好,我是 Henry。我之前的背景的话呢,自己做过 AI research,然后也创过业。现在呢,我是 M O E Capital 的合伙人。M O E Capital 是三个月前在硅谷成立的早期 AI 基金。我们现在已经完成了首关,投资了六家公司。
投资的方向的话,主要是三个,第一个是 AI for Science。第二个的话是 B to B 和 Consumer 的 application,第三个的话是 software infrastructure。那么如果有做这三个方向的创业者,非常欢迎来和我们交流。嗯,之前我也介绍过,Henry是摇班毕业,然后去Berkeley读博士期间创过业,卖过公司,现在在硅谷做投资的一位资深从业者。
之前他也运营AI
House。所以和硅谷的很多AI研究员有很多交流。从这个季度开始,我想约Henry每季来做一些AI季度的回顾,范围主要可能会涉及到美国的一些公司,然后我这边也会聊一聊中国我了解的一些情况。嗯,那我们还是先从AI现在变革的源头和驱动力开始聊,就是技术的进化。还有应用的变化,嗯,Henry,你可以讲讲就整个二六年Q一的话,你看到了几个最大的变化,或者说AI领域的一些你觉得比较有意思的现象是什么?
好的,我觉得Q一还是发生了特别多exciting的事情啊,我觉得可能可以分成三件大事吧。第一的话是 OpenClaw 异常火爆啊,就 OpenClaw 可能大家都熟。如果要是之前不知道的话,它是一个开源的,相当于一个个人的 agent 的框架,然后它可以接入啊,大家平时使用的这些聊天软件,比如说飞书呀、 WhatsApp呀、 Telegram,然后帮你去执行各种任务。
我觉得它是让就是 AI
从聊天儿开始真正变成这个干活儿。所以我看到有人戏称说牛马们终于有了自己的牛马。然后它这个成长的曲线非常的快,就过去可能六十天吧,GitHub的这个star数量超过了React十年以来的积累,啊,所以我觉得可能是Q1,就是毫无疑问可能是最火的项目。第二件事儿的话,我觉得可能是这个头部的模型厂商的竞争呢,比如尤其是
OpenAI 和 Anthropic,啊,这两家现在都特别重视他们的 coding 产品,就是 Cloud Code 和 Codex。
Anthropic 的现在的收入增长呢,很大程度上我觉得是 Cloud Code 驱动的,所以这个竞争的焦点可能不再是谁的这个 benchmark 跑分更高,而是说这个谁的产品生态会更深一些。呃,第三点,我觉得可能是这个AI的自我进化变得更加的贴近现实了。就是Andre Kapasi最近他们在Twitter上讨论这个他的Auto Research实验,就是让AI自动优化自己的训练代码。
呃,像MiniMax最近刚发布的M 2.7啊M 2.7这个模型,它的这个副标题也是Early Echoes of Self Evolution,就是自我进化的早期吧。所以大概他们有百分之三十到五十的这个强化学习的研究的工作流是由模型自己完成的,然后最近也看到了,就是有顶级的研究员从 OpenAI、Anthropic 这些 lab 出来,然后创业做相关的方向。
所以我觉得这个 AI 自我改进,就是简写可能叫 LSI 吧,我觉得它可能会让这个模型和 A 软能力接下来会进一步的加速。对我觉得 Q1 可能就是这三件事儿。OK,那正好我们可以就围绕你说这几个事儿,我们可以展开聊一聊。OpenClaw也是我一开始就想聊的事儿,因为它确实在全球AI圈都很火,尤其是在中国,它是非常出圈的,是一个国民级的现象。
之前晚点也发了一篇文章,讲了小龙虾的狂潮,什么小学生退休的。老师都在用这个东西。从你和周围人的观察和使用体验来看的话,就你觉得 OpenClaw,因为它也是个 agent 嘛,那之前其实也有很多 agent,包括你提到的 Cloud Code,还有后来 Anthropic 出的 Cloud CoWork。
那小龙虾和这之前的 agent 的核心区别,或者说它的特性是什么?好,我觉得 Open Claw 应该不是一个技术上的突破,我觉得它还是一个交互范式的突破。类比一下的话,我觉得它是 AI Agent 的一个 iPhone 时刻,类似于这个触摸屏之前就有了,对吧?但是 iPhone 把它放进了一个所有人都想用的一个产品里面。
呃,Open Claw的话,其实技术上没有什么新东西。像每一个组件呢,独立的组件都是之前已经存在的,包括这个 L M 循环调用啊,To use 啊,记忆啊,像 Cloud Code 啊, Manus 都能做。但我觉得 Open Claw 呢,它做对了几件事情。第一件事儿的话,它跑在你的本地电脑上面,啊,这意味着它能访问你的文件。
还有你所有的这个系统权限,你所有的本地的这些东西,它都能看得见。那像 Manus 这种 cloud agent,它其实只能看到你给它的东西,这个东西是非常有限的。但 Open Cloud 的话,它能碰到你电脑上的一切。其实这个呢,我觉得是双刃剑,对吧?这个既是它的这个超能力,它能够帮你端到端的完成这些任务,呃,相对来说也是它那个最大的一个安全风险。
呃,他做的第二件事儿做对的,我觉得就是他接入了,就是所有人已经在用的这些聊天 app,像这个 WhatsApp 呀、 Telegram 呀、这个飞书啊,它不需要你去学一个这个新的界面,更像是说这个 AI 来到你的生活,而不是你去找这个 AI。我们看交互方式的话,Cloud Code 它是在 terminal 里面跑,对吧?
所以它一开始是非常面向开发者的,可能非技术人员他可能不会一开始去自己想到会去体验一下这个 Cloud Code。然后,Manus的话呢,它我觉得是一个Cloud Agent,啊,它可能面向的是很多这种数字工作或者知识工作者。我觉得 OpenClaw 的话,它通过这个呃聊天软件的分发,真正把这个 AI 可能带到了所有人身边吧。
然后再加上呢,还有几个小东西,我觉得也很重要,像这个定时任务,然后像长期记忆,这样你越用越懂你。然后循环调用 LLM 呀,然后使用工具直到完成这个任务,我觉得都是相当于给它的加分项吧。我觉得如果再类比一下iPhone的话,就是像触摸屏、App、移动互联网这些东西都有了。然后呢,iPhone的话呢,就是把这些东西就是组合在一起,放进一个所有人都想用的产品里面。
我觉得Open Claw就是这个组合。因为 OpenClaw 的开发者就是之前在奥地利的 Peter Steinberg,我不知道大家有没有讨论,就是说为什么这样一个挺创新的应用形态是来自一个个人开发者,而不是之前可能做 AI 的挺久的一些公司,比如说为什么不是 Malus 或者 Anthropic 先做出这个形态了?
哦,这个我觉得可以参考一下之前的一个例子,就是说 Devin。那 Devin 的话,我觉得他可能最大的一个贡献就是提出了 AI self engineer 这个概念,就在刚发布的时候。啊,当然,它刚发布的时候,它其实自己不太好用,但是这个概念一下子就在深入人心了。所以这个概念其实一开始也不是像这个 OpenAI 啊或者 Anthropic 他们提出的。
所以有的时候的话呢,就是说,可能一个灯塔效应,或者说给大家指一个方向这个事情,它可能要稍微跳得远一点,可能不是说立马能够实用,或者说给大家提供一个很好的用户体验。我觉得 Open Claw 现在也是这样,像这些事情有的时候可能反而是说没有那些历史包袱的一些呃个人啊或者 Startup 他们来提出的。
但是我觉得大公司的优势是他们的产品其实在快速的朝着这个灯塔去前进。像Cloud Code最近ship了很多的新feature,像这个Open Claw。嗯,你自己会用Open Claw来做什么?包括你周围的朋友,或者说你们投的一些创始人、一些公司,他们会用Open Claw吗?还是说?呃,因为这个东西确实如你所说有比较多安全风险,其实,在硅谷也没有那么多人用。
我自己是用了OpenAI大概一周以后呢,然后我是把它就卸载了。那这个我觉得就主要是我的主要工作流还是基本上都在Cloud Code上面。嗯,但是我身边也有朋友就特别喜欢 OpenClaw,然后有一个朋友其实写了一篇文章来记录他的使用。他一开始我觉得也是比较怀疑的,但是用了之后呢,发现你完全放手的这个回报,它不是百分之十,而是十倍。
啊,他给我举了几个他做的例子。一个的话就是说这些消息的管理,他的话呢会每十五分钟 OpenClaw 来扫描一下他收到的所有消息,包括他的短信啊,然后他 Slack 里发的这些消息啊。然后一旦发现他,比如说承诺和别人要去某天某时某地见一个面,就会自动创建这些日历的这个事件,然后就会让他回复的这个更及时,就很少会忘事情,就不像以前。
另外的话呢,他自己也在这个很多什么 WhatsApp 啊 Signal 群里面,每天都是上百条消息。可能对于咱们国内大家来说,可能是微信群更多。然后他就用这个 Open Claw 呢,每天给他生成这个群里面的摘要,这样他就可以把这些吵闹的群啊、静音啊,但是也不 miss
这些重要的消息。然后他还有几个有意思的、生活里面的 use case,比如说价格监控啊,他之前同时追踪三十多个这个商品的价格,然后他现在都可以用 Open Claw 帮他完成。
还能帮他去做旅行规划呀,判断一下这个酒店,通过酒店的照片以及他的个人偏好,看看哪个酒店应该去订啊。包括还有一些餐厅定位啊,然后拍一个冰箱的照片,整理一下里面还有什么东西,更新它的购物清单,像这些东西它基本上都用这个 Open Claw
打起来了。不过它也是确实投资了很多的时间在。把这些工作流都跑起来上面,所以我觉得可能呃,普通人日常就是装起来 OpenClaw 的话,可能也没有那办法很快的实现刚才我说的上面这些的应用场景的用的特别的舒服。
哦,我觉得你这个深度使用 OpenClaw 的朋友,他讲的一些场景,可能确实 Cloud Code 没有那么方便做,或者说之前的 Agent 吧,比如说冰箱照片,那就得用手机拍一下,对吧?就我觉得它得是和你的移动端结合的比较紧的。一个交互方式,比如说我用手机拍一下,我猜的啊,他可能发到自己的某个聊天儿软件里面,就他有用这种方式喂给那个小龙虾。
那如果你是一个电脑本地端的或者一个外部端的产品,这么干都不是特别方便,就你得用手机拍,然后再传,再干嘛干嘛了,嗯。完全同意。对,对于一个 cloud code 用户来说,这个就很烦了,对吧?你得先手机拍照,如果你是电脑 terminal 的话,你先得 AirDrop 到电脑上,电脑上再扔到那个 terminal 里面,这个步数就很多,你可能就不太会去用。
所以这个确实 Open Claw 更方便。对,所以 Open Claw 自己 GitHub 上,它官方里面给自己说的那个定位也是叫 Personal AI Assistant。个人AI助理啊,我觉得它有点那种跨工作和生活的趋势啊,嗯嗯,哎,你自己用了一周之后你就你就不用了,是是因为你没有啥生活上的需求是吗?
你主要就是在工作,所以你觉得用电脑就够了。这么一说,我觉得可能确实是这样的。哦,之前我们也交流过一个事儿了,就是说 OpenClaw 在中国特别火,然后在美国其实没有那么出圈,就它的中美热度是有差异的。包括前段时间哈萨比斯的传记作者就是马拉比,他来中国推广他的新书嘛,然后在一个圆桌上他也参加了,他就提到说,美国的十次对话里面有九次都是不会提到小龙虾的。
但他来了中国之后,每个人都在问他小龙虾。你可以讲讲,就你在那边的感受是什么?包括你觉得为什么两边其实热度上会有这样一种差异?嗯,我觉得在硅谷的话,Open Claw当然也是非常火热的。我觉得 Peter 有成为新一代这个教主的趋势。不过我感觉硅谷的这些 researcher 们确实不太提 Open Claw,因为可能对他们来说技术上没有什么新东西。
我觉得硅谷的话呢,就是像这种Indeed的Hacker,然后像创业者社区的话呢,我觉得可能会更关注Open Claw一些,因为它可能代表了一种新的这个分发方式。啊,我个人觉得中国热度可能更高,可能有几个可能性啊。一个是中国用户本身对这种聊天优先的产品可能天然有感觉吧,因为我们都被这个微信生态培养出来这个习惯。
第二的话,我觉得可能也是国内像 OpenClaw呀、 OpenAI vs Anthropic
的三重对阵、自进化。所以大家可能平时用起来会比较费劲,可能所以这样开源的这个选项可能就会更火一些。另外,我觉得还有一个就是性价比这个问题,就是说中国用户可能还是对,比如说这个成本啊,会可能更敏感一些。所以刚好这个中国的模型又便宜又好用,开源模型,所以像这个 OpenClaw
和这个国产模型呢,就形成了一个很好的天然组合。
最后,我觉得还有一个原因就是本身这个名字起得很好,对吧?就是龙虾这个词可能非常对中国人的这个胃口。嗯,因为这边其实有很多普通人也是非常想用。小龙虾的啊,包括我今天给你转过一个新闻嘛,就是说在闲鱼上你可以五百块一千块找到人来帮你上门安装小龙虾,就是它是非常扩散的,它不仅是搞AI和什么搞技术的人在讨论这个事情。
我想知道就是在你那边的感受是什么?就比如说一个设计师或者一个销售人员,他们会用小龙虾吗?会知道这个东西吗?我觉得我听到的,比如说设计师的话呢,他们现在可能用的更多的还是说 Figma Make 啊,然后 Google Stitch 呀,然后有一些设计师自己开始用 Cloud Code,然后像这个销售或者做 Go to Market 的人,他们现在就是 Cloud Code Work 用的比较多。
我听说有公司比较离谱,是他们要求自己的非技术人员也开始搞这个 Hackathon。就这个黑客马拉松,然后就是用这个 Cloud CoWork 来自动化他们内部的这些销售啊这些流程,但是用 Open Cloud 的会比较少,所以在美国可能就是它扩散到更多工作群体的是 Anthropic 的产品,对
Anthropic 啊,然后呃像设计师的话可能会更垂直领域一些,就是 Google Stitch 还有这个 Figma Make。
嗯,对你刚刚也提到说那个 Open Cloud 和中国的开源模型有很多结合。这个确实有一些数据上的反应,就是我看 OpenRouter 上最近一个月的数据,就大概是从二月二十几号到三月二十几号吧,因为它是专门有不同的应用对模型的消耗的。然后在 OpenClaw
这个应用里面,还在前十的大部分都是中国的公司,嗯,最多的是街月,街月三点五 Flash,然后是 MiniMax M 二点五,嗯,后面有 Kimi K 二点五,还有智谱的 GLM 五。
包括小米的新模型最近也上榜了,嗯,我觉得可能便宜还是核心原因吧,但我觉得背后可能也可以多给大家讲讲后面的故事,就是Peter最早他用的也是Cloud。但是被 Anthropic 封了,然后他就转向了这个 MiniMax,然后发现这个成本只有这个 Cloud 百分之五,然后他就开始公开安利 MiniMax,相当于带动了整个生态,因为他最早的项目也叫 CloudBot 嘛,就是基于 Cloud 做的。
然后但是 Anthropic 它就是水火不容,就先给他发了一个这个商标侵权的律师函,然后在一月九号的时候呢,又直接从这个服务器端然后封掉了他,通过这个。Cloud订阅跑 Open Cloud 这条路,所以呢,Peter 就在一月十二号的时候就公开发贴说:“这个哦,我现在开始正式向大家推荐这个 Minimax over anthropic,然后只有的这个 anthropic 百分之五的 cost。
”然后后面他二月份他自己就加入 OpenAI 了,就这个 MiniMax 的 M 二点五 M 二点七大概呢,输入 token 是零点二美金,然后输出是一点二美金 per 一百万 token。然后 Cloud Open 4.6
的话,大概是五二十五,基本上就是一个二十倍的差距。所以啊,大家算了一下以后,发现基本上之前是如果用 Cloud 这个订阅两百刀,基本上换成 Mini Max 以后,每个月变成十五刀。
我觉得这个 A 阵的场景还是对成本是非常敏感的,因为一个复杂的任务的话,动辄就调用这个模型几十次、上百次,而不是说一次简单的对话。所以成本超二十倍乘以这个调用次数,我觉得差距还是非常大的。而且我觉得 OpenClaw 这个产品,就是我自己的一个观察,我觉得这个形态本身不是特别符合 Anthropic 的审美,因为它显然看起来安全风险比较大。
然后Sarpic他不管做什么,就他会一直强调说,就这个组织这个公司是很在意安全的嘛。所以我觉得这可能是也是为什么就是Cloud Code其实已经推出很长时间了,因为从二五年二月就开始测试嘛,然后在应该是五月左右把正式推出来的,但他们一直没有迈到就是我直接比如说进入你的手机,然后可以让你给他很多权限的这一步。
当然,我觉得小龙虾的热潮之后,其实那个 Anthropic 有一些变化,这个我们之后可以展开聊。嗯嗯,然后说说到你刚刚说的这个模型,呃,其实在这个 OpenRouter 上的排行里面,前面确实大部分都是中国公司,然后也会有 Cloud Ops 4.6,也有 Gemini 三等等。但有一个还挺新的面孔,这个模型叫 Trinity Large Preview 啊。
其实我之前不知道这个。模型。那我后来查了查,这个背后是个美国公司叫 Accra Accra AI
啊,我不知道你知不知道这个公司的情况。如果如果你了解的话,你可以稍微讲讲,这是个新的公司吗?呃,这个公司其实在美国的讨论度不是特别高。然后它是一家在迈阿密的一个三十人的一个小公司,然后他们大概融资呢融了这个五十个million啊五千万美金,然后从零训练了一个四百b的稀疏的moe的这个模型,然后大概有十三b的这个激活参数,是开源二二点零的一个license,大概花了二十个million
train这个模型吧。
那其实它好像冲上这个open router排行榜的原因很简单,就是它的preview期间是完全免费,所以相当于是零块钱per million token。所以它的这个用量很大,但是不代表它的质量很好。我看就是社区的这个投票里边,好像还是Kimi的这个二点五,还有这个GRLM,其实排名好像都要比它的那个Community Large Preview要高一些。
哦,原来美国迈阿密还有大模型创业公司,这还挺神奇的。这个我也是感觉比较神奇,但我感觉这个 Open Claw 的一个生态,其实感觉变成了一个模型厂商的一个战场吧。就是谁的模型在这个 Agent
场景下跑得好,然后又便宜,谁就能吃到这一波巨大的流量。嗯,对,包括中国的一些公司动作会非常快嘛,像智谱,它甚至就刚刚推了一个新的模型,它叫GLM五Turbo,然后他们说这个模型就是专门面向OpenClaw这个场景去是去优化的,嗯。
对我身边看到了已经不少朋友开始在这方面就是想这个创业的点子,就是有没有一些啊小模型或者说专用模型可以服务这个 OpenClaw 整个这个生态闭环里面的某一个小部分吧?你觉得这种创业点子或者说这种创业想法,它会比较持续吗?因为我也跟人讨论这个问题啊,比如说有的人就会认为,那些拥有最强的大模型的公司,他也没有理由没有最强的小模型,因为你有大的模型,其实你也可以做小参数的版本。
嗯啊,我觉得这个做这些创业的人呢,可能每个人想法也不一样啊,但是我觉得可能有一个思路的话呢,就是说这里面因为现在呃,每个公司其实也,这些大的公司也在收购这些。啊,小公司,所以其实,如果你要是能有一个地方能够啊打出自己的品牌,然后能够吃到这波流量的话,啊,其实也有很好的退出的这个机制。嗯,那我觉得这是挺硅谷的一种创业的想法。
我觉得至少在中国被收购退出不是一个特别多或者特别通畅的一个路吧,嗯,对,可能大家的支付意愿还是会低一些。前面讲的是 OpenClaw 比较火和它一些创新的地方嘛,也稍微讲到了一些就是它不太成熟的地方。如果更完整的描述的话,你觉得它现在比较不足的有什么呀?我觉得可能三个点,第一个点呢就是贵,第二个点的话呢就是有的时候不太稳定,尤其是长任务。
第三个的话呢就是安全还是一个很大的问题。贵的话呢,我可以举个例子啊,就是我有一个同事嘛,然后他用这个 Open Claw 帮他注册了一个新的 LinkedIn 账号,然后过程中呢,可能是调用了 OpenS 的这个 Computer Use
的能力啊,然后最后就花了二十美金,那这个只是注册一个账号的这么一个任务而已,所以可以看到,就这个成本堆的还是非常快的,所以现在这个日常的高频使用,尤其是你要是追求这个效果,然后用好模型的话,我觉得成本还是非常吓人。
安全的话,我觉得还有一个很有意思的故事啊。最近就是 Meta 的这个 MSL,就他们的超级智能实验室的做 alignment 对齐的这个负责人,他呢在 Twitter 上 share 了他的一个恐怖片的故事吧。我觉得他的工作就是他给 Open Call 的任务是接入了他的真实的 Gmail 邮箱。然后告诉这个Open Claw呢,你来帮我整理我的邮箱,因为它有大量的邮件,它自己都没有看。
但是呢,你在做任何操作之前呢,要先跟我确认啊。这个看起来是非常的这个安全的,对吧?但是这个Agent呢,在处理它的这个邮箱的时候呢,因为邮件实在是太多,所以这个Context Window这个上下文呢就爆炸了。然后这个上下文一旦被塞满了以后,这些 agent 现在都会做一个事情,就是自动压缩上下文,然后呢把这个上下文塞满了变成一个简短的总结,然后这样它可以继续去工作。
在总结的过程中呢,它就把做任何操作前要先和我确认的这个安全指令给默默的丢掉了。嗯,然后呢这个 agent 就开始疯狂的删除它的没有读过的这些邮件。然后他就在这个手机上疯狂的给这个 Open Claw 打字,就是说立马停止,不要这么做。但是这个 Agent 他这个 Agent 的 Loop 里面完全无视,所以他只能冲到自己的 Mac Mini 那去,然后就拔网线,像这个拆炸弹一样。
但最后他还是有大概可能几百封邮件被删除了。然后事后他还和 Open Claw 对话复盘这件事情。然后Open Claw还非常坦率的,就是承认了自己的这个失误,就是That was not okay。对吧?这个是我觉得是个非常有意思,尤其是一个就是说,你看这个在MSL做安全和对齐的负责人,然后自己也会遇到这样的这个安全问题,我觉得还是一个很有意思的一个事情。
嗯,我觉得你描述的这个场景特别有意思,因为它有很多那种动作片的要素,就像一个赛博版本的《生死时速》,就是基努里维斯演的。我不知道你看过那个没?在那个公交车上,嗯,就最后你你得去争分夺秒的解决这个危机。对吧?我又得在手机上打字,然后得冲到电脑面前,所以最后这就给他捅了个挺大的篓子了。对,挺大的篓子。挺,但我觉得我还挺敬佩他,就是说作为这个安全负责人,然后能把自己中招的故事分享出来,还是挺有勇气的。
但我觉得他的这个案例也说明一个问题啊,就是说现在AI呢,在长时间工作中反而会变笨。这个我觉得是一个很大的问题。当然,像目前是因为这个 context 的呃上下文有限啊,这样这个长任务中上下文被压缩,重要指令被丢弃,这样有的时候你跟他合作越久呢,你会觉得他反而越不可靠,因为他的这个记忆其实可能有的时候没有人的记忆好。
所以这也是为什么,就是后面我们可能可以聊到,就是说这个啊,持续学习,我觉得还是一个非常重要的一个研究方向。当前的模型的话,其实它没有真正的这个长期记忆,只有这个不断被压缩和遗忘的这个短期上下文。嗯,那从现在就是它的这些不足来看的话,业界有什么去完善它的这个体验的努力吗?呃,我觉得 Open Claw 呢。
他从三月份开始就是自己发了挺多新版本吧,然后三月二十二号的时候其实也是一个相对比较大的一个版本更新,然后呢,主要还是可能几个方面吧。一个方面的话呢,我觉得他做了一些安全上面的加固,他做了新的做了执行的 sandbox 来防止 agent
执行一些比较危险的代码。包括就是在这个下面的运行环境里面去插入一些安全环境变量啊,然后包括去验证这个 Webhook 的签名啊,然后还有完整的密码的管理的 CLI 啊,像这些我觉得都是之前一些大家实实在在被安全性坑过以后遇到的一些问题,他们在解决,所以安全是一个方面。
第二个方面的话呢,咱们刚才提到的这个例子里面,就是这个上下文压缩也出现一些问题吧,所以它现在也把这个上下文压缩做成了一个插件。相当于可以替换第三方的这个上下文这个压缩策略,所以现在社区也有叫做 lossless cloud 像这样的无损的压缩的插件了。然后另外的话就是多 agent
的协作呀,然后它的自己的这个插件的这个这个或者 skill 的这个 marketplace呀,它叫 cloud hub。
啊,都做了一些改进。呃,关于 OpenClaw 的更多影响,有一个讨论很多的话题,就是新的这种 agent 的应用对传统的 SaaS,就是云端软件的冲击。比如说,有一种比较极端的说法,就是觉得 SaaS 可能已死,嗯,就会被完全替代掉了。你可以讲讲,就是你是怎么看,就是 SaaS 接下来的变化的?包括你之前自己创业,你做的那应该也是一个 SaaS,对吧?
对对对,我觉得这个,那大家很多创业的人,其实国内创业的都知道,自己在国内做 SaaS 是一个非常难的事情。那这个逻辑的话呢,就是因为大厂呢,它其实有钱去招这个程序员,可能工资也不是特别高,对吧?相相对成本来说,那我就可以我自己需要什么软件,我自己去写就好了。那这是之前的,我觉得可能国内做SaaS,啊,可能最后都会做成一个咨询公司,或者说一个外包公司,然后做很多这个定制化的开发,对吧?
那现在的话,就是同样的事情可能会发生在全球范围。也就是说,现在大量的这个 AI 的 coding agents 其实起到了就是相当于一个怎么说廉价程序员的这么一个角色。那么,如果要是这个事情在全球范围内发生的话,那可能当时中国 SaaS 比较难的这个逻辑可能会应用到全球范围内,对吧?就是相当于美国现在其实相当于也出现了廉价的 AI 劳动力嘛。
然后呢?现在的话就是大家都可以去自己 write code,或者去你需要什么软件?我为什么要花几万或者几十万一年我去购买你?我直接这个 cloud code,我给我自己 write code 出来一个,对吧?省下来未来我未来所有年的价格。所以这个事情,我觉得逻辑上是能说得通的啊。未来的话呢,像这些传统的这个 SaaS 公司,他们的 margin 可能会,可能他们不会消失,对吧?
但他们的 margin 可能会下降到,就是说用户对比一下吧,自己 write code 的这个成本可能是相当的,或者说略高一点。那我可能会选择你的服务,那就不再会是以前那样一个大家都认为 SaaS 是一个很好的一个商业模式,可能能够达到百分之八九十的这种 margin,可能未来就不会是这样的一个格局了。
因为你刚才那个总结挺有意思的,呃,AI coding agent让工程师红利从中国蔓延向全世界,是吗?然后把全球信息市场的都中国化,呃,全球信息软件市场中国化,嗯,好吧,就大家都进入号的模式啊。你觉得 OpenClaw 打开的这个方向,就类似于你前面说到,就 Devin 他指了一个方向,也就个人 AI 助手,呃,或者说是这种更灵活的 Agent 吧。
它接下来会进入一个什么样的局面?因为我们现在看到不少大公司也在进场,包括最近,因为大家在GTC上,黄仁勋也是说,二六年是Agent的元年,然后他们自己搞了一个Nemo Cloud的企业AI Agent的平台。然后 Cloud CoWork 最近也是有一些,我觉得你可以说它变得更像 OpenCLaw 的一些更新版。
对,我觉得 OpenCLaw 就是是一个灯塔,但它绝对不是终点。就像曼奇说的,现在大公司基本上已经全面进场了,并且我觉得他们就是各有各的打法了。啊,像GTC这个老黄说,这个Open Claw是一个下一个拆GPT,对吧?然后Nemo Claw的话呢,本质上呢就是Open
Claw,然后加上他说的企业级的这个安全层,就他们也有这个Open Shell的这个啊沙箱啊,然后你可以通过写这个YAML文件来控制Agent的能碰哪些数据,能碰哪些API,能Access什么样的网络。
然后包括它还有一些审计追踪的这些企业级的功能,对,像这个我觉得是呃,NVIDIA他们的这个一个策略。那像Anthropic的话呢,我觉得基本上,啊,他们应该还是受到了很多Open Claw的启发。你可以观察一下他最近的产品的这些Cloud Code的这些更新,基本上我觉得是走在抄袭这个Open Claw的这个。
路上吧,可以举几个例子啊,就是像 Channels 他们首先加入了,就是你也现在可以通过这个 Telegram 呀、 Discord 呀来给 Cloud Code 的这个发消息、下指令,然后像这个 Remote Control,你可以就手机远程操控你电脑上跑的这个 Cloud Code。然后呢,Computer Use 也是最近新加的,就它能现在 Cloud 它能控制你的鼠标、键盘、屏幕。
然后呢,这样的话就不光是写代码啊,它可以浏览网页、打开 App、做任意的这个桌面操作。然后包括它的定时任务呀,也是它三月份新加的功能,还有这个 dispatch 呀,就相当于一个常驻的这个 AI 管家,能够自主启动和协调多个 cloud code work 干活。它这些基本上都是我们在 Open Cloud 之前看到的这些功能。
所以过去我数了一下,五十二天他们发了这个七十四个功能,基本上大部分是朝这个 Open Cloud 这个方向在走。这个我觉得是嗯,Anthropic。像 OpenAI 的话,那就是直接下手就把 Peter
这个给买下来了。虽然目前加入以后还没有公开他们的产品,啊,但我觉得它应该是呃明显就是后面的话应该会有一个 OpenAI 版本的和他们自己的这些呃之前的这个 Agent ChatGPT Agent Team 相结合的这么一个产品出来,我觉得应该是可以预期的。
为什么没有这么快了?就你刚刚说,你看 Anthropic 五十二天七十四个功能,那我觉得迭代速度非常快。OpenAI确实,Peter加入以AI行业的这个时间来说,我我觉得也算不短的时间了,可能有不到两个月吧。但我没看到什么动静啊。嗯,这块我个人的感觉哈。啊,还是 OpenAI 的精力现在稍微有点分散啊,我感觉他们自己可能也意识到这个问题。
对,因为其实和 OpenClaw 这个热潮相关的,一个是就刚才已经讲到了 Cloud Code,它有很多更新,对吧?有人会认为,其实 Anthropic 它在杀死这个比赛,也许它最后会获得这个竞争胜利的成果。然后 Anthropic 能做到这个,也跟他之前将近一年的时间 Cloud Code 它慢慢的一个积累和发展是。
很有关系的,然后这又影响了 Anthropic 和 OpenAI 的一个竞争的格局。呃,我我觉得可以先讲一讲,就是 Cloud Code、Cloud CoWork 和 Open Claw 的对比吧,比如说它的用户分布会有什么差异。然后,因为现在两边都更新的比较多嘛,那实际上就是呃,你觉得谁可能在体验上是更胜一筹的?
嗯,我觉得对于开箱即用的体验来说。啊,Cloud Code 和 Cloud Toward肯定是要比 Open Claw 就是好用的,但我觉得现在可能就是他们还是针对不同的这个用户群吧。像 Cloud Code 呢,我觉得它的初始客群呢是专业程序员的一个深水区工具。Open Claw 的话呢,可能是面向大众的一个浅水区入口。
我觉得 Cloud CoWork 可能相当于是介于两者之间,啊,可能是连接这个深水区、浅水区的,我觉得 Anthropic 的一个桥梁。所以我感觉这个 Anthropic is killing the game 这个说法,我觉得还是,呃,有一些道理的。嗯,哎,那他们有种相向而行的感觉。S R P的是先从就是比较专业的人群,然后比较难的一些场景开始做,对吧?
然后你从 Cloud Code,然后到 Cloud Co Work。其实它的面是在扩大的嘛,然后 Open Claw 因为它一开始就能放到什么 WhatsApp、 Signal 里面,其实它一开始的打击面就挺广的,嗯嗯,交互上的打击面挺广的。但是我我知道,就是它这个东西,如果你要装原始版本,挺麻烦的啊。
比如说我自己可能就是也是感谢中国公司的努力和勤奋啊,就比如像 Big Max 和 Kimi 他们都搞了很多那种云端的 Claw 的版本,那个装起来还是比较方便啊。就我自己有去试那个,但我试过人中间也发现它也有很多问题。比如说我上周跟他聊过的事情,这周他可能就不记得了,就他的记忆是有些问题的。嗯嗯,对,我觉得云的版本,我觉得可能有一个问题是,很多这个 Open Claw 的价值可能还是说,啊,它。
有你所有的这些信息,然后它能 access,它能访问你整个生态,对吧?因为我觉得,像我自己是个苹果用户吧,我是 iPhone,然后我是 Mac。那么这它如果要是 OpenClaw 安装在我自己的这个电脑或者 Mac Mini 上的话呢,它可以 access 我的 iMessage,啊,然后像我的 Notes,像这些苹果封闭生态里面没有 API 的这些东西,它都可以访问。
我觉得这个其实当时在我自己使用的那一周里面,对我来说还是一个很好的一个用户体验。哎,那我可以提供另一个视角的用户体验,就比如说,因为我的工作是很多都是文档类的工作,文案类的工作。所以,我有很多东西,我确实就是在飞书上,而且反而就如果我装一个本地板的,就是他要去看我飞书里的一些东西,我觉得也很麻烦啊。
就飞书里已经能解决我很多工作场景要干的事儿了,嗯。但是就可能就做程序、做开发,然后做产品,就每个人又不一样啊。对对对。所以我觉得飞书这种 all in one 的一个办公平台和小龙虾结合,和这种形态结合还是挺有潜力的,嗯。确实,这个话题再延伸一下的话,其实就是 Anthropic 和 OpenAI 的一个对比啊。
因为 Q1 的话,我觉得也正好是这两家公司的市场预期发生比较大变化的时间。我自己的感受是,现在挺多人是挺看好 Anthropic 的发展的。你你的整体观察是什么?我觉得这是个关键节点吧,可能是一个就是说,Anthropic从以前是大家认为是技术上受尊敬的一个挑战者,变成一个真正威胁OpenAI的这个同等甚至是更强的一个对手的一个季度。
我觉得可能核心的驱动力并不是说模型上Anthropic大幅领先OpenAI,还是说。而是说产品力上的这个领先。过去这个季度的话,Anthropic的收入的增长其实是非常疯狂的,它大概是以每个月五个 billion 的这个速度在增长。对,像 OpenAI
的话,可能就是去年从二百一十亿啊,然后增加到了这个二百五十亿,这是过去可能从去年年底到现在,所以它的增长其实是相对 Anthropic 它是在放缓的。
啊,我觉得一个关键的一个差异呢,就是能够看到,Florpik大概百分之七十到百分之七十五的收入呢,都来自于它这个B to B啊,然后这个API这边的收入,而OpenAI的话呢,它可能会更加的多元化,可能有的时候会更依赖这个消费者的订阅。OpenClaw的话呢,我觉得是一个啊,Anthropic的这个杀手级应用吧。
现在大概是一个二点五 billion的一个 AR,然后超过了这个Cursor的两个 billion,基本上现在已经是可能开发者界的这个老大哥了。对,这也是一个Anthropic的一个核心的啊增长的这个引擎。嗯,对,就我可以补充一下,就你刚说的那个 Anthropic 的收入,就它的绝对数字的话,在二五年十二月,Anthropic 它这个算的都是 A2R 的口径啊,是九十亿美元。
然后到二六年三月初的时候,就是一百九十亿美元了,就相当于不到三个月的时间,有一百亿美元的增长。然后 OpenAI 这边的话,它二五年底是二百一十四亿美元,然后二六年二月是二百五十亿。所以从绝对值上,之前是九十亿和二百一十四亿,对吧?然后现在就在二月三月的时候,Anthropic是一百九十亿和OpenAI的二百五十亿,就直观上它就已经体量上就差不多了,就它的增长追的是很快的。
你刚才提到Cursor,我觉得这个也是一个值得展开下的话题。我最近就是见一些比如说编程工作比较多的一些人啊,然后就会有人跟我提到说,可能自己一年前是Cursor的很深度的用户。就是会买两百美元那一档,会给他付很多钱。但是最近已经很久没有打开Cursor,就已经完全转投Cloud Code。而且我也知道,就Cursor可能在二五年上半年的时候,应该是硅谷非常。
火的一个雇主,就是很多人都想去这个公司工作,对吧?就大家觉得它很有前景啊。但现在看起来,就是这个产品的竞争力,我觉得还是受到 Cloud Code 很大的挑战呢。你可以讲讲,就是你你的感受是什么?嗯,我我觉得那短期可能对 Cursor 的 revenue 影响不大,因为大量的美国开发者还在从 GitHub Copilot 的迁移过来。
但我觉得长期来看的话,Cursor 的窗口应该是在收窄的。而短期 revenue 影响不大的原因是,像很多这个美国的大企业哈,就是像什么 Amex 呀,像这种银行呀,像 Cit 呀,Citibank 呀,然后 Capital One 啊啊,他们这些开发者,我知道他们还在用这个 GitHub Copilot。
那么他们的迁移路线呢?我觉得大概率是先迁移到,比如说像 Cursor 这样和 Copilot 比较接近的这个用户体验,但是是更好的用户体验,然后再往这个 Cloud Code 或者 Codex 这边去啊迁移。所以我觉得 Cursor 短期的话还是有很大的这个增量市场。但是 Cloud Code
它这个增速这么快,所以它长期的话呢,我觉得 Cursor 它最大的价值还是它的这个数据,就它这个海量的这个高质量的工程的这个轨迹。
啊,所以它实际上是说,能不能利用它的这个数据之前的数据优势,能够提升他们自己的模型的这个 coding 能力,然后呢,去做更多的这个 continual 的这个 pretraining,啊,但是目前来看的话呢,就是它这个时间窗口,呃,可能已经快要关闭了,因为这 Claude Code 自己的这个 revenue 和这个上面都已经追上来了。
所以我觉得长期来看,科色确实是会比较危险,它的自己的数据护城河也在被侵蚀。按照你刚才说的,美国大公司的编程人员的这种迁移路线,Microsoft是微软的产品吗?所以微软就是确定的,在这块是一个收缩的状态,示威的状态,基本上是这样的。就是前应该这个事情应该发生挺久,可能去年还是什么时候的一个时间点,他们好像大幅的降低了这 GitHub Copilot 的这个定价。
那个时候开始,我觉得他们就已经意识到自己的产品竞争力不行了。嗯,然后因为以前 OpenAI 和微软是有很多合作嘛,包括 Copilot 也有很多 OpenAI 的支持。但是现在显然两家已经有点渐行渐远的感觉。然后 OpenAI 也是主推了自己的编程产品,就是 Codex。然后 Codex 对比 Claude Code 的话,你觉得它有竞争力吗?
包括这背后的两个最新的模型,一个 OpenAI 的 GPT 5.4,就是三月出发的,呃,然后是 Anthropic 的 Opus 4.6,这是二月出发的。这个在就是用编程非常多的程序员群体里,大家是怎么去使用、怎么去讨论的?我可以先简单说一下,就是 Open 4.6 和 GPT 5.4 这两个模型,然后再来对比一下 Cloud Code 和 Codex。
Open 4.6 的话,它是这个 One Million 的上下文。然后呢,它当时一个比较大的一个噱头呢,就是它能连续的工作大概十五个小时啊,然后不崩溃啊,这就是指这个模型能够保持连贯的这种目标导向的任务执行,就长达就是大概十五个小时。那之前的模型的话,可能跑几个小时就会这个丢失上下文,然后就远离这个目标方向了。
然后它当时的这个 Permetal Bench 二点零的这个也是拿到了最高分。然后啊,Andrew Karpaty他这个比较火的这个Auto Research项目,也是优选这个OpenS四点六来执行啊,因为这个OpenAI那边他们在这个长任务执行的时候会有一些问题。然后GPT五点四的话呢,它是几个亮点吧?
一个的话是它这个OS World这个benchmark上面它达到了百分之七十五,然后超过了这个人类的百分之七十二点四。OS World是个什么benchmark?就它是考察什么什么?对,OS Word 考查的是这个,那就是 computer use
的能力。对,就是给你一个桌面吧,然后你一些这个任务,然后你去点呀,点鼠标啊,然后各种操作,然后完成这个任务的能力,相当于是个比较,呃,模拟人类使用电脑的这么一个 benchmark。
然后GPT五点四呢,它有原生的这个computer use能力,就是模型自己它能够看屏幕、动鼠标、然后打字,然后啊不需要这些web工具的包装。然后呢,它也把coding合并到它GPT的这个主线模型里面了。然后在Speed Bench Pro上面也是拿到了很高的这个分数,应该是啊百分之五十七点七。所以这个是两个模型大概的一个对比。
那么对于Cloud Code和CodeX的这个实际使用下来的体感差异的话呢?我觉得其实很多人都觉得,其实 Codex 在纯写代码能力上会更强一些,但是 OpenAI 和这个 Claude 它会和用户交流起来会更舒服,然后理解这个用户的意图更强。就是 Dylan Patel
在这个。Twitter上开玩笑说,呃,Codex像是一个 retarded kid super trained on coding,就像是一个弱智,但是他在编程这个事情上就是花了很多时间去学习,然后出现特别好。
哦,但是 Opus 感觉像是 AGI,就是 Opus 它是一个比较 all around,然后你交流起来就是说感觉非常聪明的一个模型,但可能在编程能力上面。这个方向可能略弱于 Codex,所以 Codex
是达斯汀·霍夫曼的愚人。编程版的语人,确实是个很好的比喻。嗯,其实包括我自己在内的话,就是很多开发者他的做法现在是我看到了哈,是给 Cloud Code 写一个 Skill,这个 Skill 呢就是说,当我需要去写代码或者我需要去 Review 的时候,我调用 Codex Codex 那个 Exec
来执行写代码和 Review 这些代码的任务。
然后呢,用 Opus 或者 Cloud Code 做这个思考和规划。然后我当时和这个 OpenAI 的人交流的时候,他们自己也发现这个,也知道这个事情。所以他们其实也在想,就是说改进这个用户交互体验,毕竟还是做上层,对吧?就是相当于现在是主人是 Claude,奴隶是这个 Codex 在干活,那主人实际上是和用户直接这个交互的。
呃,那他这个下面这个奴隶到底用谁?他后面他可以看谁厉害,他可以去改,对吧?那主人的这个traction还是更强,所以这个OpenAI也在想怎么翻身,这个做主人,然后让Codex这个交流能力各方面和用户的实际工作体验会更强一些。嗯,所以他们也觉得就是这是一个问题,是需要改进的。对,我觉得是,我觉得现在
coding 的核心就是不光是写代码更好,而是说能做这个完整的工程任务啊,就是这个循环,它改 bug、跑测试、读日志、T P R,这整个循环它能够用户体验更好。
我觉得这个是就是。比较重要的,你觉得这个体验差异是怎么造成的呀?是因为他们两个模型的优化方向不一样吗?我觉得 Claude 可能在这方面的就是整个的积累可能还是呃更深一些,因为像这种用户体验的问题,它很多时候不会被一个 benchmark 就是完整的来描述。这里面可能有个不太恰当的例子,就让人感觉有点像是这个苹果生态和这个安卓。
的对比就是苹果,经常你看它的这个跑分啊,或者它的硬件的参数啊,就是远远不如安卓安卓机的这个。啊,硬件或者跑分,但是它的这个实际用户体验可能有很多人喜欢。就我觉得现在啊,有点像是这个,就bench mark有点像你的这实际的硬件这些参数啊。那么它能部分描述你这个。东西怎么样?但是真正的话,就是大家开发者实际用起来感觉怎么样,其实是更重要的。
然后我觉得在这方面的话,Anthropic他们做了很多可能有更全面的啊优化和更好的这个数据来train他们的模型。从两家公司的发展来看,Anthropic肯定是更早更聚焦在coding和代码上的。而且 Cloud Code 这个产品,它从内测到正式推出,整个都会比 Codex 要早嘛,所以它接触用户也会更早,就它可能。
那边积累的更多,比如说用户的一些使用习惯、一些场景、一些长尾的需求,还有一些多样化的数据,可能都是更多的。对我觉得OpenAI的问题呢,就它不是模型不行,我觉得他们的这个research team还是非常非常强的。呃,他们的产品感觉上面,尤其是To B这方面,我觉得稍微差了一点。我觉得就是Peter加罗潘可能也是一个信号,就是他们觉得也自己需要去补一补,就是。
产品力这个方向吧,我觉得OpenAI的这个如果稍微对比一下哈,就是他们的优劣势。我觉得OpenAI的优势的话呢,就是个这个更大的这个consumer啊用户基础,然后呢,ChatGPT有非常强的这个分发能力,然后他们可能资金上面可能也稍微现在还是更充足一些。啊,那我觉得Open的劣势的话,就是他们这个注意力实在是太分散了,啥都做啊,ChatGPT也做。
API也做,然后各个 vertical 的 enterprise,然后还有是比如说 Sora,但是他们前两天刚刚把 Sora 给关闭了,是的。然后还有这个 OpenAI for Science,那么我觉得从 aspect 的话,他们就聚焦的多了,基本上就是编程加这个企业用户,所以在这方面我觉得他们摸索的时间更长,更有心得吧。
产品的一些感受力,然后这方面的一些积累,它是一个呃很难逾越的竞争优势吗?OpenAI有什么可能能赶上来吗?我觉得OpenAI的风险,他们其实内部可能已经在反思了吧。就是三月中的时候,应该是他们的应用的一个负责人叫Fiji。其在他们全员会上明确说他的原话啊,就是"We cannot miss this
moment because we are distracted by side quests",就他们自己感觉自己有点被分心了。
但现在是处于一个非常重要的时间节点,他们需要更多的去聚焦在和Anthropic的竞争上面。他们自己内部也说,就是他们。像这个 Atlas 浏览器啊,然后这些什么啊打广告,然后电商集成啊,然后这些东西他们其实应该也是在往下砍,然后往这个 coding
和这个生产力的体验服务的这方面去聚焦。我觉得其实反过来看的话,我觉得 farbe 的风险其实就是 OpenAI 的反扑吧,因为我觉得 OpenAI 如果能砍掉这些 side quests,真的聚焦的话,我觉得战斗力还是非常强的。
我讲,从而避开另外一个风险,就是我觉得 Google 其实咱们今天第一次提到 Google,但我觉得 Google 真的是进步也是很大的。就 Google 在做很多把这些 AI 给集成进 Google Suite,就是什么 Gmail 啊、 Google Docs 啊、 Google Drive 呀,然后这些呃 Google 这个 Spreadsheet 呀的尝试。
就 Google 的分发能力,有可能是这几家里面最强的。前面说到了 OpenAI 和 Anthropic 的竞争,在美国的话,其实 XAI 还有 Google 也是大家比较关注的公司,可以讲讲这个季度他们有些什么变化?嗯,呃,我觉得这个季度可能对于 AI
来说是一个灾难性的季度吧。啊,可能因为他们有大量的这个 co-founder 离职,而且有一些是非常重要的 co-founder,可能是走了以后,然后大家可能会真的会对公司的前景有一些呃失去信心的感觉的这个级别的重要的人去呃离职了。
比如了,比如说像张国栋啊,然后戴子航啊,都是这个季度就是离职的。当然还有很多其他的这个人都走了,他们的去向确定了吗?现在可能不是所有人都确定了,不过确实有不少人,就是可能大部分人都会去其他的 lab 吧。然后 TBD 的话,可能是吸收的数量可能最多的。他们没有人要自己创业吗?离开的人中。也有人自己在创业,他们现在可能还在 stealth mode,嗯,就是在水下期,对吧?
stealth mode,嗯,对。然后这个原因的话呢,是去年十二月份的时候,然后这个 Opus 的新的模型发布,然后 coding 能力大幅的增强,然后以及 coding agents 在整个生态中地位的提升,尤其是包括 Grok 自己这个模型 train 不是很顺利,应该是大幅刺激到了老板。然后老马的话就把这个气反正是撒到了团队的身上吧,对,然后可能造成了这一波这个离职潮。
所以X I最近也是疯狂在招人嘛,然后他们,呃,各种手段,包括这个其他lab挖,然后收购创业公司,啊,不过新招的这个团队的话,可能也是需要一些时间,然后磨合,然后来提升他们的这个啊生产力。所以我觉得X I可能接下来追逐其他的这个frontier labs可能会有一些难度。嗯,Google一季度的呃身量,我觉得相比它去年下半年,就是九十月十一月的时候,要相对少一点啊。
它有一个模型更新,就Gemini三点一,在三点零的基础上有一个新的更新啊。还有一些什么别的动向和变化吗?呃,Google的模型的这个动向好像不太多,但他们可能在这个其他生成式模型,像Genie啊,然后这个Leo啊,都有一些更新啊。我觉得可能Google现在还是在是在憋大招吧啊。不过就是他们最近这个Top Quant也是个非常有影响力的工作啊。
啊,但我觉得我看到产品上面啊,就是还是有很多的进展。对,像不管是 Chrome 里面现在可以很容易的去调用这个 Gemini 啊,然后在网页里面,不管是去获取信息更方便的获取信息,还是做一些自动化,他们都做的不错。然后整个产品线里面,像这个之前提到 Gmail 啊,啊 Google Sheets
呀,然后 Google 这个 Slides 呀,都继承了 AI,所以我觉得在 Google 的产品上的尝试,我还是非常有信心的。
你看好OpenAI的聚焦和反扑吗?你觉得他会取得一个比较明显的效果吗?我觉得,因为大家开玩笑说这个Sam是一个portfolio manager,就他的干的活作为CEO呢,就是说他有一笔钱,然后我有一堆可以投的项目,我把这些钱投在哪里?然后大家说这个Sam是一个很好的资产管理的人啊,所以我觉得Sam如果他能够意识到这个问题,然后重新分配资源的话,我觉得应该还是啊很有希望的。
嗯,所以总结下的话,就是在 OpenAI、Anthropic 包括 Google 这些美国的核心 AI lab 和 AI 公司之间,他们现在的竞争焦点可能已经不是模型能力本身了。就这几家其实模型都挺强的,那竞争的焦点会比较转向于整个你刚刚说的应用和生态。嗯,我觉得下一个阶段竞争的话呢,可能关键确实不再是谁的模型更聪明,而是说谁的这个产品生态更深。
然后可能会从一个模型竞争变成一个平台的竞争,有几个点吧。第一的话就是说模型能力,我觉得在收敛,就这个GPT五点四啊、Open四点六啊、Gemini三点一啊,它们的差距呢其实是在缩小。然后呢,benchmark呢也不再是这个差异化的这个来源啊。第二个的话呢,就是真正的这个竞争维度可能会到这个开发者生态,比如说我们之前讨论的OpenClaw和Codex竞争。
然后像这个企业的这个信任,就是是否安全呀、合规呀、可靠啊,然后以及可能还有成本的问题,就这个推理成本谁比较低?啊,这个可能在可能 Google 那边可能做的会更更好一些,所以我觉得 Google 可能也是就是不能忽略的,因为这个 Google 啊优势可能不在现在它的模型能力上面,而是在它的这个拥有的数据、它的这个分发,然后它的这个 TPU 的这个计算,我觉得还是很厉害。
我觉得最后一个他们竞争的这个维度的话,就是除了在现有的这个范式上面去做产品上面的竞争,或者说生态上面竞争。还有就是谁能够再去突破下一个范式?比如说现在大家比较关注的这个持续学习呀,或者说递归自我改进(recursive self improvement)呀,那如果哪家 lab 能够在这一方面去产生一个突破的话,那我觉得还是可能会引领下一个时代的。
嗯嗯,因为你现在说的是全球的情况,就你说的模型在收敛,是被称为预三家或者说最强的那三个公司,他们的模型可能是在收敛。那如果考虑到全球更多地方,比如说中国,现在很多模型公司也在发新的模型,Q也有很多新的模型,哦,以及一个没有发的模型,就是DeepSeek
V四,它虽然没有发,但是它也都在讨论啊。你觉得,就是把全球都放进来一起看的话,你觉得下一个阶段的模型竞争,或者说AI的竞争,呃,会有什么值得关注的地方?
我觉得可能可以先聊一下这个现状是什么样的,就是说现状呢,我觉得就是所有人都感受到了,就是。Coding agents啊,General agents,就你这个模型如果Coding不行的话,你是没有办法做这种个人助理这种事情的。所以我觉得就是可以看到这个全行业,All in这个Coding的这个趋势,然后Benchmark的差距在缩小,但使用实际使用的差距还是比较大。
然后像这个Kimi呀、MiniMax呀啊,其实他们都是在这这个All in Coding,对吧?对,所以然后另外的话就是,啊,长上下文基本上现在都变成标配了。这个One Billion上下文,我觉得好像之前Gemini刚推出的时候还大家还觉得比较大,现在基本上所有人都已经是这个One Billion。
上下文,然后所有人呢都在做这个,啊,就是长 long horizon,就是这种比较长流程的这种任务的能力,大家都是比较比较关注的。我觉得这个是就是 Q1 的这么一个现状。嗯,那这些改进其实也都是为了 agent 这个最主流的场景的改进。对,我觉得很多其实都是来服务这个 Open Claw 这个 use case。
嗯,呃,你觉得如果一个公司没有自己的产品触手,你觉得他能做好这种面向场景的改进吗?比如说像 Kimi、 Midvis、质谱、J月对吧?他们肯定都在做自己的应用。啊,包括自己这些都是在做自己的应用,当然就是用的人多不多少,这个可能每个公司有区别。那有的公司它是比较聚焦于做模型的,比如 DeepSeek。
就是他目前没有特别明显的产品动作,但是他也在招这方面的人,接下来肯定会有。就是我在想,嗯,现在这个 agent 应用变得更深入的这个阶段,是不是说?你做模型还是就是得自己有产品出手。其实很多人之前问一个问题嘛,就是说我们会看一下两千年那个互联网泡沫那个时候,就是当时觉得互联网这个事情要来了,所以就是呃,Cisco这个啊,这公司是应该是一个非常好的公司,对吧?
然后它,但是它最后就是被这个commoditized了嘛?我不知道这个的中文应该是怎么说比较好,被商品化了,就它变成一个没有差别的商品了。你是这个意思对吧?对,就是他可能很难做出差异化,然后他可能也很难有超额的利润。对我举Cisco这个例子的话呢,我想说的是,就是现在我觉得模型厂商呢,他们也会担心,就是说,呃,如果我自己只做模型层的话。
那我之后也面临被商品化的这个风险,所以我们可以看到,就是现在这些模型厂商,他们也不是说自己只做模型啊,大家所有人都是垂直整合的,从模型,然后到这个开发者。然后到这个上面的应用,他们所有的东西都做,所以我觉得这个应该是对于模型厂商的未来的一个趋势。嗯,这个其实在在中国倒是一开始特别典型的创业公司都是这么干的,双轮驱动嘛,因为大家觉得得有一个产品,得有商业化的,那个时候是认为得有商业化的。
方法和触手啊,但我觉得现在主要是你做产品这件事儿,可能本身对你模型迭代是很有用的,和以及就是你刚刚说的,他从模型的竞争到一个平台,到一个系统,到生态的竞争,就你需要知道这些用你模型的人在想什么,对。我觉得还补充一个点的话,就是说,因为刚才说到现在 benchmark 不再重要了吧?也不是说不再重要,就是可能没有之前那么能代表实际用户体验。
所以你现在如果没有 benchmark 作为你的目标的话,你朝着什么方向优化呢?那你有如果有你有自己的这个应用,你有自己的产品的话,那其实你是有一个优化的方向的嘛。但你这样可以,你从用户实际使用你的产品中去收集这个呃信号。那如果你要是没有的话,那就会比较难。嗯,用户实际使用产品的这个信号对模型真正有用的是不是非常的稀疏啊?
是不是很少啊?就是我想知道它是一个什么样的流程,可以比较高效的从用户真的这种实际的使用中提炼出一些有用的东西。因为也经常会有模型研发的人说,其实现在绝大部分人的提问都无法触及这个模型的真正的那个智能的上限的水平。就大家根本都提不出那么难的问题啊。第一个点的话,我觉得确实是模型在很多日常生活或者说一些数字工作者的这个任务中,其实它的智能已经溢出了啊。
就其实不需要那么强的能力。呃,我可以举个例子,就之前咱们上期可能也聊过这个benchmark叫做Office Q A,它是这个Data Bricks做的一个这个benchmark,它相当于就是。啊,一大堆文,一大堆文档。然后呢,他针对这些文档,然后提一些问题。他测试三个能力:第一个是你解析这些文档的能力,因为这些文档里面,这些PDF里面还有一些比较复杂的一些表格呀,然后图啊什么之类的。
第二个的话就是你做这个召回就retrieval的能力。第三个的话是基于这些信息去做推理的能力。那么其实模型真正负责的话呢,是推理或者说这个 reasoning 这部分。那么他们发现就是实际上这部分模型已经做得很好了,那大部分的这个失败都发生在这个解析文件和召回。这些上面,所以相当于在这个 benchmark 上面,就是模型的这种推理或者说这种智能,它已经溢出了。
你现在需要的是解决很多其他的一个问题,让这个工作流能够做得比较好。然后回到咱们刚才的这个点,就是说,那现在怎么能够再去让模型的这个不管是编程能力还是其他能力去提升呢?啊,其实最近网上也比较火的就是说,这个 cloud
的指责一些其他模型厂商去。去从他们这儿做这个蒸馏嘛,蒸馏对,所以其实他们还是说在去买这些用户实际使用啊Clouds数据,然后呢去filter出来里面这些比较好的用户的使用轨迹吧,叫trajectory。
对,然后呢,再去用这些轨迹,再去做这个 continual 的 pretraining。然后也有的时候的话呢,比如说如果我自己有一个产品,对吧?啊,我自己有一个 coding 产品,然后别人会用或者会用我的产品或者用我的 API,那么我从这些用户的这个任务里面,我可以收集到一些比较好的、比较难的一些任务,然后我可以再去把这些任务喂给 cloud。
让 Cloud 来做一遍,然后我再从这个轨迹里面,我再去做蒸馏,或者说来提升我的这个自己的模型。对,像这些都是一些比较常见的办法。这里还想补充一个和 Cursor 相关的话题,我觉得它也可以侧面反映模型和应用之间的关系。就是一季度有一个比较有意思的事儿,大家发现 Cursor
这个新模型的背后其实是用了 Kimi 的 K 2.5,而且他们最开始没有去宣告这个事情,因为按照行业惯例,如果你用了一个开源的模型在上面再来做自研,应该是要说一下的,对吧?
你可以讲讲大家是怎么讨论这个事情的,包括这意味着什么了。我觉得首先第一点,我觉得这是一个对于就是说中国的开源模型一个非常好的一个认可啊!我觉得对于所有的这个中国的AI从业者来说,都是一个非常值得这个高兴和骄傲的一个事情啊!因为像美国相当于是啊顶级的这个AI的产品公司,那么他们会去说优先去在一个中国的一个开源基模上面去做Fine-tune,然后来让他们的主产品啊基于这么样一个模型。
第二点的话呢,就是说双方对于这个事情的处理,我觉得也是很有意思的。首先是,啊,作为这个科斯尔这么大的一个公司,马上就是要在五十五B链的这个估值去融资,然后在开源模型使用和license上面犯这种低级的错误,我觉得还是一个让我比较吃惊的一个事情。像这种时候,你难道不是应该在开始train这个模型之前就考虑好了这种PR或者compliance或者法律上面应该怎么去处理?
但最后在这个公布的时候都没有提到这个亲密的这个名字,我觉得这个是怎么说?有的时候世界确实是一个草台班子。这是会是因为它是一个美国公司,然后在主力产品上用这个模型,它有一些地缘政治的 concern。虽然 Kimi K2.5 是个开源的模型啊,就理论上我觉得是技术上和数据上可能都没有这个问题啊。我觉得地缘政治可能会小于大家担心它的这个自研能力。
呃,因为其实很多大公司都已经之前明确说了,我们在使用中国的模型,包括这个 Airbnb 的这个 CEO Brian
Chesky。对,所以我感觉就是说,美国公司使用中国模型这个事情,好像也没有那么大的引起就是美国人民的反感啊。但是我觉得就是。他们比较担心,可能大家觉得就是说,哦,那你们其实没有做太多的工作嘛,就是你们没有什么实际的这个自自己的这个核心竞争力嘛,你们去用一个中国的模型,然后自己在上面啊稍微这个做做LL啊之类的,就是我个人感觉哈,他们可能有更多这方面的这个担心,所以啊,在他们这个发布的时候,可能会想更加强调一下这个自己的这方面的工作,可能就会相对少了想去强调这个Tik在其中的这个作用。
所以科Sir,科Sir是旧金山孩子,要脸啊,要脸,对,要脸。对,但后来被发现以后呢,我觉得,呃,两方的处理都是相对来说非常的体面的,体面的。对,一方面是我觉得
Kimi,我觉得真的是做的非常好,就是。整个没有任何说对于这个科瑟的指责,它的官方的发布非常的正面,都是说哦,我们非常这个骄傲,就是说科瑟选择了这个我们的这个开源的模型来做他们核心的这个产品嘛,然后也希望就是未来有更多的这种开源上面的这种合作和生态上面的这种发展。
啊,我觉得这个真的是非常大气啊。然后科森那边的话呢,啊,也是相对来说比较快速的承认了自己的错误,然后非常坦诚的讲了他们是怎么去选择Kimi这个模型的一个过程,然后后面他们在Kimi的模型上做了什么样的工作。我觉得大家相对来说对他们后面的这个坦率的这个,呃,沟通还是比较认可的。所以后面的话,我相信他们也在下面自己去聊,怎么去做这个 revenue sharing,未来合作怎么做。
所以,呃,总体来说,嗯,是一个比较好的一个收场吧。啊,但我觉得,啊,总体来说还是回到第一点,我的中国的模型真的还是做的非常的棒。你说到这个处理啊,我在想,如果 Anthropic 开源了一个模型,然后 Cursor 用了它的开源模型,又没有说我用了 Anthropic,你觉得 Dario 会怎么反应?
我觉得Dario肯定那不好说哈,Dario的性格来说,可能还是会这个,我觉得Dario还是有些脾气的吧,对吧?对吧?像他之前呃Sam在印度的时候吧,应该是印度的一个AI大会,我觉得大家可能还记得那个推特上非常好笑的那个桥段,就是那个Modi和拉起了Sam的手,然后所有人都要拉手,就是最后致谢嘛。啊,然后结束那个会议,然后
Dario 就是不和 Sam 拿手,全场只有他们俩不拿手,就把手举起来,然后这个大会的主办方还让他们俩站在一起,我觉得这个人就是太会了,就是想看戏,所以我觉得 Dario 还是很有脾气的一个人,如果要是这个事情发生在他的身上的话,我觉得可能不会像这个 Keyy 这么宽容。
我们前面讨论的,就从 OpenClaw 开始的这个讨论,到后面去聊 OpenClaw 和 Cloud Code,以及 Cloud Code 和 Codex,然后这背后的 OpenAI 和 Anthropic 两家公司,包括模型的相关的进展,我觉得它都是在一个现在大家已经看到的很清晰的主线上,就是从 Coding 到 General Agent。
这样一个非常主流的应用,以及围绕它的模型和生态的建设,我觉得下面可以聊聊,就是你前面提到的另一个你觉得 Q1 很有意思的进展,就是 Auto Research 软件自己的进化或者说自我递归的这种迭代吧。所以这是一个相对比较新的方向,可以先简单讲讲这是个什么东西。嗯,你说最开始是 Andrew Carpasi 对他三月发起了这么一个讨论。
对,我可以先解释一下这个 Auto Research 的背景。就是Andre呢,之前先做了一个偏向一个主要是教学目的的一个项目,叫做 NanoChat,它相当于是一个极简版的,就几百行Python代码,能够训练出一个GPT-2级别的小模型。啊,那它主要还是一个,就给大家去学习这个从 pre train 然后到然后整个流程,你想要 train 一个这个大语言模型是什么样的?
它做这个 Nano Chat 的目的是什么了?是因为它假设很多人都需要自己去模型吗?我怎么感觉这个项目的受众非常窄呀?哎,但其实他非常火,就是我觉得 Andre 还是一个对搞这个教育这个事情还是非常有热情的一个人吧。之前的话,当然我觉得他有两个原因,一方面的是他确实对把这些 AI 这些事情,然后让普罗大众所有人都能够弄明白是怎么回事这个事情有热情。
第二个话,他之前在一次访谈里面提到,就是把这些东西以最简单的方式来实现的时候,也能让他理解到这这这些东西的本质到底是什么。哦,那有点费曼教学法的感觉了啊,有一点。然后他在这个 Nano Chat 的基础上做了一个 Auto Research,啊,相当于是说让一个 AI Agent,然后比如说
Claude Code 来反复修改这个 Nano Chat 其中的训练部分的代码,目的呢就是让这个训练出来的模型能够更好。
那它的这个实验呢,其实整个系统呢主要有三个主要的文件,然后呢有一个文件叫做 program 点 md,然后就是说人类写的这个实验指导方针,就是告诉这个 AI 啊,你的目的呢就是去修改,另外是两个 Python 文件,修改其中的一个 Python
文件,然后呢想出来怎么去改进我的这个训练流程,降低我的这个 bits per byte 是它的这个 evaluation metric,然后你这个流程呢是。
你先读一下我这个 train.yaml 这个文件和之前的这些结果,然后想一个改进,然后把这个改进用代码实现,然后跑五分钟的训练,看一下结果,再重复这个过程。所以大概的话呢,这一次呢,大概就是你五分钟训练嘛,然后再加上你写代码呀,大概思考这些时间大概是十五分钟一次,一个小时呢就能跑四个实验,一个晚上呢就能跑大概一百个这样的实验。
就像一个永不疲倦的PhD,对吧?博士生,然后呢,你这个两天呢,你就能跑几百次,自主的去看实验结果,然后想新idea,然后去做修改,然后这样的一个流程,然后他最后的话呢,大概是找到了就是二十多个有效的这个改进吧,然后最后使得他这个GPT Two级别的小模型呢,从训练时间从大概之前是两小时出个头,然后降到了一点几个小时。
啊,大概有一个百分之十几到百分之二十的一个提升,呃,所以这是相当于是AI在没有人类指导的情况下。自己跑实验优化自己,但这个事情居然能work,所以还是一个让大家非常兴奋的一个事情。感觉就是这个之前感觉有点科幻的AI的自我改进的这个流程,感觉快要能够工作了。不过它最开始是有一个人类指导的,对吧?就是那个 program md 这个文件是人类写的文档。
嗯,不过它过程中没有人类的指导啊。对,这个 program md 现在还是人类写的。那未来的话呢,也有可能是和 AI 会来改进这个 program .md。嗯,为什么这个项目很火呀?我大概理解就是说,它是 AI 参与,然后就能自己把一个 GPT 2 这样的一个模型给它,呃,训练时间给压缩,对吧?对这个东西,如果它更广泛来说,未来可能会带来什么改变?
我觉得首先第一点,就这不是一个什么全新的想法,啊,不是说这个 Auto Research 这个想法是今天才出来的,但我觉得更多的是说大家惊讶于现在。呀,以前的这种梦想吧,快要变成这个现实了。因为很多人其实觉得,这种AI自我优化其实是AGI路上的一个圣杯嘛。其实很多人,包括很多公司,都很早在开始探索。
像一年前的时候,我当时和一个NVIDIA team的一个核心researcher,然后交流的时候,他就提到,就Google内部其实就在做类似的尝试,他们有一个东西叫做他们的Model Lineage
Map。就是模型祖先的这个图谱,它相当于是一个有向无环图。这个图里面的每条边上呢,就是每个节点是一个模型,每条边上都记录了从一个模型到另外一个模型,或者说一个一个版本到另外一个版本,它做了什么样的改进。
他们的目标呢,就是说让这个AI啊能够分析这个图,然后呢来预测下一条边和下一个节点应该在哪儿,也就是说自己发现就是下一个最有价值的研究方向。但当时呢,可能是这个AI的能力还不够吧,就实际还不能成熟,啊,也可能是个模型的这个抠那个能力还不够强。但是现在的话呢,可能一年多以后呢。这个 OpenAI 啊、
Codex 啊、 Claude 啊变强了,然后再加上 Andre 做的这个 Auto Research 的实验,所以。
我觉得大家看到了更多的这个验证吧,像之前的话,Google他们之前发的那个 Alpha Evolved paper,当时就是他们用 Gemini 来优化 Gemini 它的自己的 kernel,然后提升了百分之二十三的 performance。然后 GPT 五点三 Codex 也是有参与自己调试自己的过程,包括最近这个 MiniMax 发布的这个 M 点七,所以其实就是。
多个数据点在最近这几个月同时出现,包括Andre的这个AutoResearch实验,我觉得确实是让大家重新开始考虑这个事情是不是就是马上要发生了。嗯,那这个事儿发生意味着什么了?首先看起来是对人类研究员的依赖会减少,对吧?然后刚才你也提到,就是他做实验的次数是可以可以大幅提升的,那就是说AI进化的越来越快。
对我觉得一句话就是说,这个是加速度的加速度。因为这个 AI 研究本身被自动化,加速度、加速度、加速度的平方。对,嗯嗯,但是它并不解决方向的问题,对不对?就是跟我们前面讨论那个相关,就往什么方向优化的这个问题,或者说这也是它应该去解决的问题。我觉得它应该会逐渐的往这个方向走,但目前的话,可能大家是说,啊,在一个搜索空间里面,他们可能会实现非常有效的搜索。
但是是哪个搜索空间,可能现在是有这种比较厉害的人类研究员来决定的。但未来的话,它肯定是能力会逐渐变强。对,因为你刚才举的这些例子里,我理解就是他的一个大的目标,不管是压缩训练的时间,还是我去改一些 kernel,然后我让它提升某些方面的能力吧,呃,或者说我强化学习,我用多少是这个 AI 自己来做的。
就我觉得他的目标还是人设定,而且它还是个比较具体的目标啊,它不是一个比较笼统的目标。对,我觉得大家好像也试验了一下,就是说这个目标如果不够具体,或者它修改的哪怕是修改的范围。变大,就它这个搜索空间变大。现在的AI好像也还差点意思。就是如果搜索空间变大了,有的时候改着改着,然后就全部改烂了,然后自己都改不回去了。
这个也是会发生。现在目前这个阶段,哦,就是在那个 Auto Research 的这个发布之后,我看就是有一些人把它用到开发软件上,比如说这个 Spotify 的 CEO Toby,他就是说把类似的方法用在模板引擎上,然后这个模型是做了九十三次自动提交,然后渲染速度提升了百分之五十三。像 Auto Research 这种应用,是不是它接下来其实对那种特别具体的软件工程会有比较多的应用前景啊?
就在这个方面,对,我觉得就是像现在你扔给 A 阵,让 A 阵自己去做优化,能不能行?我觉得有一个重要的指标就是它有没有一个清晰的。可量化的优化目标,比如说 Shopify 这个 case,它可能是渲染速度,然后它有一个快速的这个反馈的一个循环,比如说我每次改完一次,我跑一个这个测试,啊,然后我就可以知道我是不是成功了。
那我觉得这个在很多其他问题上的障碍呢,就是说可能大多数工程问题它没有这么干净的一个优化目标,或者说第二个的话就是说,呃,安全审查这个东西它如果直接进生产环境,谁来审查?能够确保这个东西它是能工作的啊。第三个的话,就有的时候它还有一个可解释性的问题,就AI做了一个改进,但是人他得理解这个改进它为什么是这么做的,然后它为什么有效。
所以我觉得他觉得最适合的这个场景呢,还是说什么性能优化呀,写更好的kernel啊,然后什么啊什么数据库查询啊,基础设施调优啊,像这些有这种明确指标并且可以自动验证的领域,我觉得扔给AI去做还是。比较效果的,我会举一个反面例子啊。这个是 actually
是我最近室友给我讲的一个事情,就是他的自己的公司呢,他要给自己的网站加一个黑夜模式吧(dark mode),然后他就试了这个 Devin 和 Claude Code 两个 agent,呃,基本上都是运行大概一个多小时吧。
然后每个人跑了一个多小时都没搞定,这个就是现在因为这个视觉这个效果验证起来还是比较难。这个AI这个模型有的时候在验证一些视觉效果的时候,这个性能不是特别好,所以它就没有办法说去判断这个改完了以后这个按钮或者文字的颜色对不对呀?然后在这个黑夜模式下面是不是这个按钮还有这些文字都看起来比较舒服呀?它这些需要人眼判断的事情,这个AI自动化循环流程它就跑不起来。
嗯,就是那种验证比较主观的,它就跑不起来。对,啊,就是 Auto Research 这一套方法,因为我觉得 Andrew Carlisi 还是给他定义的挺清楚的,它其实可以直接用到一些现在就现成的开发任务上。然后另一方面,其实从去年开始,整个 AI 领域也在讨论很多一些新的学习方法。然后它这个听起来跟自进化也比较相似,有很多 buzzword,包括在线学习、持续学习、元学习。
嗯,然后AI的自我进化,嗯,可以讲讲就是这些概念上或者说这些方向上现在有什么进展吗?它可能是就更偏模型或者更底层的一些东西啊。嗯,我觉得可以把持续学习可能和自进化这两个现在大家可能最关注的方向可以分开来说一下。就是说持续学习说的是什么意思呢?很简单,大部分的AI模型在部署以后,他们的这些权重就不会再发生变化了。
呃,所以他们就是相当于是就定死了,不管说他们和用户啊做多少这个推理,和用户有多少交互,他们都不会在之后再获得新的知识或者新的技能。所以持续学习想要解决的问题呢,就是说能不能是说在部署以后,这个模型还能够持续的获得新的知识、新的能力,或者说更了解这个用户的喜好啊,这个是持续学习要解决的问题。嗯,而且是要更新到权重里,是吧?
就是它得更新到参数里才算,这个其实不一定。就这个持续学习的话呢,我觉得现在可能大致要有两个方向。一个方向的话呢,就是说基于这种文本的持续学习,比如说大家都特别熟悉的这个,就是记忆机制。可能就是穷人版的这个持持续学习吧,我觉得对啊。然后还有的话就是说,现在也有人在尝试,就是怎么是通过更新一部分权重啊,一般来说是一小部分权重,然后来实现这个持续学习啊。
像这方面的话,就是最近这个斯坦福然后孙宇他们这个lab做的这些test time training这些工作,就是应该是一个比较前沿的一个探索领域。呃,你刚刚说用记忆的方式不去更新权重是穷人版的持续学习,然后斯坦福孙煜他们做的这个一些新的尝试,就是更新小部分权重的是另一个方向。为什么前者是穷人版啊?前者成本低是吗?
因为我们可以看到,就是说像现在大家写这个 skills 呀,然后去做这个啊 memory 啊,现在就是他们的好处呢,很明显,就是一个是。很容易理解,然后人类都可以去看这些文件是skill文件是什么样的,我的记忆文件是什么样的,然后很容易去做调整,大家用起来也比较简单容易,所以现在很多人或者说很多项目、很多产品都在用这样的方式来提升自己AI的能力。
但也能看到它有一些啊非常明显的一些限制,比如说这个上下文完了以后,上下文满了以后,我要去做这个压缩,然后会损失信息等等等等。所以这个的话是为什么可能管它叫穷人版的这个持续学习啊?就是它还是存在一些问题。嗯,就是它比较亲民。大家都可以用,但是它有它的缺陷。嗯,对,而且大家希望的话呢,是有一个更好的方式来做这个事情。
啊,那么就是可能会想一些手段,比如说能不能把这些新的知识、新的能力,把它做到这个模型的位词里面。那么其实之前的话呢,呃,这个 past time training 这个名字听起来比较 fancy,比较高大上啊,其实它也没那么复杂。那之前的话呢,可能我们已经是说做一些像这个 Lora 这样东西去把。改一小部分这个模型的权重,然后把一些新的知识或者能力放进来,对吧?
然后现在的话呢,他是说可能是我不光是说针对一些数据去做这个事情,而是说我可以针对用户的一个特定输入,在这个特定输入上面,我去做一些根据这个特定输入的调整。所以它相当于是在这个叫做呃 life cycle 上面,可能会和以前这种做 Lora 呀有一些这个区别,对。但它现在相对来说呢。它整个运行起来也比较复杂,因为它相当于是在每一次去做推理的时候,它要去更新一小部分权重。
那么这个对于下面的基础设施还是有一些比较大的要求。其次的话呢,他们现在也只是在一些几个 billion 的小模型上面去验证了它的可行性。那么这个东西它能不能 scale up 到一个大模型?现在的模型都是几百 B 或者上 trillion,那也是一个没有验证的事情。嗯,那如果一个模型是这种机制的话,用的人越多,难道每个使用每个请求的推理,它都得自己去更新一遍权重吗?
这个我觉得可能就是最后会看一下这个实际的应用场景,以及这个投资产出比是不是合算,比如说。像 Thinking Machines Lab 他们的这个 Tinker 其实就做了这个 Multi Lora 的啊这个呃基础设施啊,所以当时我看他们就 Tinker 支持 Multi Lora 的时候,我当时就怀疑他们是想做非常大规模的。
一个可能是定制化,就是个性化的一个尝试,所以我觉得可能最后还是会看一下具体的应用场景需要什么样的这种定制化,然后需要就是是不是需要每个人都有自己的模型可能来决定的,或者说有自己的模型有多大的一个价值和意义。嗯嗯,这是持续学习。那自进化了,自进化跟这个的区别和联系,你可以讲讲啊?我觉得自进化的话,其实是和auto research联系可能是更加紧密的。
对,就是这个自进化,它就是说这个AI它能不能去啊改进自己吧?像这方面的话,最近也有呃很多的工作,包括这个Alpha Evolve呀,然后Sakana的这个Darwin Golden Machine呀。啊,他们都是去说形成一个循环,然后这个AI能够去想到,就是说如何去改进自己,然后去实现,然后再重复这个循环。
所以我觉得,research其实是应该放在这个资金化的这个框架下面。这也是为什么我们可能会看到一些在这种基础设施做的比较好的lab里面,其实核心的researcher他们其实工作量有的时候反而变小了,因为他们可能现在自己执行的时间可能越来越少。然后,更多的可能是想一些更 high level 的、更高级别的这个前进方向应该是什么,然后交给这种有自进化能力的这种系统去做实际的执行。
像这种方向上有出现什么新的创业机会吗?你有看到?比如新的公司,持续学习和自进化方面的创业公司,其实最近还挺多的。不过很多的话呢,成立时间也不长啊。刚才咱们讨论里面提到,就是 Thinking Machines Labs 他们的这个 Tensor 的 Training 的这个产品。就是它有这个 LoTILORA 的这个准备,可能会为大规模的这种用户自定义来铺路啊。
那么可以再举几个,就是现在可能还在 Stealth Mode 的这个创业公司的例子啊。比如说有一家公司在做一个很有意思的方向,他们想做这种学习能力特别强的小模型。他们的思路的话呢是说,现在的大模型里面有大量的参数存储的是知识和各种能力。但其实,比如说 L E
架构吧,可能学习能力本身呢是少数几个专家他们来负责的,所以他们就想说,我们能不能精炼出一个专门负责学习能力的这种小模型,然后把其他的一些知识没有用的东西这个扔掉,然后把这个学习这个能力本身抽取出来。
然后这个模型的话呢,可能就特别适合用于去做这种个人助理的,像 Open Claw 这样的这个下面的这个。呃,基模,呃,因为它可能会非常会做,就学习这个人类的,学习它的这个主人的偏好,可能会非常厉害。还有一个公司的话呢,就是说相当于在这个,当然不止一家了,在 scale up,就是把这个
Android 的这个 Auto Research 这个事情以更大的规模来来实现啊,比如说把这个单 A 这实现这扩展成多 A 的并行协作呀,然后像 Anthropic 自己的这个下一轮计划里面提到了很多。
这个模型领域现在应该还有一个大的进展方向,就是世界模型。这个也是大语言模型之外很多公司在探索的一个方向,嗯,也有一些新的创业公司。对这个方向,其实创业公司也挺多的。然后大家可能之前嗯比较熟悉的有,比如说啊李学飞老师的 Worlab 啊,那他们的话呢,他们自己可能更偏向于三D世界的建模。然后再比如说最近这个赛宁还有 Yanlaqun 他们出来新做的这个 A I I 公司。
那么可能是可能会是延续之前In
Laquan他在这个Japan模型上面啊这个前进的方向啊,再比如说呃现在Google之前Dreamer团队啊他们的负责人这个Daniel啊他也出来新做了一个公司,那他可能会更偏向就是Policy,就是我看了这个视频,然后我应该去take什么样的这个action。可能会和这个 robotics
有一个比较好的一个结合,然后包括还有另外一家也是新出来的,然后这个这家的这个 founder 之前的话是这个 autoregressive DIT 的这个作者,还有 self forcing 的这个作者,那他们的话可能会更偏向这个环境的模拟。
就是说我给定这个视频,然后它相当于 interactive video model,给定这个视频,然后以及一个动作,那么下一步会发生什么?所以相当于其实是和刚才我们说的 Daniel 做的这个 policy 可能互成镜像的这么一个关系。然后还有别的路数,比如说呃, Nvidia
他们也在做的,还有和一些物理引擎的这个结合呀,就是都是各个这种不同的对于世界模型也好,还是这个视频模型也好,这个探索方向吧。
嗯,像这块的探索方向,它未来更多是用在机器人和具身智能上吗?哦,我觉得这些模型可能接下来可能有主要可能 target 主要针对两个应用吧。啊,一个应用的话呢,就是这种他们叫做交互式的媒体啊,对吧?比如说现在有人他们可能是想新的游戏范式应该是什么样的?是不是应该是实时生成的世界,然后能够根据人类或者说玩家的这个行为来生成他们的下一帧,或者说啊影响他们这些NPC啊或者游戏的这个剧情?
啊,我觉得这种交互式媒体可能是他们的一个应用方向。还有一个应用方向的话呢,那就主要就是具身了啊,不管是说去做这个机器人的 policy,还是说去做这个机器人模拟的这个环境,能够让这个机器人改进的这个 loop 跑起来,那么我觉得它都是。哎呀,对巨深有很大的这个影响的。嗯,那接下来我们可以聊一下算力的变化。
正好每年Q1是因为大家会召开GTC大会,然后他们会推一堆新的产品,也会讲一讲他们在算力infra层的一些新的想法和思路。这次GTC。或者说最近整个Q1的算力层的一些变化,你觉得比较值得关注的动向有什么?嗯,我觉得这Q1可能大家所有人都看到了,就是主题嘛,就是从这个训练到推理的一个转折吧。然后Llama
2的这个推理性能呢,提升了这个三到五倍,然后推理这个token的成本可能降了十倍,所以是非常利好这些对token消耗量很大的这种个人助理的大规模部署。
然后,另外的话呢,这个Vidia去年十二月份收购的Grock呢,也派上用场了。这个Grock的这个LPU相当于被集成到这个V2RUBI里面了。然后我觉得最近就是其实非常新哈,这个前两天刚发生一个事情,就是 Google 它新做了一个工作,实际上等于是对 KV Cache 的一个改进,能够通过这个
Quantization 能够压缩这个 KV Cache,能够降低对存储的要求,可能变从原来变成六分之一。
所以我个人的判断是,就是在推理的优化上面,我觉得可能还有很大的空间。我觉得就是。如果大家被逼到这个程度的话,我觉得我们还能想出很多很好的办法去优化这些推理的算法啊。当然,我觉得就是呃基础设施的建设也会同步进行啊。但是,我觉得可能像推理的这个成本性能的进一步下降,通过这些新的idea新的这个算法,我觉得我们是可以预期到的。
嗯,其实这又回到了就是现在竞争的主线,就还是和agent相关的,就是从训练到推理的转折。因为agent本身肯定会带来很多推理阶段,其实也就是使用模型的阶段的算力的消耗。我觉得就是整个推理的上下游吧,不管是从芯片还是上面的infra还是。啊,比如说,大家说现在可能今年不是GPU了,现在今年这个A正的要跑起来,然后推理这些东西要跑起来,相应的CPU可能也会出现短缺,所以我觉得整个生态系统应该是还有很大的空间。
CPU主要在这个流程里做什么呀?大家现在可以看到一个趋势吧,就是 everything is becoming computer,所有东西都变成一台电脑。以前可能是一个对话,现在变成一个 agent 活在一个电脑里面,然后这个 agent 自己还能开不同的 sandbox 去跑各种其他的任务。那这些东西其实都是很多时候是需要 CPU 嘛,就是你这个不光是模型需要去做 inference,你还要。
呃,你模型写了代码,然后去执行任务,你跑这些代码其实都是 CPU 来干的活儿,所以啊, CPU 其实最近的这个也是有一个很大的一个增长曲线。我看到一些做投资的朋友现在在看,就是怎么能够啊比较干净的去买到这个 CPU 的这个金融资产吧?对,因为很多公司它都自己做 CPU,但还有一些其他的东西。然后,所以现在有的朋友的结论是我们应该买二,因为二反正就是给各种其他人厂商他们去买 license。
最后想聊聊Q1一个和技术和模型并不是直接相关,但也确实是被技术的发展所影响的一个现象,就是大裁员。啊,这个事情我觉得可能在硅谷更明显,中国这边我觉得公司还是会更多顾虑就业吧。嗯,你可以讲讲就是你现在在美国感受到的一些情况。我知道Meta、Amazon对包括Oracle都有挺激进的裁员计划的。嗯,我觉得这个事情应该是今年。
是一个我觉得可能比较可怕的一个事情。像最近的三个数据点吧,第一个数据点的话,就是今年年初的时候,亚马逊裁了一万六千人,对,然后其中有很多是工程师。但是亚马逊就是悄不溜的,也没说什么话,然后就裁了。所以可能新闻上面大家提到的就不是特别多。但是可能大家就是都知道的,Block的这个CEO Jack Dorsey,他宣布Block公司裁员百分之四十,并且他说大多数公司可能一年内会做出同样的事情啊。
这百分之四十里面有很多是这个啊开发者和技术人员。啊,那么他也明确说了,这个原因并不是因为我们公司的财务状况或者业务不好,那就是因为这个AI的原因。所以我们现在可以就是减员百分之四十,做到和之前同样的或者说更高的output。第三个受益点的话就是Meta啊,Meta这公司特别有意思啊,它就是前几周吧,大概有一周的时间。
就是让全员停下来,然后学AI,然后管理层会看每一个人的这个token消耗量,作为一个团队这个效率指标,相当于是一个文化层面的一个变化吧。对,然后相应的就是,既然你有人看这个指标,就一定会有人优化这个指标,所以就有我知道的朋友,就是让这个Cloud Code在那跑一个loop,然后疯狂输出没有意义的这个token啊。
所以我觉得最近Anthropic这个几个billion那个revenue增长里面,搞不好有一几十个billion可能都是Meta这边贡献啊。然后他们内部学习完了这个怎么去很好的使用AI以后,然后啊小扎就说:“哎,我们要裁员百分之二十,然后这个大概是一万五千人,把这个省裁员剩下的钱。”再投到这个AI的CapEx里面啊,要把这个AI投资翻倍,到大概是我记得是六十五个billion,所以这是我觉得今年可能Q1的三个数据点,但这肯定是一个开始啊,而不是一个结束啊,而且我觉得它影响范围之广,可能已经不是说疫情那个时候美国科技公司大裁员,那我觉得现在裁的人可能找工作的难度也比上一轮裁员潮可能要难很多。
接下来大家可以怎么办了?怎么应对了?提前干干什么了?我觉得大家可以考虑一下创业,对吧?然后如果有好的创业想法的话,也欢迎联系我们。我觉得可能之后的话,可能真的是大家都要考虑一下自己作为个体户的这个这条路线了,因为它毕竟AI它加强了这些公司的这个能力,它其实也加强了每一个个体嘛。所以其实很多时候说以前我一个人我自己的技能树对吧点的不齐,我自己没有办法去做一个产品,那这个东西它现在都。
不存在了,所以我觉得对于个体的机会来说,就是每个人可能都能当自己的老板,然后做这个个体户,然后自己去做产品,根据自结合自己的优势,可能能够自己做一个business养活自己。加入创业公司是不是也不能保证工作呀?创业公司是不是裁员也挺狠的?当然,你刚说是自己当老板啊,我就说如果加入小团队的话,小团队现在是不是也挺依靠AI来替代人工的?
对,我觉得现在就是小团队其实也是大家想明白了,就是我只要有五个厉害的人,或前五个人特别厉害,我这个创业公司呢,就是可能再配上一些agents。可能技术方面可能就也差不多了,对,当然也也看这个他的呃做什么了。嗯,比如你最近和你们的一些被投交流啊,你有看到一些什么呃使用AI或者说由于AI的发展而带来的对用人和组织的变化吗?
呃,我觉得比较明显的一个感受的话呢,就是之前提到的,就是全员AI native,就是不管你是什么。方向,你是程序员还是不是程序员?你对这个AI工具的使用,都是所有人面试中的一个重点吧。然后其次的话呢,就是说,我觉得对于成长快的创业公司,他们还是呃愿意去招人的,因为他们这个时间窗口可能比他们的这个就是人效可能更重要。
但是我觉得总体来说,相对以前来说更偏向是这个质量而不是数量,因为一个厉害的人加AI整个还是比你堆人要有效率多了。嗯,我可以分享一些中国的情况。我觉得中国的很多创业公司的CEO,就是我接触的一些人,大家其实明面上肯定是不会特别多去讨论因为AI减员的事情的。但实际上,很多CEO还是很受冲击的,就觉得AI确实能干很多之前可能我要雇几个人才能干的事儿。
我觉得比较受影响的,有包括一些什么设计了、前端了,就一些比较简单的开发。嗯,然后我听到的一个思路,我觉得挺有意思,就是说对很多创业公司来说,其实他们很难,就是我花钱让整个组织全部是市场上最贵的、最厉害的人。所以以往可能就是根据我的业务会有一个搭配,对吧?我有一些一流的人,然后加上一些。呃,二流的人,一些三流的人,他去完成不同的任务,而现在可能这个思路会变成我花更多的钱,请一些更好的人,一些一流甚至超一流的人才,而一些二流、三流的人,他可能就不需要了。
它就变成以前是一流和二流搭配,现在是超一流和 agent 和 AI 搭配,然后整个公司的人变少,但不一定说它的用人成本真的变少,就不是跟着这个人变少这样线性变少的,因为它可能会花更多钱去招更好的人,去招那种比如说你能把 AI 用的更好,或者说你有更多想法啊。就你有想法,你你知道怎么去用工具,你怎么去发挥工具的价值?
对,呃,我觉得这个非常像这个电影《二零一二》里面那个洪水的场景,对吧?就是你所处的海拔,就是你的技能的这个高度,你越高越安全嘛。你要是被淹过去了,那就是你就相当于被AI取代了,对吧?我觉得。你最近周围有什么就是让你感觉这个事儿发生的很快的一些具体的故事吗?有什么你觉得其实可能还挺厉害的人也会被这种裁员波及吗?
举个例子吧,我觉得可能比如说律师,就最最近这个看了一篇文章,叫做 Cloud Native Lawyer,就是这个原生 Cloud 的律所。然后他就讲了一个例子,就是说他的一个客户。啊,应该是个甲方吧?临时的要求他们当天修改一个合同里面一二三四五六七条点,然后第二天早上把这个修改好的东西交回去,要不然这个合同就不做。
那么以前的话呢,这个事情他们就要奋战一整晚,还非常难以,就是说在这么短的时间内,要那么多的法律文件,然后要确保每一个条款之间没有这个冲突,对吧?然后他们用了 Cloud 来做这个事情,然后就发现,首先第一,甲方的要求有很多点自己是互相冲突的。所以它要求本身就不合理。然后呢,他们用 Cloud
来帮助分析以后,就是分析出来哪些东西他们是可以接受的,哪些东西他们是有冲突的,是可以去做这个 push back,就是反对对方的这个提议。
然后呢,把这个新的文档做出来,然后再包括一个说明,就是说为什么原因是这样的,哪些东西 push back 是因为你们自己没有发现你们条款里面有冲突。所有的事情能够在两到三个小时以内,然后两三个人去在 Cloud 合作来完成。所以就可以看到,就是说,稍微有一些AI的这个实力的这个小的这个法律的这个律师团队,已经能够超乎他的这个甲方的这个律所的这个能力了,而且非常短的时间内能够发现对方的这些错误。
所以就是用AI和不用AI的这个差距,其实已经非常非常大了。哎,但你说这个例子给了我一个启发,我感觉律师不太好被取代,因为除了你说的这种工作之外,我当然就我的我对美国律师的印象都来自美国电影啊,什么电视剧什么的,我感觉他们得有点别的能力,对吧?比如说我和检察系统的关系了。比如说我的人脉了,对我觉得就是未来可能搞人的工作是最安全的。
我觉得搞人的工作是最安全。嗯,我还可以分享一下,就是中国这边我最近我遇到比较好玩的事儿,就是有一个反正你可以理解是一个大中型公司吧,就是他们有一个部门,大概可能管了大几千的这种开发人员,然后就是说他们想去找一些中小企业的或者AI创业公司的CEO或者说这种技术leader。来去聊一聊,就AI怎么去改变研发组织和研发流程。
然后我了解到这个需求之后,我就在想,哎,他们是不是觉得他们团队的人有点多啊?那确实,那是个很大的研发团队啊,就觉得可能怎么能用AI来提效吧啊,我觉得这也许是背后潜在的一个想法啊。那持续关注一下,在我们下一个季度交流的时候,我们看一看他们现在团队的这个减员到什么程度。对,哎,关于那个Meta的百分之二十裁员,他们现在已经开始了吗?
内部开始有什么风吹草动了吗?这个事情宣布了,但具体现在执行到哪里了?呃,我确实还没有这个第一手的这个信息呢,还。嗯,我猜想了,那总不能按照 token 量来排吧?那那那,如果真的里面有这一条的话,那我觉得会挺好玩的。你还真别说,我觉得 Meta 之前是历史上就是干过类似的事情的。他们之前是啊,少数就是这种技术大家认为比较强,但是之前就是衡量 performance 的时候用过这个代码行数的公司。
所以我不太意外,他们有可能同样的事情再干一次,在AI时代,这个代码行数变成这个token量,然后来用作裁员的指标。偷坑用的最少的百分之二十的人直接自动离开,我们可以观察一下他之后具体是怎么去裁决百分之二十的啊?因为你现在自己也做投资嘛,然后周围你也有很多大公司或者创业者的朋友,你们也会去交流。你觉得最近这一段时间大家比较共同关心的问题还有什么?
啊,说个题外话哈,大家比较关心这个湾区房价会怎么变化?哦,那我觉得这个也跟AI相关,应该也是AI热潮带来的吧?因为我觉得湾区房价的话,还是说是一直被说这里有很多高薪的这个软件开发工程师撑着嘛。但如果说今年或者说明年这连续的裁员潮来了以后,房价会怎么变化?可能大家会觉得是,嗯,会变barbell啊。就是说,这个第一的房价,比如说一面链、两面链或者三面链,他们可能因为大家都失业了,对吧?
然后可能就按揭可能就付不起了,然后他们可能会降价。但另外一方面的话呢,又有现在很多这个呃厉害的这个AI研究员,然后又挣得特别多啊,他们在像OpenAI、Anthropic这些XAI、Meta,呃,package很大,然后赚很多钱,然后尤其这些公司马上要上市了。所以可能就是会不会是说十万年以上那些供应比较少的房子反而要涨价,但是这个比较便宜的房子,因为这个大部分人都失业了,所以要往下降。
所以现在大家在猜测这个未来湾区这个房价会发生什么样的变化?其实这个和A I挺相关的,我觉得它刚好折射了就是你说的两种情况,对吧?有人可能拿到了一亿美元、两亿美元的年包或者两年的这种总的package。然后又有更多人,可能在担心自己的工作还能持续多久啊?对,非常赛博朋克呀,就是摩天大楼下面就是贫民窟。
对我,我觉得确实也是我们觉得所有AI从业者可能需要去思考关注的一个问题吧。就是AI现在确实还是一个非常中心化的一个事情,它会使得有算力啊,然后有资源啊,然后能力强的人得到很强的这个增幅效果。啊,但是它可能会也会逐渐增大这个社会里面的这种不平等啊,所以未来社会问题上面怎么去解决这些问题,我觉得还是很有意思的一个课题。
呃,我最近听到一个,当然以前大家会聊说我们要发UBI嘛,就是所有人管你工不工作,对吧?每个月先发你一千美元,嗯,然后现在的话,另外一个新的一个思路的话是说,我们要在这个token上面收税,你不能无限制的去。投钱造数据中心,然后搞更多推理,然后你把人都裁掉。你如果要是呃赚更多的token,你每token可能要交一些,不管你这个每个token除了你自己成本以外,你还得还要交点税。
那那这样的话,你可能也要考虑一下,你是不是能不限制的去增加你这个啊 token 的这个消耗。所以我觉得可能未来。啊,还是说社会机制上面可能也需要一些相应的适应AI时代的这个变化?我觉得给token收税的话,是让这个AI更像人了,因为其实你招人是要公司是要交一些。税费的,对吧?对,所以人是有他的这种跟每个人头相关的成本的啊。
对,其实这个逻辑很容易理解嘛,因为你看美国这帮就是说呃支持MAGA的人,或者说对这个呃现在的工作分配不满意的人,就是说哦,我们的这个制造业都转移到中国了,然后中国的人他们抢了我们的工作,但他们不交税,对吧?那未来的话呢,就不是说中国人抢美国人工作,说AI抢了所有人类的工作,他们又不交税,那怎么办呢?
那你就是给他上关税对吧?你给他上关税,你给他加税,你让他交税就好了。对,所以我觉得这个应该是可能未来自然的一个进化方向。嗯,下个季度到半年,你认为比较确定会发生的事情是什么?我觉得下个季度到半年呢,我觉得可能有小有大吧。第一个的话,我觉得其实呃,今天我们还没有提到的一个名字,DeepSeek V4,应该是要在下一个季度发布了。
然后我觉得它也是嗯呃,众星瞩目吧。希望就看看它这次有没有一个,那是不是憋出来一个大招,能够然后再次震惊这个全世界。我觉得还是非常期待这个新模型的发布。你觉得让V四震惊全世界是不是对他们要求太高的一个期待?你觉得一个公司能连续震惊全世界吗?何况它的资源相对来说其实比较有限的,就和比如说全球最核心的AI
lab来比的话,我觉得应该也是确实他们之前做了很多不错的工作,然后这个V四大家等的时间也比较久,所以我觉得现在期待拉的比较高啊,所以目前来看的话。
可能确实是压力比较大的,就是如果想要去满足或者说超出大家现在对VC的一个期待啊,从最近发的这些工作和paper来看,可能还差了那么一点啊。不过我觉得我们可以等一等,看一看结果怎么样。你说从最近发的工作,你是指其他家发的工作太强了,还是指去年底到今年初?DeepSeek陆续释放的一些成果,你记得是MHC和Ingram这些吗?
MHC啊,Ingram呀,然后其实这些工作有不少也是基于就是自结Seed的工作嘛,所以。啊,可能我现在也听到一些声音,就认为就是说啊,这个啊,在这些基础的工作上面,可能有的时候可能 Deep C 可以它领先的程度可能比之前可能缩小了。那现在字节可能在这个 C 的创造力上可能会更强一些。我我聊到 C 的人也会说,反义词就是说其他人的一些工作是基于 C 的工作。
嗯,好吧,嗯。呃,这是一个你觉得对我觉得比较确定,我下一季度应该V四肯定是会发了,嗯,对。然后我觉得还有一个比较期待的就是说,呃,我们可以看到那个Computer Use Benchmark就CUB。现在的话还非常低,好像我看了一下,现在最新的模型可能 performance 也只有百分之十几,所以我没有看到现在这种 cloud code 操作电脑的这些功能的上线。
我觉得还是非常期待,就是在 computer use 上面。可能会有一些新的突破,然后使得这个整个跨不同的应用,然后又在没有A P的情况下,这种工作流能够更好的被自动化。那我觉得在很多这个企业里面,应该还是有很好的落地场景。那有什么你还不太确定,但是很想验证的事情?我觉得不太确定的事情就是说,这个持续学习还有这个递归自我改进这些事情能有多快的速度去落地吧?
因为,呃,前段时间我也写了一个这方面的一个博客,在发了这个博客以后,啊,也有很多这个研究员参与了讨论,然后我们 M E Labs。也办了一次这个主题的讨论,我觉得大家可能还是都觉得现在的方法还是有这个 over engineering 的嫌疑,也就是过于复杂了。可能大家还是会期待一个,就是在机制上面和Skills或者啊,memory同样简单,但是效果更好的这么一个机制。
但目前来看的话,就是可能还没有人说已经完全掌握了这个配方是什么样的。所以,呃,也是希望能够看看,啊,今年Q2的时候,啊,有没有一些突破性的进展吧。嗯,你说的现在方法,大家觉得有点过于复杂,太工程化了,指的就是指的是说像呃,time
training啊,像这样的方法,可能还是比较重。嗯,一些希望就是说,在那个使使用模型训推理模型的阶段,然后模型的这个权重也小部分的更新的这种,就是大家理解的更原生的持续学习,但是搞得太复杂了。
现在,对对对对,OK。那今天非常感谢Henry做客晚点聊,分享了Q1的一些观察。其实我觉得聊下来呢,明显能感受到,目前已经被大范围使用,然后也是核心的模型厂商在竞争追逐的主线,其实就是从coding到agent。这一条模型进展,以及与其相关的应用,还有整个开发者生态。然后在这个领域,我们也看到了像这一季度有 OpenCLaw 4.6,应该是目前为止很多人认为的最强的代码和 Agent 模型。
然后也有 GPT 发了 GPT 5.4,以及。Anthropic Cloud CoWork Cloud Code的收入的快速的增长,还有OpenAI正在。收敛一些枝枝蔓蔓的投入,他也在重新更聚焦到生产力这个场景。接下来,我觉得在第二季度可能也是一个会发生,然后也是值得去验证结果的,就是 OpenAI 和 Anthropic 之间的新的竞争。
然后我们也讨论了在目前的这个主线之外,可能一些更远期的方向,包括持续学习,包括用 AI 来改进 AI 的自进化。啊,最后我们也延展聊到了。A I对大家的生活、工作的一些影响,包括已经在硅谷发生的科技公司大裁员,以及中国的大小公司可能也会因为A I有很多人员、思路和组织的调整。那今天的节目就到这里,感谢各位的收听,大家拜拜,拜拜。
本期连点呈现,补充更多中国正在发生的情况和我的一些整体感受和观察。如果从这期提到的二四年下半年初露锋芒的 Devin 开始算起,Coding Agent 的酝酿和蜕变已经经过了整整一年半的时间。期间出现了 Cloud Code、Malus、Transpark、Cloud Cowork 等诸多探索。到二五年底,一个越来越成为共识的观察是,Coding Agent 就是通用 Agent。
我在一百五十七年末AI回顾的单口节目里,从模型和应用两个角度详细分享了相关的事实和观察。而到今年一季度,几个事情汇聚,进一步让更多人看到了Agent的价值。这包括Cloud Code逐渐积累的用户和体验,以及最重要的是实打实的收入。这个产品在二六年二月的最新AR已经达到了二十五亿美元,超过了同期Cursor的二十亿美元。
还有把 agent 放到聊天对话框里,带来新的交互体验的 OpenClaw 小龙虾,它在中国的全民出圈,让 agent 变成了更多老板和工作者会认真考虑的提效手段。不考虑 AI 领域仍在发生的诸多其他探索,仅仅是接下来围绕 agent 的效率优化、降本的努力和体验与交互方式的创新,就有巨大的创新和业务空间。
而且这是一个足够大的空间。对我个人来说,到此时此刻,那种此轮AI绝对不会进入寒冬和低谷的乐观宣言,才有了让人安心的能切实踩上去的地面。这意味着很多改变,大公司肯定会有更明确的动作,比如向来慢一步的腾讯看到OpenClaw后,难得展现了一次速度。一众AI公司也需要再次思考模型研发和。打造强应用之间的平衡与兼顾,我们会看到一些像实验室的公司也开始更多考虑产品化,比如在招聘上已经有所动作的
DeepSeek,我们也会看到以往国产 AI 效率工具收不到钱的论断正在动摇。
在Agent这种对效率和成本比较敏感的场景,便宜够用,甚至在某些功能和体验上比欧美产品更好用的中国产品的收入在快速的增长。还有更多人的工作方式和整个劳动市场也会发生改变。这期是我们第一次尝试季度总结,录完之后我发现仍有一些角度和方面没有展开讲到,希望各位听友在评论区多多留下意见和建议,也分享你的AI观察。
下季度再见。本期节目就到这里,感谢收听。如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法,这也会成为我们节目的一部分,让整个讨论更完整。你也可以把我们的节目分享给对这个话题感兴趣的朋友,推荐更多你想听的主题和嘉宾。你可以从小宇宙、苹果Podcast等渠道关注“晚点聊 Late Talk”,也欢迎关注我们的公众号“晚点 Late Post”。
下期再见。