欢迎收听晚点聊,我是曼琪。这期是晚点聊的年终特别节目。在AI大势必定发生的春节之前,来总结2025年和即将过去的蛇年,我们在AI领域的观察和见闻。本期节目我会以单口的形式来讲述,我将按几个大的主题来串起这一年在AI领域的观察、行业的一些大事件和整个晚点类post对AI的更多报道。你将听到以下七个章节的内容:模型、应用、巨头的AI之战、字节、阿里、腾讯、创业公司们、巨深智能、AI硬件,最后是AI中的人。

在每个章节中,我会按照若干关键词来展开要点,并穿插指路晚点聊的相关往期节目或晚点的相关文章。我会把提到的文章列在收漏词里。历史正在加速发生,AI洪流中五色使人迷目,但人是意义的动物,我们总试图理解和抓住什么,拽住那条意义之线。希望这期年底的大型连点呈现,可以帮听友得到一份正在拓展中的AI地图。下面我们正式进入节目吧。

第一章 模型,关键词 agentic model,协同设计,下一个学习范式。该领域有众多分歧和争论,但绝大多数人都有一个共识,就是本轮 AI 热潮仍处在早期。技术变化本身是最重要的驱动力,也是推演产品形态和商业格局的基点。所以,我们的回顾从模型技术开始。第一个关键词是 agentic model,简单来说就是能支持 agent 能力的模型。

在二五年三月一百零六期和真格合伙人戴雨森聊 agent,以及那之后不久的一百一十期和明势合伙人夏令聊垂直 agent 的两期节目中,我们都对 agentic 模型框架有详细的拆解。总结来说,agent 需要模型的这样几种能力:一是推理能力,能思考更复杂的任务和规划任务;二是抠顶编程能力;三是多模态能力,尤其是多模态理解能力。

四是工具使用能力,这和推理、coding和多模态的能力都相关。最后还有记忆能力,能存储长期的上下文,而且能在处理特定任务时知道调用哪些适当的上下文。这些能力并不一定都要训到大模型里,也可以采用外挂等工程方式放到整个系统里,同时需要 MCP 等协议生态的辅助。但它们都是基础大模型公司会着重提升的重点,所以我会放到一起讲。

Agentic model本年的发展要从年初DeepSeek R1的爆火说起,这标志着推理模型的崛起。其实更早的推理模型是OpenAI在24年9月发布的OpenAI O1,我们也在那之后不久的第八十期节目中解读了O1带来的新的开发范式。而 DeepSeek R1 是全球第一个在大参数规模上复现了 O1 的推理模型。

一个幕后故事是,R1 发布的同一天,Kimi 也发布了自己的推理模型

K1.5。其实两家公司都各自知晓对方就快发布推理模型了。最后赶上了同一天,二零二五年一月二十日。这个日期未来会成为中国AI史上值得纪念的一天。而一后来获得的影响力远远大于K一.点五,甚至也远远大于原始版本O一。除了实力过硬之外,还有三个关键的因素:一是它是一个完全开源的模型,而且开源了最强最大的满血版本;二是它的技术报告十分详细;三是它特别在报告中高亮了五百五十七万美元的最后一次训练成本。

前两个因素是AI研究者关注DeepSeek的原因。其实从更早时的V二和V三开始,DeepSeek在欧美AI研究群体里就以慷慨的分享精神赢得了大量的尊重和讨论。梁文锋本人对开源非常坚定。分享一个我们报道过的小故事,就是二三年下半年。光年之外之前的联创袁近辉在筹备创立新的AI infra公司归奇流动,梁文锋考虑过投资,但是他说如果你们的大模型推理引擎不开源的话,我就没有兴趣了。

袁近辉当时没有想清楚开源的商业模式,就没有拿这笔钱。不过这之后,归奇流动一直和DeepSeek有紧密的模型托管合作,是第一批上线V二和V三的平台。而第三个因素看起来极低的训练成本,则引起了美国政商领域的更广泛的关注,以至于特朗普也点评了 DeepSeek,英伟达的股价也一度大跌。然后就是墙里开花墙外香,一个美国人都说厉害的 AI 大模型,在全国人民都闲着的春节假期,引发了史无前例的科技狂潮。

从尔仪的爆火中,其实可以看到一种技术影响力的扩散路径。先在全球最 top 的核心 AI 研究者中产生小范围但好评度很高的影响力。这需要实打实的技术实力和分享精神,然后是借由一个契机破圈,以及AI领域比较特别的出口转内销。这也反映了当前一个既合理又让人有点无奈的事实,就是我们总是看着美国被美国AI界认可的东西自带光环。

说回推理模型本身,O 一和 R 一带来的效果提升主要表现为多步推理能力,就是可以一步一步的去思考一个复杂问题,提升回答的准确性、全面性和规划能力。这也激发了 chatbot 类产品的一个主流功能 deep research 深度研究。而这个效果提升背后的新的技术范式是把更多算力放到了模型的使用阶段,也就是推理阶段。

这就是测试时间计算 test time computing 的

scaling。DeepSeek的慷慨开源,进一步帮业界证实和证伪了很多假设,比如推理能力不需要依赖蒙特卡罗树等复杂的搜索算法,也不一定需要用人工构造的思维链数据来做监督微调,而是可以在基模之上直接从零开始强化学习。这降低了其他团队的试错成本,而一存在的本身还是一个观念的胜利,即可以依靠小规模而且非常年轻的研发团队,以相对低的成本快速复现最好的模型成果。

而一甚至直接促使了一个新团队的诞生,就是曾经是中国首富的盛大创始人陈天桥。投资支持的 MirrorMind,因为 DeepSeek 让陈天桥看到研发和训练出顶尖模型的投入比他之前想象的要少得多。当耳一和一系列推理模型提升深度思考的能力时,二零二四年埋下的另一颗种子也悄然发芽,那就是Anthropic引领的 coding 能力超强的模型 G Cloud 三点五和后续模型。

Anthropic 也在二五年二月正式发布了自己的 AI coding 产品 Cloud Code。后来我们会发现,它不仅是一个 AI coding 产品,它其实就是一个 General Agent。比二五年三月初发布的The World First General Agent Malice还要早一个月,我会在后面讲应用的部分,更多展开相关内容。

Coding之所以重要,是因为在数字世界里。会编程就像人有了强健的手和脚,可以解锁大量任务,这是大模型支撑复杂Agent应用的重要基础。整个二五年至今,全球顶尖模型厂商都在加大对Code的投入,其中不少都直接下场做了Code应用。比如OpenAI在四月发布了CodeX,xAI在八月发布了Grok CodeFast,Google在十一月发布了AntiGravity。

下一个要讲的 agentic model 的能力是多模态。二五年出现的一些新的 AI 产品体验都离不开多模态,比如一百三十六期中,我和 Labrat 的创始人陈冕聊了他们当时刚上线不久的一个功能 Chat Canvas。就是用户可以手动在生成的设计图上选定一个区域,然后告诉 agent 怎么进一步优化和修改。

这背后就需要模型能理解图像。现在全球最领先的大模型都已经演进成了原生多模态模型,即用同一个模型来处理文字、图片、语音等不同模态的信息。而这之前,多模态能力是分开实现然后拼接的。最早发布的这类模型是二四年的 OpenAI 的 GPT-4o 和 Google 的 Gemini 一点五。去年十一月发布的Gemini 3,还有上周刚发布的Kimi 2.5,也都是原生多模态模型。

同时,也有不少专门做多模态生成的模型,比如中国公司做的很不错的视频生成模型,像可灵,还有MiniMax的海螺。去年Google发布的大火的VU3和Nano Banana也是这类专门做视觉生成的模型。在一百四十六期聊Gemini 3和Agent需要的模型时,我们就提到Nano Banana和Notebook LM都发源于Google Labs。

负责人是Google的一位传奇经理Josh Woodward。Google

Labs这个部门不仅有研发人员和工程师,也会招主编、设计师等做内容的人。他们创造了很多火爆出圈的内容玩法,比如我相信有一段时间,很多人都在小红书上刷到过那种把自己的照片做成桌面手办的图片,这背后用的就是奈罗本纳纳。而另一些公司,比如Anthropic、Kimi和DeepSeek,都没有把多模态生成作为重点,这和不同团队的技术判断、想做什么方向的应用以及资源多少都有关系。

总结一下 agent model,随着大模型的推理、编程、多模态能力的持续提升,去做主动性更高、能完成更复杂任务的 agent 应用的时机到了。二五年普遍被认为是 agent 应用出现的元年,这个趋势还在快速发展。比如最近爆火的 OpenCL,我们在后面聊应用时还会进一步展开。接下来进入模型部分的第二个关键词:协同优化。

这是指模型的开发方式和研发团队的组织方式,也是在一百四十六期聊Gemini三等技术进展的节目中,在Google云的Vertex部门工作了七年的Bassily Wang分享了他看到的Google卷土重来的一个关键:Co-design协同设计,就是Google多年的布局,让他全面掌握了训练AI的TPU芯片,芯片上的Jax。

Palace等软件库面向大模型的AI infra基础设施以及云平台模型和最上层的应用,这让Google能从底层到上层一路协同优化,形成了非常强的super power。其实这种垂直整合协同设计的想法很自然,因为大模型训练是一个大型的复杂系统工程。GPU等硬件、Infra等软件系统,还有算法,都是相互影响的。

最近阿里新总结的通云歌、通义、阿里云平头哥的战略组合,也是类似的垂直整合的思路。而在千问模型团队内部,更紧密的整合也正在发生。我的同事高红浩在晚点最近发布的《字节、阿里、腾讯AI大战全记录:一场影响命运的战争》这篇文章里就提到,在阿里通义实验室的千问团队,他们从二五年下半年起开始招募自己的infra人才,而这之前,千问的infra主要是阿里云的人工智能平台派来支持的。

但后来他们认为,自建infra能更敏捷地开发,也能和算法有更紧密的协作。腾讯AI大模型的新负责人姚舜宇近期也在一次内部会议上提到了codding的思路。他认为,从infra到算法再到产品协同打通,可以加快迭代,减少内耗。腾讯已经把AI infra部门也划到了姚舜宇的管辖范围。而 DeepSeek

作为一个从零搭建的团队,则是在一开始就很自然地形成了紧密的协同优化,比如 Infra 团队也会参与算法的设计讨论。

如果一个算法设计从 infer 层面很难有稳定的实现,这个想法可能会被否掉。DeepSeek 可能做到这一点,在于梁文锋对整个模型训练的各个环节都比较了解,而且会 hands on

的参与其中。这还是和当前模型训练的性质有关,它更多是一种工程而非科学研究,非常需要一线的手感和体感。二五年年初的一个事件展现了 DeepSeek 超强的 infer 能力和工程能力,就是 DeepSeek 开源周,从二月二十四日到二十八日,周一到周五。

DeepSeek每一天都放出了一个infra领域的开源成果,然后在周六发布了一篇收官博客《DeepSeek V3R1推理系统总结》。这篇博客里还根据某一天二十四小时的实际数据,测算了 DeepSeek 推理系统的成本。晚点聊有两期相关节目,一是在一百零二期中,我们和 DeepSeek 的一位前实习生王子涵聊了大模型开源的现状,以及它和传统软件开源的区别。

其中有一个问题我印象很深,是当时我们在讨论像 DeepSeek 这样一直开源最强的旗舰模型是为什么?他说有两个可能,一是老板不想赚钱,要造福社会;二是想做更大的事,比如成为一种行业标准。另一期节目和 DeepSeek 开源周引起的行业风波有关,就是在周六发布的那篇总结文章里,DeepSeek 公布的推理成本非常低。

在二十四小时里,用一千八百多张卡支持了六千多亿的输入头坑和接近一千七百亿的输出头坑。DeepSeek还以当时的GPU租金和自家模型的官方定价计算了一个利润率,换算成毛利率是惊人的百分之八十四点五。做第三方AI infra服务的路辰科技创始人尤洋直呼不可能。他认为DeepSeek这种算法没有考虑波峰波谷的调用量的变动。

具体的讨论可以见一百零五期节目,我对尤洋的访谈。其实这种争议本身也侧面说明了 DeepSeek 的 infra 优化的非常极致。归奇流动创始人袁清辉当时也在这篇文章的知乎留言区里评论,DeepSeek 公布的成本和收益又一次颠覆了很多人的认知。现在很多供应商做不到这个水平,主要是 V3 和 R1 的架构和其他主流模型的差别很大。

他推测 DeepSeek 团队可能是先想到了一个这样的模型架构,然后解决了稳定训练和推理的工程问题。也可能是反过来,从系统出发设计了这样一个特殊的模型结构。不管是袁近辉说的哪一种,这背后都需要模型和算法的紧密合作。在协同优化这部分,我还想特别讲一讲注意力机制的改进。注意力是 Transformer 架构大模型的核心机制。

二零一七年提出 Transformer 的那篇论文的标题就是 Attention is all you need。简单来说,改进原始注意力机制是为了让模型能处理更长的上下文,而模型之所以会在上下文的长度上遇到瓶颈,又是因为注意力的计算方式会带来很大的计算复杂度和显存开销,而这两件事都被 GPU 的算力。

互联效率和存储等物理底层限制。二五年,我们做了三期和注意力机制改进相关的节目,正好涵盖两个主流方向:稀疏注意力、线性注意力,分别是103期、104期和143期。这几期节目都是从算法和模型架构的改进聊起,但都很自然地延伸到了系统层和硬件底层。比如一百零三期中,我们聊到了 Flash Attention,它就是一个早期的系统算法的协同改进。

基于对GPU内存访问特性的理解,他通过改变标准注意力的计算顺序,提升了计算效率,降低了显存开销。在一百四十三期中,DeltaNet的核心作者杨松林也分享了他是怎么从一个算法研究员自学了改写Kernel等系统层的能力。他对DeltaNet的核心优化就是提出了一个对GPU更友好的、可以做Scalable训练的方法。

最后讲一下算力。去年晚点聊的一百一十五期节目中,我和之前必任的联合创始人,现在AI Infra公司模型智能创始人徐林杰聊了当时华为刚发布不久的三八四Matrix超节点。它是一个连接了三百八十四个AI芯片的超级算力集群。这背后的一个算力层面的趋势,就是从拼单颗芯片的性能到优化多芯片互联的系统。英伟达更早之前发布的NVL七十二也是这个思路的体现。

那期还有很多有意思的洞察。包括互联互通技术为什么重要?英伟达是全球范围少有的既掌握芯片设计,又掌握芯片间的互联技术等更复杂软件能力的公司。徐林杰也分享了AI计算的成本正在从以计算为主转向以显存为主,以及这些基础模型层的变化会带来哪些新的机会,又会消灭哪些旧的机会。讲到这里,也可以看到,在算力内部也是一个协同设计、逐渐垂直整合的结构,这可能就是某些领域强者恒强、强者很难被动摇的原因。

下面进入模型部分的最后一个关键词,下一个学习范式,这是二五年下半年以来越来越被关注的一个话题。先总结一下目前的范式,简单说就是用海量的数据做预训练,然后用更少但质量更高的面对特定任务的数据做监督微调或强化学习的后训练。为什么现在要思考和讨论下一个范式了?会想这个问题的人,当然是觉得目前的方式不久会触达瓶颈,或者它不是实现智能的最优的方法。

伊利亚、哈萨比斯、勒昆等人都讨论过这个问题。这些人想法的共性是,他们都倾向于从学习机制而非效果来定义AGI。他们都认为当前的技术还达不到更本质的学习方式,这包括像人那样能用非常少的样本和数据就学会一些任务,能举一反三,能在整个生命中持续学习,能真的理解乃至发现物理世界的规律等等。所以,伊利亚在二五年十一月和Dorcas的播客里就提到。

过去几年是scaling的阶段,而现在是重新回到研究、回到research的阶段。热门的研究方向看起来很多,持续学习、在线学习、事件模型等等。我自己看到的一些线索是。首先,很多研究者在寻找下一步的方法时,都会去思考动物和人的智能是如何产生、如何工作的。比如伊利亚去年底的播客里就提到,他的AI研究品味就是以正确的方式去思考人类的智能,追求美和简洁,从大脑中获得灵感。

Transformer的作者之一,Leon Jones创立的Sakana在二五年提出的一种新的模型架构——连续思维机,也是希望更接近人类大脑。在文鼎聊的一百零八期节目中,香港大学计算与数据科学学院院长马毅老师分享了他对智能历史的梳理。他思考的起点也是地球上为什么会产生智能?为什么生物才有智能?他的结论是,智能的本质就是学习。

这是指找到世界里有规律、有结构、可预测的东西,进而能预测外部世界,这样才能生存。马伊的研究方向是探索能像生物那样实现闭环反馈机制的学习系统。人类学习方式的一个优势还在于非常节能。为了训练大模型,马斯克都计划去太空建算力了,而人类大脑的功耗却只有二十瓦。去年在和Meta的前AI研究总监田园洞聊科幻小说的节目里,我们也延展聊到了现在的方法的瓶颈。

十一月十日,我在旧金山又和他见面聊了聊。田园洞说,他接下来想做的事也是探索性的学习范式。他认为那一定会是一种更简单优雅的表达,而且是可以被理解解释的表达,而非目前的黑盒。他以前就说过,如果 LLM 就能实现 AGI,那么人类的未来是悲观的。我以前理解的是其中的一层意思,就是刚才说的,现在的智能产生方式太过于耗能和依赖数据,而这两项资源都不能短时间快速再生。

和他见面之后,我还理解了另一层意思。那就是,如果现在的方法就可以实现智能,那说明用一种不可解释的方式也能表达和捕捉宇宙的规律。这对智慧生物难道不是一种知识上的悲哀吗?和模仿人类智能相关的一个想法是,现在很热门的方向——持续学习。高级动物和人类都有自己持续学习的能力,而现在的大模型的更迭,则需要靠人类研究员去深度参与每一次迭代。

持续学习在人类智能上的最高表现形式之一,就是科学发现。DeepMind的哈萨比斯在最近关于智能的未来的分享里就提到,他希望研究能像人类科学家那样提出假设、设计实验,在虚拟环境或真实环境里执行实验,然后得到数据验证假设的系统。这就是现代科研的一般流程。而如果我们能精确地生成这种学习和探索的环境,这就是世界模型。

至少这是一部分人对世界模型的理解,比如 DeepMind 在二五年先后更新的 Gini 三和 Sima 二就是这样的尝试。其中,Gini 三是一个能生成可探索的 3D 环境的世界模型,而 Sima 二是一个可以探索这个环境的智能体。不过,目前这个版本只支持智能体在这个环境里跑来跑去,拓展这个世界,但是并不能去操作和改变这个环境里的物体。

总结下模型这部分,二五年大模型的推理、抠顶、多模态能力持续提升,这为更复杂的agent的应用提供了能力基础。而模型能力竞争背后是组织和研发方式的竞争,需要算力、系统、算法等不同环节的协同设计和紧密合作。同时,AI研究者们也已经在思考智能的下一步是什么。OK,说完了模型,我们进入第二章应用,关键词 agent,sora app,AI for science。

前面已经说到,二五年是 agent 应用大量出现的元年。从满足的需求看,现在 agent 有两个明显的主线,一个是以 coding 能力为核心支撑的 general agent,一个是垂类 agent。同时,围绕 agent 也形成了一个工具链的生态,这在美国已经催生了一批创业公司。先来说 general agent,我会把它和 coding 放在一起说。

前面就提到了,二五年二月发布的 Cloud Code 不仅是一个 AI coding 产品,它也是一个 general agent。这句话也可以换一个表达,就是抠顶不仅是目的,更是手段。作为目的的抠顶,就是给程序员用的,帮助他们解放时间,甚至直接替代一些程序员的抠顶产品,比如 Cursor。它也可以是给那些不太会编程的人用的 Web 编程产品,比如 Lovable。

而作为手段的抠顶,是指一个 General Agent 会利用抠顶能力,在数字世界里处理各种任务。如果这个产品设计成给那些懂编程的人来用,那就是可以直接在命令行里启动的 Cloud Code。如果降低门槛,加一个更简单的交互界面,那就是刚发布不久的 Cloud CoWork,还有最近两周席卷全球 AI 圈的 OpenCL。

其实字节的编程产品 Tree 在去年下半年发布的 Solo 模式,蚂蚁灵光、马卡龙、Uware,还有 Milrun 最近开始内测的 Agent Builder,都可以算到这个范畴。这些产品的共性是,都是在满足个人的工作或生活中的一些自动化的需求。如果是一次性的需求,那就是用 agent 来做一个任务,比如做 PPT、做网页等等。

如果是重复的流程相似的需求,那就可以更进一步用 agent 来造 agent。或者说的更简单点,就是用 agent 来给自己造一些个性化的应用。比如我自己就有一个特别的应用需求,是我希望 AI 能每天去帮我看一些科技从业者的社交媒体内容,分类做记录。并在每周结束时,基于这一周收集的内容做一些信息总结。

我也希望AI能自己判断该去follow什么主题和人,根据行业的变化,及时动态的调整这个跟踪的list。类似这样的个人自动化需求,以往不会有别人来给我做,因为这些需求太小众了,支撑不了软件开发的费用。我自己也不会做,因为我不会编程。而现在,Cloud Code 和 Co Work 这类工具大幅降低了开发这种个性化应用或者 Agent 的门槛。

Anthropic 在降低 Agent 的门槛上有很多贡献,包括之前的 MCP 协议,还有二五年越来越被广泛采用的 Skills 开放标准。简单来说,Skills 就是一些可以被重复调用的 Prompt 和工具描述的集合。而一旦 Agent 的门槛降低,Agent 的数量就会变多。最近我和马卡龙的创始人陈凯杰聊,他有一个很有意思的总结。

如果说之前我们已经经历了数据、模型参数和算力的scaling,那接下来我们就会看到agents的scaling。就在这个聊天之后不久,出现了Motebook,一个AI版的Facebook。这个社交网络里的成员都是agent。Motebook是群体智能的一个小实验,就是看一看一堆智能体聚集之后可能会产生什么。

在一百二十一期中,我和晚点的创始人小晚与 PinCap CTO 黄东旭一起聊过群体智能的一个科幻版本,那是《黑镜》里第七季的第四集 Plaything,讲的就是一个游戏天才开发出了一个充满小人的游戏,这些小人遵循一定的规则,在这个游戏环境里不停互动繁衍,最后形成了超长的智能。最近在看到 Notebook 后,黄东旭自己还动手做了一个小型的 MiniBook。

用来帮自己写代码,他用了三个不同的 agent 的角色来分工协作,认为这会提高整体表现。他说自己正在研究 agent 的社会学,不少垂类 agent 的应用里也已经出现了类似的角色分工,比如我们报道过的动画制作 agent Allu Allu 和影视制作 agent Movie Flow 等等,他们都是按照各自要服务的内容制作的流程,在应用里设置了编剧、脚本、分镜等不同的分工。

去年从小兵离开的李迪,也正在探索群体智能,创立了明日新城,想做一个多智能体的Agent的框架。那Agent的数量变多,新的可能的需求,还有Agent本身的分享、分发和交易。比如我在五月采访于威尔创始人明超平时,他当时的思考就是觉得Web Coding是一种新的创作方式,有创作就有分享的需求。可以做Web coding工具加分享的社区。

二五年发布的Milrun则是看到了Agent交易平台的机会。我近期访谈的Milrun的创始人陈宇森。不过,这两个产品都经历了从平台到更强调工具本身的转变,这可能和目前高频使用Agent的人还是比较少有关。也就是 agent 的供给还是不够多,比如 uwell 的 web 主页之前展示的是很多用户的作品,而现在跳到主页之后会是一个大的对话框,直接提示用户构建应用。

举出的例子也都是偏功能和效率型的,比如做一个项目管理工具,或者是做一个电商数据的分析工具等等。而 new run 的陈宇森也告诉我,他认为接下来的 marketplace 不应该是淘宝那种货架式的,而应该是对话式的。所以,他们二点零的版本 Agent Builder 也更强调工具本身。Agent 的另一个明显趋势是更多的与手机结合。

因为我们有一多半和数字世界的交互其实发生在手机上,而不是电脑上。二五年的一个典型行业事件就是十二月,字节发布了豆包手机预览,豆包手机满血版的使用体验,可以见我的同事贺前明的这篇文章《实测豆包手机助手,比价、点外卖、自动回微信,AI操作手机的时代来了吗》。不过文章发布当周,豆包手机里的很多功能就用不了了,因为微信和美团外卖等超级App都不想被豆包手机调用,不想被over the top。

成为豆包手机入口的下游,OpenCLoud小龙虾的大火也和它能与移动端打通有关。像 Cloud CoWork 目前就只出了电脑桌面版,而 OpenCLoud 可以直接部署到手机的通信 App 里。用户通过在手机上和他聊天,就能让他在云端执行一些任务。去年晚点聊有两期节目详细讨论了 agent

进入手机的趋势,分别是一百三十期访谈智谱 Auto G L M 的产品负责人刘潇,和一百三十八期访谈 OPPO 当时的小布智能助手的负责人万玉龙。

这两期都聊到了几个共性的话题,包括 GUI,也就是让 agent 像人那样去使用图形界面,是不是最好的交互方式。手机agent的隐私安全问题等等,其中我觉得很有意思的一个议题是手机agent面临的三方博弈,即手机厂商、微信、淘宝、美团等超级app厂商和做agent或者说做AI OS的AI公司之间这三方的博弈。

一个观察是,不同类型的超级App被Agent的影响程度是不同的。那些有提效需求的场景,用户可能会更需要Agent,比如点外卖、订啤酒,甚至网购。因为有的人网购是享受逛的感觉,但也有不少人是希望最快在全网找到最合适的产品,以及我们还有大量定期重复的购物需求。但超级App则会出于广告收入、安全等考量,在是否接入Agent上有一些犹疑。

比如,如果来这些App里的Agent变多了,真人变少了。那广告谁来看了?信息流广告的价值是不是也会变少?又或者在过渡阶段,我们也可以设计一种机制,让AI也能像人那样被App里的广告影响吗?如果是这样,那广告收入的大头是属于和用户直接接触的Agent的提供方,还是属于App厂商吗?以及更长久来说,如果有了Agent平台这种中介形式,还会存在吗?

会以什么形式存在?还有一个问题是,手机上的AIOS和AI Agent。到底是苹果、三星等手机厂商自己掌握,还是有独立的新机会?而抖音、小红书、B站、优爱腾、红果等娱乐内容平台,可能受Agent的影响就比较小,因为我们就是想自己看视频,而不是让AI来替我看。字节的多个主力产品都属于这一类。另一方面,Agent对有提效需求的App的影响,反过来看也是掌握大量生活服务类应用的公司的机会。

比如说,阿里就在二五年十一月推出了更新版本的千问App,主打生活服务助手。阿里做这件事的优势是,它旗下有电商、购物、即时零售、外卖、酒旅、演出票务、打车等丰富的生活服务应用。接下来值得观察的还有,掌握微信小程序这个大量生活服务入口的腾讯会做什么?会如何做?讲完通用 agent 来聊垂类 agent,这是去年晚点聊,在多期节目中展开过的话题。

比如一百三十六期的嘉宾 Albert 的创始人陈冕,他在二三年创业之初,对 AI 应用的机会有一个两大类五小类的划分,分别是生产端的 Office 和 Adobe,消费端的搜索、社交和泛娱乐。现在市场上数量最多,也被关注最多的 agent 类型,主要就是生产端的这两类,比如说 coding 和通用 agent,就是新时代的 Office。

它主要解决通用的办公和流程自动化问题,而包括 DaVinci 在内的大量图像、视频、音频、漫剧、动画等内容制作的 agent,就是新的 Adobe。陈冕说:“之所以他当时选了都比这个方向,是因为这个领域围绕多模态模型展开,它离大模型公司的主轴有一定距离。”他认为,基础模型公司的核心目标是造一个高智商的通用人,而垂直产品就是在通用人的基础上造一个设计师或创作者,这些需要更多行业经验和数据的专用人才。

应用公司的生存空间,正是在于你既能用好通用人的能力,又不要去做一个通用人就能直接做好的事儿。在更早的一百一十期节目中,我也和明势的夏令详细聊了他更看好的垂类 agent 的机会。夏令也是陈冕的早期投资人之一,他分享了一些和具体行业的具体场景深度结合的例子。比如明势投资的爱语智能,这是一家法律领域的 agent 企业。

他选了一个利基市场,帮银行起诉小额坏账。夏令说,这个场景在没有大语言模型之前是做不了的,因为按以往的处理效率,小额坏账的法律成本可能会大于你最后的收益,所以一些机构会直接计提损失,而 agent 则可以提高整个流程中的一些核心环节的效率,比如筛选成功率高的案件、生成法律文件等等。当然,有一个环节AI现在是替代不了的,就是出庭。

在这类服务上,夏令也看到了一种新的商业模式——为结果付费。比如爱与智能,它自己同时也是一个律所,他们的商业模式并不是把开发的这套工具卖给其他律所来赚钱。而是直接从小额坏账的起诉方,也就是客户端去拿案件,然后去找银行等金融机构收服务费。我们录这期是在四月,不久后的五月,美国红杉在AI峰会中也分享了类似的洞察,就是AI软件要从卖工具、卖席位变成卖结果。

当各类Agent的创业创新变得繁荣,Agent的工具链或者说围绕Agent的infra也成了一个机会。这在软件分工向来更细致充分的硅谷体现的更明显。简单来说,那些在基础模型和一个完整的AI的产品之间的诸多工作都可以算到这个范畴。这包括二三年至今轮番出现的一些趋势,RAG、Prompt

Engineering、Context Engineering、强化学习环境、Evaluation测评、状态检验等等。

在一百三十七期和 M O E 资本两位创始合伙人 Henry In 和 Naomi Sha 的访谈中,我们就从头梳理了 Agent 工具链的发展和他们在硅谷看到的这个领域的各类细分机会。Henry 当时总结,Agent 工具链已经有六轮比较大的进化,每一轮进化的起点都是因为模型能力上了一个台阶,而怎么用好这些模型,当时还有 Gap 工具链就是来弥补这个 Gap。

我们也梳理了AI的工具链当前的一些主要机会,包括语音、记忆和评估的变化,以及相关的创业公司。这一期我自己印象比较深的一点是,美国软件行业的水平分工真的特别细致,在一些我几乎都没怎么听过的场景里,也有体量不小的公司,比如做系统可观测的 Datadog,做身份认证的 Okta,都有超过二十亿美元的年收入。

而这些软件生态里的流程,可能都有被AI重新做一遍的机会。接下来进入应用部分的第二个关键词,Sorry App。其实我是想聊一聊Sora App为代表的一大类尝试,那就是非效率方向的AI To C产品。他们现在集中于陪伴、社交、游戏和娱乐领域。这个方向不是二五年才出现,之前就有Glow、Talking猫箱等产品。

他们能让用户和AI虚拟角色互动聊天。Pit Spurs也在二四年底就推出了手机上可以玩的App版,主要是制作和分享AI生成的一些视频特效。二五年十月上线的Sora App之所以特别引人关注。一是这是 OpenAI 推出的,它用到了当时 OpenAI 最领先的视频生成模型;二是它有 Cameo

等交互创新, Cameo 就是可以让用户在授权自己的人脸之后,生成符合自己外貌的角色,可以自己玩,也可以和其他的朋友来合拍。

在一百三十六期对劳尔特·陈明的访谈和一百三十九期对视频生成模型及应用公司散了点AI的创始人曹越的访谈中,我们都展开聊了当时发布不久的Sora App。他们刚好代表了两种想法。陈敏当时很兴奋,他说:“Sorry App不仅是一个视频生成产品,它也是一个社交产品,因为Camille等功能的设计会让人忍不住把Sorry App给身边的朋友。

”曹越则认为,Sorry App是否真的是一个C端平台机会,还需要观察。他觉得新的C端平台至少要有两个条件:一是它能形成一种新的内容形态;二是它有新的传播链路。曹越觉得,Sora在这两点上都没有颠覆性的表现,它还是更像一个工具。很多人会用Sora做视频,再发到朋友圈、小红书、抖音或者快手。后来的情况是,Sora App在最初的火热之后,留存率确实比较低。

Sensor Tower估计,Sora App在第三十天的留存率低于百分之八,远少于TikTok、Instagram等主流社交应用。根据 SQ Magazine 二五年秋天的数据,TikTok 三十天的留存率有百分之四十二,Instagram 是百分之三十八。那么到底是谁在用 Sora

了?去年十一月,我在旧金山遇到了一位围绕 Sora App 做数据服务创业的创业者卢源,他在做的产品叫 Sora Stats。

服务骚扰的活跃作者想帮他们成为这个平台上的 Mr Beast。Mr Beast 是 YouTube 上制作视频的全球顶流网红。陆渊当时分享了一些用户故事,在他自己运营的活跃骚扰作者群里,有很多不同类型的创作者。包括教师、Uber司机等等,并不一定是我们想象中的科技从业者或AI达人。我自己玩Sarap不久后,也关注过一个叫Cego Masmalu的账号。

我当时完全不知道这个人是谁。他也不是像Sam奥特曼那样的AI圈大佬,这个账号从来不发真人风格的视频,不发合拍,而是把Sora当做一个探索二次元和各种视觉效果的产品,内容质量真的不错,所以粉丝也涨得比较快。后来卢源告诉我,这个作者其实是日本一个解密游戏制作人和知名网红松丸亮吾的弟弟松丸会吾,马兹马鲁就是。

松完的意思,他在日本AIGC圈也小有名气。准备这期节目时,我发现Masaru在Sora上的粉丝已经有十万加了,而Sam奥特曼本人是十四万。这个例子背后的一个现象是,日本用户是很活跃的AIGC使用群体。赛博奥特曼自己也观察到了这一点,所以在二五年十月更新的关于Sora的博客中,他专门写到,In

particular, we'd like to acknowledge the remarkable creative output of Japan。

他说,Sora用户与日本内容之间的紧密联系让OpenAI团队印象深刻。其实Sora这个名字本身也来自于日语里的Sora,就是天空的意思。在日本长期繁荣的 ACGN 文化确实和 AIGC 有很强的亲和性。日本有大量搞同人二创的爱好者,AI 工具能进一步放大他们的脑洞和创造力。总之,确实有人在长期使用 Sora App。

但它也并没有如之前的一些期待那样快速在更广泛的人群里扩散。除了Sora App带来的对AI YouTube的想象,也有一些创业者在挑战一些看起来存在已久、没有什么机会的领域,比如说通信软件,比如说语音输入法。二五年我们就报道过一位非常年轻的创始人,二十五岁的陈春雨。他在旧金山做了一款聊天软件Intent,主要服务的就是当地说西班牙语的人群。

而他们有一个之前的产品还没有解决的很好的需求,就是更简单、更方便的翻译。而大模型可能大幅提升翻译的体验。语音输入法也是个类似的例子。输入法是一个非常高频刚需的产品,而语音输入法大部分手机和通讯软件也都会自带这个功能,而像 Taplyse 这样的产品却仍然做出了差异化和声量。我自己最近就经常用 Taplyse,相比微信和飞书自带的一些语音功能,我觉得 Taplyse 的准确性确实要更好一些。

它在帮你改正文本。以及结构化的去组织文本上都有更强的能力,而且你经常使用的人名和专有名词,它也会放到产品的记忆里。这个说起来和搜狗输入法是类似的体验,但确实在之前的语音输入法里好像都没有人去做这种细致的功能。陈冕曾预言,二六年会是AI to C产品爆发的元年,我们可以期待一下市场上会出现什么新东西。

接下来进入应用的最后一部分。AI for Science 一百四十期中,我访谈了二零一八年成立的深势科技的两位创始人张凌峰和孙伟杰,他们完整讲述了自己亲历的用AI加速科学发现的发展脉络。深势的经历刚好涵盖了几种不同的探索:一是,在二零一六年前后,用机器学习来简化量子物理的第一性计算,这种计算有非常明确的物理公式依据,包括薛定谔方程、密度泛函理论和分子动力学方程等等。

它们能计算物质的性质,对生化环材领域很有用。但以往的难点是这些方程的计算太复杂了,很难从微观尺度进入更大的尺度,这就限制了应用。张凌峰创业前在普林斯顿读博期间的一个主要成果,DPMD,就是用机器学习的方法找到了一种不损失精度但又能提升计算效率的方式,甚至后来以此推出了用于药物研发的计算平台产品Ermit。

二是使用深度学习和生成式AI来解决一些科学问题。典型的代表是后来获得诺贝尔奖的预测蛋白质结构的 Alpha Fold,甚至也有类似的模型 Uni Fold。而在大语言模型更成熟后,能覆盖更完整的科研流程的agent也成为了一个方向。这既包括物质世界的科学研究,比如前面提到的用AI和自动化技术来支持从文献研究到提出假设、设计实验、完成实验,再到验证假设的科研全流程。

也包括一个特别的方向,用AI来提升AI,也就是让AI来做AI研究员的工作。这个想法很典型的体现了AI技术左脚踩右脚的发展特性。这里推荐我去年看过的一本很有收获的书,《经济学家布莱恩阿瑟的技术的本质》这本书总结了技术具有的自我繁殖的特性。阿瑟对技术的定义是。完成特定目标的手段和解决方案。技术的起点是人类对一些原始物理现象的捕获,而从那时起,两股交织的力量就开始推动技术的自我繁殖。

一是,在供给上,历史上已经存在的技术会通过新的组合方式产生新技术,旧技术越多,能产生的组合就越多。同时,像望远镜、测量器具等观测技术的发展,也使实验方法逐渐成熟,这又加速了人类对更多新的物理现象的捕获。这是最近数百年里现代科技从萌芽到爆发的过程。第二股力量是在需求上,我们对新技术的需求不仅来自人,也来自技术自身。

因为每当一种技术出现,它往往就会带来改进自己或降低成本的需求,它也会带来新的要实现的目的,这就需要新的解决手段。比如,当我们能识别一种疾病后,就会想发展能治疗这种疾病的新技术。这本书写于二零零九年,大模型如今的快速发展并不是作者主要的观察对象。那时他写到,技术的这种自我进化、自我拓展是通过人类发明家这个中介来实现的,而也许不久之后,我们就会看到逐渐成型的AI发明家。

那会是一个信息广度、计算能力都远超人类个体的系统,而且不眠不休。一个问题是,我们做好准备了吗?又可以提前怎么准备了?聊完了模型的进展和AI应用市场的变化,下面进入喜闻乐见的商战部分。第三章:巨头的AI之战,字节、阿里、腾讯,关键词:人才和组织之战,To C应用大战,即将到来的春节之战。从这一轮AI热潮的起点开始,晚点一直在跟踪报道互联网大公司。

尤其是中国大公司的AI动向,其中最有实力的是三家公司:字节、阿里、腾讯。在二五年,我们对这三家公司的AI动作有两轮集中报道。一是在春节后,我们陆续发布了四篇报道,分别是高红浩撰写的《腾讯在AI拐点到来前的七百天》,王雨桐撰写的《字节AI再创业:独立组织全链条的饱和攻击》,管艺文撰写的《重新认识阿里》。

大踏步迈向AI。贺建明与黄真心撰写的《字节、阿里、腾讯的AI人才竞争:两千三百三十个研究者背后的共识与分歧》。二是前不久刚发布的高洪浩撰写的字节、阿里、腾讯AI大战全记录。这些报道涵盖了我们观察科技巨头怎么做AI的几个关键视角。首先是人才和组织,这直接关系各个公司最底层的模型实力。先说字节,字节的整个AI大部门相对独立,它试图营造一个小环境,以创业公司的方式去做AI,以摆脱十几万人组织的庞大重力。

在五年之前,字节的情况是成立了相对独立的AI大部门,其中分为负责产品的Flow、负责模型研发的Seed和主要做产品后端研发支持的Stone这三块的负责人,一开始都是字节老人。Lucidly的创始人朱俊负责Flow,豆包产品团队也在这个部门。二零一五年就从百度加入字节的朱文佳负责Seed。同样是来自百度,2014年加入的洪定坤负责Storm。

今年字节Seed有了新的研发一号位吴永辉。吴永辉是Google DeepMind的前研究副总裁。一位从业者曾像我这样评价吴永辉:是大佬级别的技术管理者,能镇得住场子。为什么镇得住场子很重要了?这和字节补充AI技术人才的顺序有关。在吴永辉于二五年二月正式加入字节之前,整个二四年,字节先是陆续补充了一批年轻的技术骨干。

这件事的起点得回到二零二三年夏天,当时字节本来已经打算投资Mini Max和街月星辰这两家中国的大模型创业公司,但在一次高层会议后,张一鸣明确的表态,字节应该自己做大模型,而且也能做好,不用对外投资。紧接着,字节高层包括张一鸣本人,从二三年年底开始密集的见人招人。我们在九十三期节目《字节 vs

六小龙》中就聊到过一个小故事,是说二四年的时候,一位投资人像往常那样顺着AI论文去拜访作者时,惊讶地发现,不少人说:“我刚和一鸣见过。

”这其中还有一些没有毕业的博士生。字节这一轮的招人成果,包括来自 Google 的蒋璐,来自面壁的秦宇佳,来自零一万物的黄文浩,来自智谱的丁明,以及当时很受市场关注的阿里千问模型的前负责人周畅。当汇聚了多个在业界有名气、有影响力、有处于事业上升期的技术leader之后,字节显然需要一个能让他们服气的领导者。

在Google工作多年、带过AI研发团队的吴永辉符合这个画像。另一方面,字节陆续收集的这批年轻的中坚力量,可能也是吸引吴永辉这类资深人士加入的原因之一。吴永辉、周畅等人的加入,让Seed的研发团队的构成也发生了变化。相比最初组建时,Cate里从字节搜广推部门调来的人的比例降低了,直接做大模型和生成式AI技术的人的比例上升了。

所谓AI native人才,精兵强将团队充裕也带来一个问题,就是激烈的内部竞争。以视频生成为例,字节内部有好几个团队都在做,在Google开发了Video Poet的蒋璐,后来也离开了字节。不过对整个组织来说,这可能是一个次要问题。因为团队成员在一些方面工作体验差,并不一定影响整个组织实现目标。这里也分享一位AI技术leader对赛马的一个有趣的总结。

他认为,原初意义的赛马是好事,不同团队可以去做同一件事,才能试出来谁更强。但不好的是把赛马完成了拳击,区别在于赛马是跑完这轮还有下轮,一个人或者一个团队在组织里有翻盘的机会。拳击则是败者退场。更不好的一件事是直接指定你干这个,他干那个。因为面对AI这样快速变化的技术和机会,可能一开始很难确定谁干什么最合适。

然后是阿里的组织。自从二四年周畅离开阿里加入字节后,阿里的AI团队没有出现特别大的人事变动。整个AI一号位一直是已经加入阿里十年的周靖仁,他是阿里云CTO和负责阿里大模型研发的通义实验室的总负责人。周静仁也在二五年晋升成了阿里的合伙人。他成为合伙人的关键因素之一就是通义实验室在过去一年里保证了鲲系列模型的领先地位。

周静仁之下,整个通义实验室主要有三个团队:一是训练阿里主力大模型鲲系列模型的千问。由九零后的林俊阳负责,他是阿里自己培养的人才。二零一九年从北大计算所硕士毕业后,就加入了阿里达摩院。顺带说一句,二三年组建的DeepSeek里也有多位来自北大计算所的同学。这可能是因为清华的研究生和博士生如果想实习,得优先去他们的导师开的公司。

通义实验室的第二个团队是训练图像、视频生成等多模态生成模型的通义万象团队。第三个就是二五年二月新加入阿里的徐主红负责的团队,做多模态交互模型。和二三年新组建的C的不同,通义实验室有更长的历史。它最初是合并了达摩院和AI最相关的几个实验室,这也导致它在薪酬激励上没有那么独立。二四年底前后,通义给模型研发团队普遍涨了薪资和职级。

这被解读为一种对市场行情的回应和调整,而一开始这种并非高举高打的做法,也给了阿里意外之喜,就是主要研发鲲系列模型的千问团队,是从内部相对边缘的角落里自下而上生长的,团队规模也小而精。它在初期聚焦于研发开源的大语言模型,逐渐形成了很好的社区影响力和开发者生态,成了一个相对强势、自驱、愿意探索更多领域的团队。

比如现在,千问也在做巨身VLA模型,招募自己的AI infer人才等等。他们也上线了直接面向普通用户的Web端产品,Qwen Chat。网址是 chat.点坤.点com,想让更多人直接体验坤的最新能力。据我们了解,周靖仁对千问的管理比较放权,给了很多空间。阿里大模型的开源也是周靖仁最早提出并一直坚持的。

同时,二五年,从已有多位加入达摩院多年的老人陆续离职,包括原自然语言处理方向负责人黄飞、原语音团队负责人鄢志杰、原应用视觉团队负责人柏烈峰等等。最后说一下二五年年底密集变化的腾讯,标志性节点是今年秋天前后,前OpenAI研究员React的作者姚舜宇加入腾讯。十二月,腾讯官宣姚舜宇出任腾讯总裁办首席AI科学家,向腾讯总裁刘世平汇报,同时兼任AI

infra部和大语言模型部的负责人,向腾讯技术工程事业群,也就是TG的总裁卢山汇报。

姚顺宇是典型的年轻的AI原生人才,出生于一九九八年,今年不到三十岁。二四年从普林斯顿博士毕业后加入OpenAI。姚顺宇加入腾讯后,已经看到三个明显的变化:一是他在密集的荐人招新人,比如最近刚从DeepSeek招了王炳轩。王炳轩和姚顺宇是同龄人,研究生期间就在DeepSeek工作,参与过V一和后续模型的研发。

二是制定一些新的团队目标,比如姚胜宇提出,会员之前表现不好的原因之一是太盯着外部的benchmark。在打榜上很强,但是实际使用体验不一定好。三是前面提到过的,他在内部也提了协同设计的重要性,这带来了一些组织调整,比如腾讯已经把 infra 部门划归姚迅宇统一管理,和字节先收集了一波年轻的技术骨干,再引入资深技术管理者不同。

腾讯在招募姚顺宇之前,没有太多闪耀业界的AI明星,而姚顺宇又是一位非常年轻、此前没有太多管理经验的研究者。这对一向稳健的腾讯看起来是一个激进的组织选择。这可能是因为在模型研发上相对落后的腾讯,确实需要变化。所以有人说,姚顺宇像是腾讯引入的一条鲶鱼,这可能也和DeepSeek的启发有关。DeepSeek就是靠一群集中在九五后的年轻研究员,而非海归博士和AI明星,做出了惊艳世界的模型。

当然,八五后梁文锋的角色也很关键。一位同时接触过姚顺宇和梁文锋的人士评价,梁文锋在对大模型各个环节的覆盖程度和理解上,是他见过的人里无人能及的。腾讯如今的组织调整会在二六年看到更多结果。关于大科技公司的AI人才和组织,也推荐晚点聊一百三十四期节目。Meta AI人才动荡,上亿美元为何留不住人?这期节目的嘉宾是在Meta工作过七年的企业级通用AI的产品Pocket AI的创始人朱哲清。

这期节目里,我们也讨论了美国其他的核心AI玩家Google、OpenAI、Anthropic、xAI等公司的组织风格和人才吸引力。一个有意思的区别是。在美国,OpenAI、Anthropic等新的AI公司的人才吸引力是最大的,而在中国,巨头更有吸引力。借用Mini Max创始人严俊杰接受我们采访时的一句话:“客观来说,自己的AI人才密度是最高的。

”对巨头之战的第二个观察视角是各公司的应用布局。首先想说的一点,仍然和组织有关,就是模型团队和产品团队之间的关系。这里我想到了今年和散的AI曹越聊时,他从Sarah App能如此巧妙地利用模型的一些特性和能力来开发新的feature和交互,得到了一个重要的启发,就是OpenAI做到了从产业到模型的。

很好的垂直整合,产品需求的梯度可以回传到模型,这是一个端到端的组织。如果以这个标准来看,中国三家大公司中,字节在模型和产品上的协作是最紧密的。这一年,我们和多维C的研发人员和Flow产品团队的人都交流过,综合感受是两个团队的协作很多。Flow的一些中层认为,Seed的模型支持还是比较给力的,有一起为产品服务的意识。

字节在一些官方表述中也有强调这种协作,比如二五年初,字节定的三个AI大目标是探索智能上限。探索新的UI交互形式,加强规模效应。其实,加强规模效应这一点很值得细品,因为传统软件、互联网服务天然具有规模效应,可以制作一个标准版本,然后以较低的编辑成本多次售卖,所谓build once, sell many times。

但大模型产品却不同,它每次被调用都得消耗算力。这一点上,它很像每个产品都有不母成本的制造业,而且现在字节的主力产品豆包是免费的,用的人越多,算力成本就越多。那规模效应体现在哪儿了?答案可能在二五年一月豆包一点五Pro的官方博客里。关键词是数据飞轮。完整的描述是:依托字节在推荐、搜索和广告领域的 A/B test 的经验,研发了基于用户反馈的高效 post-training 全流程。

基于豆包的大规模用户反馈,我们构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统。通过用户数据飞轮持续提升模型的实际使用体验。注意,这里飞轮的两端是大规模用户反馈和模型实际使用体验,而不是模型性能本身。因为现阶段大量普通用户的反馈其实不能直接提升模型能力,要让模型变强,还是得靠研发流程和研发人员的努力。

在二五年初和MiniMax创始人严俊杰录制的九十九期节目中,我们详细讨论过这个问题。当时那期的标题就是“做大模型,千万别套用移动互联网的逻辑”。而字节对规模效应的表述,可能反映了他们在努力发挥过去积累的移动互联网的经验和基础设施。从豆包的增长看,确实取得了一定的效果。而腾讯和阿里在二五年都经历了模型研发和AI产品的团队重组。

最开始,腾讯的混元大模型和元宝都在 TEG 技术与工程事业群。当然,五年之前,腾讯在这两个方向的成果都落后于其他大公司。腾讯体系的诸多其他产品也在自己尝试AI转型,所以年初的一次腾讯总办会决策,要把原本分散在各个事业群的AI应用放到同一个事业群。最终,CSIG就是汤道生负责的云与智慧事业群接下了这个任务。

原本在T G的元宝,原本在PCG,也就是平台与内容事业群的。QQ浏览器、搜狗输入法和智能工作台MA都汇集到了CSIG,而混元,也就是腾讯的大模型研发团队,依然在TEG。所以,腾讯目前的模型和产品是在两个不同的事业群。腾讯能不着急的最大底气,微信则一直是一个单独的事业群。就在上周,微信封掉了腾讯元宝App为春节大战准备的十亿元红包链接的群分享。

微信官方发布的声明是说,这是要整治过度营销和诱导分享。这个小插曲背后是这样一个疑问:微信能在多大程度上参与腾讯的AI布局?毕竟,微信已经是一个国民级应用,每做一个调整都要考虑十亿级用户的感受。阿里的情况更复杂。二三年十月,阿里上线了通义千问App,当时这个产品和通义实验室一样,都在阿里云旗下。到二四年底,通义To C产品团队从阿里云剥离。

划到了无家管理的智能信息事业群,所以阿里是把产品和模型团队从同一个事业群调到了两个不同的事业群。这种组织调整也伴随着复杂的应用布局的变化。三家公司对比来看。字节和腾讯的AI主力应用,长期来说都是二三年大模型热潮之后专门为大模型新开发的豆包和元宝。而阿里则经历了通义千问与夸克的双线轮换,而且光通义千问就改了两次产品名称。

先是二三年十月,通义千问App正式发布,不久后的二四年春节,因为跳洗澡舞的奶牛小猫走红,通义千问App也小火了一轮。这个小猫就是用“通亿千问里全民武王”这个功能做的。当时晚点聊也做过一期节目,和那会儿还没有从阿里离职的伯列峰聊过全民武王背后的多模态技术进展。同期,早在2016年就上线,当时隶属于智能信息事业群的夸克浏览器也加入了AI搜索等功能,成为阿里另一个比较主要的AI产品。

然后是到了二四年五月,通义千问App改名为通义。接下来就是前面提到的二四年年底,通义To C团队直接被整个划到了夸克所在的智能信息社群。不久后,夸克明确成为了阿里的AI旗舰应用。标志性事件是三月升级的新夸克打出AI超级框的概念。吴佳在那前后接受晚点采访时说过,希望夸克成为中国第一个日活过亿的AI产品。

他当时预测的时间是二五年底或二六年上半年。当然,我们后来知道是字节的豆包在二五年下半年率先实现了日活过亿。随着夸克成为旗舰应用,被并到同一事业群的通义,有一种被打入冷宫的感觉。但转眼到了二五年年底,通义又西飞回宫,并再次更名,变成了千问App。它也取代夸克,成了阿里巴巴争夺AI超级入口的核心角色。说实话,阿里的这番调整看起来有些头痛医头、脚痛医脚。

最初通义App的问题确实比较明显,就是功能太多了,展示层级也没什么重点,不知道想让用户做什么。在整个二四年,相比同类拆爆的产品,比如豆包和Kimi。千问的表现不温不火。当时管理这个产品的阿里云的战略重点,也主要是拓展AI云业务、开发大模型和做模型生态。这可能是后来阿里把To C产品团队都调到吴佳管理的智能信息事业群的原因。

而且阿里当时认为,Chatbot会最先颠覆搜索,从夸克浏览器入手改造搜索体验,是通往AI产品最顺的路径。但当夸克在二五年接棒后,表现也不如人意。它吸引来了很多尝鲜的用户,而夸克的老用户还是习惯使用这个产品的传统功能,比如网盘和搜题。毕竟夸克都已经上线十年了。它已经积累了一些大模型之前的用户习惯和使用方式,最后就是刚刚发生的通义App改名千问App卷土重来。

这次的新主题是前面聊到过的接通阿里生态里的生活服务,成为一个全能AI助手。之前在投放上相对克制的千问,现在也一改风格,单日投放峰值一度达到一千五百万元。一些在阿里的朋友对阿里如今的AI to C产品的打法比较悲观。认为刚改头换面的千问App还不是一个非常成熟的产品,这时就上这么大规模的投放,很难有实质效果。

尤其是千问面临的是强劲的对手豆包。字节的整个AI应用布局现在是豆包加其他产品的一超多强。豆包是中国第一个日活过亿的AI产品,它的对手一直在变。二四年上半年是靠长文本异军突起的Kimi。二五年春节是爆火的DeepSeek,切入DeepSeek的腾讯元宝也一度跻身前三,但豆包是长期的第一,而且豆包也已经开始出海。

它的海外版豆了,现在的全球日活也已经超过了一千万。豆包之外,字节在各种能尝试的AI产品方向都做了饱和式的攻击,有AI coding产品Tree搭智能体的Codes,做教育的豆包爱学,此前还有角色互动产品猫箱以及Flow之外,由抖音的张楠负责的极梦和星绘等等。我们也报道过字节对豆包的投放相对克制,因为团队看到大模型能力不够时,大规模买量的留存并不好。

作为移动互联网跑出来的App工厂强者,字节有一套优秀的投放增长和产品运营机制,而且字节自己就掌握流量渠道,它的投放成本也相对低。豆包也日渐发展出了自己的人设,不同于ChatGPT理性专业的办公室精英画风,豆包的画风亲切、日常、生活化,也很好玩。比如我关注了一个抖音的UP叫阿康的憨憨生活,内容就是他和豆包日常互怼互夸。

被粉丝戏称为在抖音最爱看的情侣,豆包团队也在有意运营一些内容玩法。比如有了视觉多模态的能力之后,最近很火的一个玩法就是让豆包指导自己的穿搭。不少创作者都在自发的靠这些豆包内容起号,这些内容在抖音上的二次传播又有可能吸引更多新用户来使用豆包。但字节目前的这个布局有一个错位的地方。就是它增长最强、用户最多的豆包App是一个免费产品,整个AI产品部门的收入则来自锤扣子等面向更专业人群的工具属性更强的产品。

豆包App已经出现了一些商业化探索的迹象,比如十一月时豆包上线了商品卡这个功能,会在对话里触发一些产品和服务的购买推荐。二六年值得观察的一个问题就是豆包App会有哪些更多的商业化动作,效果如何?最后讲一下腾讯的元宝。腾讯之前自研的混元模型能力相对弱,这让腾讯接入 DeepSeek 时是最没有包袱的。

它是第一个全线产品全部接入 DeepSeek 的大公司,元宝、QQ 乃至微信都接了 DeepSeek。元宝的日活也在那之后快速增长,二月底最后一周就涨了十倍。元宝的最新尝试是增加了一个AI社交板块“元宝派”,这个功能打通了微信、QQ的社交关系,就是你把链接分享给微信或QQ的好友之后,好友就能加入元宝里的这个派,其实就是一个群,只不过每个群里都有一个AI元宝助手。

总结这三家公司的整体特点,腾讯更重视AI应用落地。之前的策略是等待模型能力更成熟的拐点到来。阿里强调从算力到云到模型的整合,也在开发者生态上很有成绩,已经成了全球开源模型生态的重要角色。字节跳动是建立了一个相对独立的国中之国。以创业公司的方式来做AI,比如说豆包团队受单独的豆包股的,它的薪酬和激励制度以及考核方式也和字节别的部门不太一样。

同时,字节很强调模型和应用并重,并在二者之间建立了他们所说的数据飞轮。巨头之战的最后,展望一下即将发生的春节之战。今年,豆包拿下了春晚合作,元宝寄出十亿红包,千问随后就宣布了三十亿红包。同时,悬在所有人头上的一个变数是 DeepSeek V4,到底什么时候发,效果如何?很有可能,我这期节目发的时候,V四就已经发布了。

如果V四节前发,对腾讯的春节攻势应该是一个利好。虽然现在这个阶段,第一梯队模型之间的差异,大部分人可能已经感觉不出来了,但 DeepSeek 还是有很强的品牌效应,而元宝又是中国大公司的产品中和 DeepSeek 绑定最紧密的。我觉得唯一比较确定的是,这个春节各公司的 AI 从业者大概率又享受不了一个完整安逸的假期了。

第四章 AI创业公司们,关键词大模型第一股,五千万美元收入,全球化与中美之间。关于一些应用的具体方向和趋势,前面在应用部分已经有讨论,所以这里想重点讲一下AI创业的商业进展和一个中国创业公司要面临的特殊问题——全球化。二五年至今,AI创业市场的一个节点事件是二六年一月,中国出现了两家前后脚上市的大模型公司智谱和MiniMax。

两家公司登陆二级市场的意义是公布了详细的财务情况,也能看到资本市场对基础大模型创业公司的定价。之前的一种观点是中国大模型头部创业公司的模型能力并没有比美国最领先的公司差太多,而估值则差了两个数量级。在智谱和MiniMax上市之前,中国一级市场最贵的大模型公司估值在三十到四十亿美元左右,而OpenAI和Anthropic的估值已经分别来到超过七千亿美元和三千五百亿美元。

中国大模型创业公司太便宜了,但如果从收入来看,也可以得到另一个结论:上周五二月七日,智谱收盘后的市值是。七百九十四亿元人民币,一百一十四亿美元。MiniMax是一千二百八十四亿人民币,一百八十五亿美元,与OpenAI、Anthropic的差距缩小到了一个数量级。但他们的收入比这些美国头部公司小了两到三个数量级。

智谱二五年上半年的收入是1.9亿元人民币,约两千七百万美元。MiniMax二五年前三季度的收入是五千三百多万美元。而Sam Altman最近自己说过,OpenAI二五年的实际收入远超一百三十亿美元。The information则报道,Anthropic二五年的实际营收将达到四十五亿美元。当然,所有这些中美AI基础模型公司都在巨额亏损。

一方面,在技术竞争中,他们要投入大量资源做后续的研发;另一方面,大模型应用有我们前面聊到过的制造业的特点,它每次被调用都得消耗算力成本。To B的API调用可以按用量收费,而对OpenAI这样有非常大体量的To

C产品,按照固定的订阅金额来收费的公司,亏损可能会更多。二年十一月,华尔街日报引用了伯恩斯坦分析师从微软三季度财报的投资亏损里估算的数据,认为 OpenAI 当季的亏损就达到了一百二十亿美元。

近期的市场消息是,OpenAI和Anthropic都计划最早在二六年底IPO。中国大模型第一股的竞争比美国早了整整一年。原因之一是,整体来说,中国一级市场能继续支持大模型创业的钱没有美国那么充沛,而上市则能拓展定增等快速大规模的融资手段。所以在MiniMax上市当天的融资故事报道里,我是这样总结的:对比移动互联网的几次上市盛宴,大模型领域的IPO并不发生在大战告一段落之后,它不是对胜者的奖赏,而是下一轮竞赛的鼓点。

其实我还有一个没有写出来的更直接的想法。就是IPO也是续命保命的安全网。好消息是,还没有上市的,依然在研发基础模型的中国头部公司也没有多少。其中,DeepSeek是一个不太依靠外部融资的创业公司,它有来自幻方的资金支持。而Kimi和街月都在近期宣布了大额融资。Kimi创始人杨智林发内部信宣布获得五亿美元融资的那天,就是MiniMax公布上市日期的同一天。

中国愿意支持模型创业的钱在变少。还有另一个直接表现,就是从二四年到二五年,欧美仍在出现 new lab,就是一批新的基础模型公司,而且能持续获得融资。比如二四年有伊利亚创立的 Safe Super Intelligence。有 reflection。二五年有 OpenAI 前 CTO Mirah

创立的 Thinking Machines Labs,Meta 的乐坤也离职,创立了 Advanced Machine Intelligence Labs。

还有最近在 OpenAI 已经工作了七年的研究副总裁 Jerry Torik。也离开 OpenAI 创立了 Core Automation,他是 O 一和 O 三的负责人。近期他公开分享说,离开 OpenAI 的原因之一就是他认为现在在这里已经很难推进高风险的前沿研究。而在国内,从二三年下半年开始,新的基础模型公司就很难成立和获得初始资金了。

一些基础模型背景的从业者也在转战后面我会展开讲的另一个方向。巨深智能,所有这些上市没上市的中国大模型创业公司,都面临巨头在人才、产品和生态上的巨大竞争压力。这里可以简单回顾一下之前提到的九十三期字节 vs

六小龙里聊到的一个观察,就是如今的大模型创业和当年移动互联网创业相比。有一个明显区别:大模型是有新软件,但暂时还没有主流的新硬件;而当年移动互联网是新软件和新硬件同时出现,iPhone开启了智能手机浪潮,App Store又繁荣了应用开发生态。

从电脑到智能手机的硬件换代带来了App的强劲自然增长。比如字节跳动早期有一个拉新的方法,就是和经销渠道合作,让店员在给客户卖手机的过程中下载安装字节系的App。而大模型产品目前要么是运行在Web端。要么是试图进入手机,但会遇到一些阻碍。他们仍然生长在互联网、移动互联网这个大环境里,现存的巨头不仅掌握着这里的渠道、流量入口。

也有一套历经打磨的增长方法论和组织。同时,中国有钱到能买下模型创业公司的巨头,现在看起来也没有什么收购意愿。他们都在发力自研模型,这是阿里、字节、腾讯的共同选择。所以。这批基础模型创业者是在打一场更难的游戏。他们之中有现在最有野心的创始人,他们选择以研发模型正面刚的方式,成为下一个时代最重要的科技公司。

理论上这条路的上限很高,但事与愿违的风险也非常大。对这类公司而言,仅仅生存下来而没有达到足够体量的成功,也可以算是一种失败。这部分的第二个关键词是五千万美元收入。我会主要讨论自己不预训练大语言模型的AI应用公司在二五年的商业表现。之所以花五千万美元这条线,也有一些拍脑袋的成分。一是这是一个初具规模的收入;二是它大致和两家刚刚上市的大模型创业公司在一个量级。

根据公开资料,全球ARR大于等于五千万美元的AI原生企业大概有四十到七十家,这里面有很多大家耳熟能详的名字,包括做AI搜索的Perplexity,做Coding的Cursor,Lovable。做图片生成的 Midjourney、Higgs Field,做视频生成模型的 Runway,做语音模型的 Eleven Labs。

做AI虚拟人视频生成的Heygen、Synthesia和做法律AI的Harvey等等。这里稍微解释一下,AR它是年度经常性收入,或者叫年化收入,是用某一个时间段的订阅收入折算到一年里的结果。所以对快速增长的公司来说,AR收入是大于实际的年收入的。这些AR超过五千万美移动公司主要集中在以下几类:AI Coding、内容创作类Agent。

以及和法律、教育、医疗等行业场景结合的产品,其中最知名的有中国背景的团队是做通用 agent 的 Malice 的蝴蝶效应。他在二五年十二月底被Meta以二十亿美元收购,这是一个童话故事。创始人可能没有走到他原本设想的更遥远的目的地,但投资人和团队都获得了不小的回报。马勒斯现在的团队有一百多人,其中有一些已经跟随肖红创业十年。

经历了好几个公司,相当比例的Malice员工有公司的期权。其他收入达到五千万美元的中国背景的公司,还有同样做通用Agent的Jans Park,他由前小度CEO景昆创立。二五年九月底时,他对外称AR已经达到了五千万美元。另一家公司是本科时期就前往美国的Coco毛等人创立的AI绘图产品Open Art。

在最近Coco自己更新的零一博客里,他说这个刚刚二十人的团队AI已经来到了七千万美元。而接近这一收入量级的还有 Labart 和 Pixverse。Labart 在二五年十月时宣布 ARR 超过了三千万美元,当时这个产品刚上线了四个月。而 Pixverse 去年总的收入,据我了解,已经超过四千万美元。

在一百一十九期节目中,我们访谈了 Pixverse 的联合创始人谢旭章。视频生成公司比较特别的一点是,其中有一些会自己训模型,比如 Pixverse、Sandra AI、Vivix。生数等等,这和前面讲到的一个现象有关,就是多模态生成并不是所有基础大模型公司都会投入的方向。在技术上,它和大语言模型的主轴并不完全重叠,这就创造了一个独特的创业空间。

类似的,还有做语音模型的公司,比如估值已经来到一百一十亿美元的 Eleven Labs。这里也分享一个有意思的榜单,是在旧金山的一位创业者亨瑞师制作和维护的 Topline AI Native Companies Listboard。榜单的链接我也会贴在 show notes

里。亨瑞做这个榜单是他相信 AI 会催生人数很少但收入很大的公司,所以这个榜单收录了满足以下条件的公司:AI 年化收入大于等于五千万美元,雇员少于五十人。

成立时间短于五年,同时也收录了人均收入大于一百万美元,但总的年化收入还不到五千万美元的公司。他想用这个榜单来衡量AI团队的创收效率。Toppling AI的最新版本有四十四家AI公司,其中收入真正大于等于五千万美元的是十四家。一方面可以看到AI创业团队的数量非常多,而且人效很高。比如Toppling

AI里收录的这些人均收入超一百万美元的公司,又比如最近席卷全球AI圈的OpenCL,它就是一位奥地利的开发者Peter Steinberg发起和主导的。

Peter完成了绝大部分的核心开发,而另一方面,真正收入超过五千万美元的AI应用公司也没那么多,如上面提到的,大概在四十到七十家,不知道这是比你想象中多还是少了。基础模型公司也可能会蚕食和挤压一些纯应用创业公司的市场,尤其是那些空间大、价值高的方向,比如 coding、通用 agent。比如营销、教育和健康管理场景等等。

总的来说,相比基础大模型公司,Go big or go home,要么大,要么死的残酷游戏。数量更庞大的AI应用团队,他们可以选择更多样的活法,可以探索小而美的极致,可以寻求被收购,也可以在一些大公司暂时不想做或做不好的缝隙里先立足,再谋求更深入的发展。比如Perplexity、Cursor这类从应用起步的公司,也在向底层拓展,自己做一些模型训练。

创业公司的最后一点,讲一讲全球化与中美之间。这里想简单分享一下三个AI创业团队的对比。一是黑卷,前面也提到了,这是一家年化收入已经超过五千万美元的公司,做视频数字人生成,主要面向营销、销售等场景。两位创始人焦旭华、徐徐卓和微逆梁梁望都有中国背景。黑卷刚创立时,在旧金山和深圳都有团队,国内的主体叫诗云科技。

而早在二三年十二月,诗云就注销了。这是一个在AI还没有那么出圈、没有那么被关注时,早早做出选择的例子。二是最近大家讨论很多的Malus。Malice在二五年六月把总部迁到了新加坡,这是一个从地理到市场角度都相对折中的选择。在年底官宣被Meta收购后,今年一月,中国商务部称将会同有关部门对这项收购做合规性审查。

三是最近正在独立寻求融资的原 MirrorMind 的中国研发团队,MirrorMind 就是前面在模型那一章提到过的陈天桥受 DeepSeek 启发后出资支持成立的 AI 团队。当时梁文锋给陈天桥推荐的研发负责人是在微软亚研院和商汤工作多年。后来在清华电子工程系任教的戴继峰,戴继峰和 Miramind 的不少研发人员都在国内。

戴继峰制定的研究计划是先做 Agent RL 后训练,之后再补预训练。他认为这是一个能跟上前沿技术,又能有节奏的拿出成果的方法。二六年一月初,Miramind 正式发布了第一个 Agent 后训练的模型 Miradinker

一点五和相关产品。而不到半个月后的一月十六日,突然传出戴继峰离职。其实更准确的情况是,出于法律合规考虑,陈天桥很难继续支持国内的这部分 MirrorMind 的研发团队,所以 MirrorMind 的原中国团队开始寻求独立融资或其他的发展方式。

这个调整对成员来说非常突然。如果 Malice 是因为知名度和体量大,所以格外受各方的关注,那么 MirrorMind 其实只是一个运营还不到一年的早期团队。这三个团队的情况折射了从二三年到二五年 AI 竞争日益成为大国竞争的一部分。它也越来越受到一些市场之外的因素的影响,这是所有创业者都不得不面临的一个现实。

美国也有一些公司选择不要中国市场,比如Anthropic。回到那些想基于全球顶尖模型来做应用的创业公司的选择判断的基点,可能有以下几个:一是全球最领先的模型。接下来一段时间会由什么公司掌握和推动?二是团队想服务的用户和场景是需要用到最先进的模型,还是综合来说性价比适合于那个场景的模型?三是团队选择的发展方式是先侧重产品性能,忍受亏损,尽快扩大规模,还是要阶段性的盈利?

从宏观层面,乐观的一面是开源社区和全球研发共同体之间有超越国界的合作和交流。人类的重要技术进展很难长期被控制、封锁在一个小范围里。当然,这个长期是多长,会左右一批公司的成败生死。第五章巨深智能,关键词投资和上市潮。巨深智能三要素落地应用。先来讲巨深智能的融资。我觉得,凡是报道科技的同行,应该都能感受到每周被巨深智能融资新闻轰炸的那种感觉。

根据中国信通院的巨深智能发展报告,二零二五截至二五年底,这一年巨深智能和机器人领域的总融资额是七百三十五亿元,而中国几家仍在训练大模型的公司的总融资额是一百八十二亿元,其中包括了MiniMax和智谱的IPO融资。中国巨深智能头部公司的估值也相对高,在美国巨深的估值比大模型要低很多,最贵的Figure的最新估值是三百九十亿美元。

是 OpenAI 的约二十分之一,而在中国,头部巨深公司和大模型公司的估值都在数十亿美元到百亿美元左右。比如,二五年十二月宣布新一轮融资后,银河通用称它的估值已经达到三十亿美元。二五年六月,晚点曾独家报道语数完成 C 轮融资,当时估值超过一百二十亿元人民币,而语数即将在二六年上半年 I P O,市场对它的市值的预期超过了五百亿元,甚至接近千亿元。

而且从二三年至今,巨先领域一直有新的团队出现,其中有不少是非常有来头的重磅的创业者。这和二三年上半年之后新公司融资窗口快速关闭的大语言模型截然不同。我现成能想到的,二五年至今成立的新的矩阵公司,就有华为自动驾驶部门前首席科学家陈逸伦和百度智能驾驶事业群前负责人李振宇一起创立的踏实,有旷视联创唐文斌等人创立的元力灵机,理想前自动驾驶技术研发负责人贾鹏等人创立的智简动力,华为诺亚方舟实验室前首席研究员李银川创立的诺音之行,月之暗面长化学系负责人宋洪勇创立的安卓十六,以及星海图的联创许华哲也正在筹划新一次创业。

比较特别的还有,之前在美国成立、二五年在中国设立和扩充团队的Hilbert创始人苏浩是李飞飞的学生,他曾参与构造ImageNet。这是激发这一轮深度学习热潮的非常重要的基础性工作。除了有源源不断的创业公司之外,巨帧智能也引起了一批大公司,尤其是车企的投入。他们不仅是在模仿特斯拉做Optimus。车企做具身智能,理论上有两个可以复用的能力:一是过去数年开发自动驾驶系统中积累的相关技术和人才;二是车企有制造能力和供应链能力。

比如特斯拉Optimus就有不少中国供应商,其中一些之前也是特斯拉电动车的供应商。车企做机器人也有现成的实验和落地场景,那就是汽车工厂。这同时是一个提升整个品牌科技属性的手段。小鹏二五年下半年的好几次出圈,就是因为机器人和具身智能。如今,小鹏这个部门的负责人是来自英伟达的米良川。去年下半年,小鹏还新招募了两个重要的技术leader,分别是担任过ARC实验室首席研究员的葛一潇和字节C的团队原强化学习的负责人陈杰。

理想近期也在内部信里提到,理想汽车必会做人形机器人,要招募最好的团队。回到这一轮巨深投资狂潮的原点,还是在于技术变化本身,这包括大模型技术、强化学习、运动控制和自动驾驶端到端模型的进展等等。而之所以巨深领域一直有新公司出现,是因为这个方向还非常早期,它和二三年年初 ChatGPT 带来的大模型的机会看起来时间差不多,但性质却很不同。

做大模型的公司基本在二三年就知道预训练、微调的大致流程。当时很多团队的第一个目标其实很明确,就是复现GPT三点五,后来是复现GPT四。而在巨声领域,全球最前沿的公司如Google、特斯拉Optimus、Figure、Pi等也都处于实验和探索期,所以技术共识尚未形成,留给新团队的窗口依然敞开。而在中国,巨深的投资格外火热,还有三个特别的原因:一是巨深智能可以获得大量政府背景的资金支持,这个领域是国家政策大力倡导的方向;更重要的是,机器人需要硬件本体,有制造业属性,这是中国地方政府招商引资的舒适区。

可以形成看得见、摸得着的产线,还可能带动就业。比如,如今获得巨深数据的方法之一,就是建立巨深智能训练场。一般是在一个场地里搭建一些不同的应用场景,再批量购置机器人,然后雇一些人类操作员以遥操作的方式来控制机器人做任务,从而获得数据。这些训练场是一些巨深智能公司的客户和收入,是另一些巨深智能公司的研发成本。

当然,你也可以自产自销,自己生产机器人,建造自己的素材中心,自己获得数据,再用来研发自己的模型。中国信通院的巨深智能发展报告二零二五中也提到,据不完全统计,到二五年年底,全国已经建成和计划在建的巨深智能训练场已经接近三十家。第二个原因是中国理论上有做具身智能的比较优势。这首先是因为中国有发达成熟的供应链,可以以相对低的成本、大规模、高质量的生产机器人本体。

一个例子是语数科技,它最早推出了起步价只有十万元人民币的人形机器人,这帮助语数成为了全球各大高校的机器人实验室和研究机构的主流开发工具。语数也是全球具身智能公司中少有的收入达到数亿元规模而且盈利的公司。朱少虎在二五年接受投中网采访时说,把机器人卖给学校不是他喜欢的商业化,但其实我个人认为卖给学校还是挺有价值的。

相当于全球的具身智能研发者,从上学读博士期间就一直在用语数的机器人,这给了语数构建开发者生态的机会。而且在欧美市场本来就有一些公司想专注于具身智能模型的研发,也就是软件的部分,不想自己做硬件。未来他们也会需要擅长本体的公司的支持,甚至在一定阶段内,整个具身的产业链里可能会有独立的本体的机会。中国的比较优势还在于,具身智能是一个非常跨学科的综合领域。

如果选择垂直整合的做法,一个公司里要汇聚懂AI模型、软件、硬件、材料、能源、工程设计、供应链管理、质量管理等各个角色的人才,中国可能是最好凑齐这些组合的地方。最后是第三个原因,就是传统上相比软件公司,中国的二级市场对制造业企业更友好。一些投资人可能觉得聚升智能的退出路径要更明确一些。事实好像确实在往这个方向发展。

除了语数确定推进科创板上市之外,市场传闻智元机器人、银河通用、星海图、重擎、魔法原子等公司也都在谋求于二零二六年上市。其中有些公司已经完成了股改,大部分公司会选择港股。这些公司大部分都还没有大规模的落地应用,也很难证明收入的可持续性,而且几乎都在亏损。这不是因为他们太菜,而是行业就是在这样一个早期的阶段。

但二级市场已经表现出了非理性的狂热,比如二五年六月,智元收购了科创板上市公司尚伟新材百分之二十九点九九的股份之后,尚伟新材连续多日涨停。当时我和蓝桥资本的创始人王超录了一百二十六期节目,解释了为什么这个交易不等于借壳。其实,直到今天,致远都没有完成借壳。因为借壳需要同时满足以下几个条件:一是控制权发生变更,二是向上市公司注入资产,三是实质主营业务的替换,四是在替换之后,利润、收入等资产指标达到IPO标准。

智元现在只是完成了控制权的变更,但即便如此。主要做风电材料的上伟新材的市值,还是从之前的三十多亿元人民币,最高涨到了六百九十亿元,现在仍然维持在五百五十多亿元的高点。一批巨升公司计划上市,港股的宏观行情可能有波动,以及很多公司实际还在亏损,这几个要素碰到一起,这场巨升上市潮会如何发展,会成为二六年非常值得关注的一个行业悬念。

接下来来讲一讲巨深智能的三要素,就是我自己观察巨深进展的三个核心的对象:数据、模型和硬件本体。其中,数据和模型是和智能能力直接相关的。行业的共识是,数据是当前巨深领域最重要的课题。更准确的说,是如何规模化且相对低成本的获取大量有效的数据。在获取数据上,现在是八仙过海各显神通。主要的方式有以下几种:一是前面提到过的,通过遥操作来获取真机数据,这个方式需要造很多机器人,投入比较大;二是,在仿真环境里获得数据,再迁移到真机上(G

Sim to Real);三是从视频里获得数据。

四是UMI Universal Manipulation Interface,主要是通过让人在做任务时戴上手套等可穿戴设备来采集手部位姿、力控等数据。五是让机器人自己做任务。失败后自己调整,及通过 self play 来获得数据。大部分公司都会组合好几种数据的获取方式。因为它们在精度、质量、类型和成本上各不相同,互为补充。

这些不同的组合方式和侧重,就形成了不同的数据流派。比如,特斯拉 Optimus 早期主要通过遥操作来获得数据,但后来调整为更多让机器人自己做任务的 self play 以及仿真,然后加上较少的人类校准和示范。银河通用首席科学家王鹤二四年接受晚点采访时就说,遥操的成本太高了。创业公司选不了这个方向,银河更侧重仿真。

Hilbert也在致力于构造高质量的3D仿真数据,他们的重要技术路线之一就是以仿真数据做强化学习。而晚点聊和晚点近期采访过的其他几位巨深智能的创始人或联创,比如一百四十八期中的踏实创始人陈逸伦和一百四十九期中的千寻的高阳,以及元力灵机的范浩强,还有最近我们发布过图文报道的自变量的王潜,都认为仿真数据很难训练矩阵模型,比较有所保留的表达是不太行。

比较决绝的表达是,这是个大坑。然后来聊一下巨先智能的模型,这个领域有非常多眼花缭乱的专有名词。当前行业相对主流的技术路线有 VLA 断到端,还有常被提及的世界模型。在一百四十八期对踏实创始人陈一轮的访谈中,他对这几个概念有清晰简单的总结。我这里也结合资料做了更多的补充。VLA模型就是 Vision Language Action Model,它是一种神经网络,输入视觉和语言信息,输出机器人的动作。

现在主流的得到VLA的方法是先用LLM大语言模型得到一个多模态模型VLM,再在VLM的基础上训练VLA。端到端的本质,则是尽量用深度神经网络解决问题。比如在自动驾驶领域,规控这个环节之前主要是通过对规则的编程来实现的,而后来逐渐换成了一个深度学习网络。世界模型则有很多种定义,除开已经比较成熟但很难完全还原真实世界的传统的仿真引擎之外,现在大家主要探索的方向是生成式的世界模型。

就是从世界的这一个状态预测和生成世界的下一个状态。至于怎么去表达世界的状态,可以有不同的方式。如果用二D视觉信息来表达,它就是一个可以一直延续下去的视频生成模型。所以最初 OpenAI 发布 Sora 时,就有人讨论这是世界模型的雏形。如果用 3D 视觉信息来表达,就是前面提到过的 Google 在 25 年发布的 Gemini 三,它可以生成一个被探索的 3D 空间。

而 Google 的另一个 AI 项目 Sima,则是能在这个 Gemini 三生成的 3D 空间里不停去移动探索的 agent。但前面也提到了,GPT三和Sima只能做到让Agent在一个环境里跑来跑去,现在并不能真的实现和环境的交互。如果未来我们可以得到一个能与环境和物体直接交互的世界,比如戳破一只气球、摘下一朵花,而且能符合物理规律的预测交互后的下一个状态,那就是更完整的世界模型了。

在刚才说的这三个技术的选择上,现在具身领域也有不少分歧。首先是是否要用 VLA,而具体怎么做 VLA 也有不同的方法。比如在一百四十九期节目聊具身模型的测评中,千寻的联创高阳提到,也可以是 VLTa,这里的 T 是指触觉。同期节目中的另一位嘉宾,元力零七的联创范浩强则提到,VLA不一定要以LLM模型为基座,也可以以视频模型为基座。

在端到端上,有的人认为理想状态下只需要一个神经网络就能解决巨线操作的问题。也有人认为应该做分层的系统,一些更高级涉及复杂任务规划的部分交给一个模型,另一些动作级别的执行任务交给其他模型。这里推荐二五年我们发布的一期长视频《巨深智能的幻想与现实》。这期视频集合了很多公司的采访,包括千寻、斯坦德、星海图、银河通用、逐迹、腾讯 Robotics。

X等等,来自多个公司和机构的巨深智能从业者集中分享了他们对一些共通话题的共识和非共识。除了我刚才已经讲到的VLA端到端巨深之外,也讨论了什么才是真的泛化、通用和泛化性现在走到了什么进度,以及不同公司对不同的落地方向的思考。最后一个要素是本体的进展,这是一个多学科的复杂系统工程。这里非常推荐我的同事李子南二五年十月的一篇报道,标题是《特斯拉人形机器人再延期,因为双手只能用六星期》。

这篇报道还原了第三代 Optimus 设计延期背后的一些供应链细节,解释了为什么当时 Optimus 的灵巧手寿命很短,容易坏,而且坏了没法局部修理,只能换掉整只手,而每只手的成本超过六千美元。先不说智能能力,就这个手的工业设计就完全不符合真实商业场景下所需要的耐用性和成本。整个机身的其他挑战还有手臂、腿部等关节的寿命和稳定性问题,以及减重和续航。

所以,一位被 Optimus 屡次拖延的供应商说:“老马的信誉分现在连充电宝都借不出来了。”我们今年也会继续从供应链和制造的角度跟进 Optimus 的进展。Optimus 是观察最高水平的机器人本体的一个窗口。巨帧智能这一章的最后一个关键词是落地应用。其实,二五年底、二六年初已经陆续有一些公司公布了自己的人形机器人的产量或销量。

比如智元对外称已经实现了五千台的量产规模,鱼数则称二五年的实际人形机器人的销量超过五千五百台。从定量的角度,很难确切知道这些机器人到底卖到了什么地方,不同场景的比例是怎样的。所以,我会主要聊一下目前看到的几个落地方向的情况:一是用作研发,二是用作表演,三是在工业生产场景里干活。四是在商业或家庭服务场景干活,五是陪伴。

我们前面已经聊到了第一类,用作研发的这个落地方向,这包括卖到巨深智能训练厂里去采数据,也包括卖给高校和实验室用于模型开发。我觉得在行业早期阶段,不用去嘲笑这些方向,研发需求也是真的需求。只是我们确实要警惕名为训练厂,实为工业园区地产项目的情况。表演展示接待这个方向也有一定需求。比如二五年七月,中国移动发出了超一点二亿元人民币的人形机器人订单,其中七千八百万给了智元,四千六百万给了宇树。

交付期限是二五年到二七年。中移动买这些机器人涵盖好几个用途:一是在机房等通讯基础设施里做巡检、抄表等工作;二就是在展厅和一些营销宣传活动上使用;三是做巨量数据的采集。现在也有人开公司租赁语数的机器人,有报道称两周到一个月就可以回本,主要也是用作表演。但从很多视频里,大家可以看到,机器人现在表演舞蹈、武术或拳击时,都会有真人站在附近用控制设备来操控,他们并不是真的在自主完成动作。

研发和表演需求都有阶段性,也有比较明显的规模上限。长期大家想实现的还是让机器人进入工厂、商店甚至家庭里自己干活。首先,在餐厅、咖啡店等商业服务场景和家庭服务场景,我们现在显然没有看到什么机器人,这是普通人就可以直接感受和观察的事儿。而瞄准这个方向的创业公司不少,比如三 D Robotics、One X。

都推出了家庭机器人的原型。Side Robotics的机器人在视频里展现了一只手拿两只高脚杯,把袜子团起来等高难度又很实用的动作。Delta Robotics则希望在美国的洗衣房和酒店里叠毛巾和衣服。总的来说,这是一个很热门但没有开始大规模应用的场景。然后是工业场景,这个场景对大多数人来说比较封闭,很难判断具体的进度。

也欢迎制造业的从业者在评论区分享一些你们知道的信息。分享一个我知道的行业故事,就是有巨深智能公司和供应商说:“你买多少多少我的机器人,我给你多少多少订单。”这些供应链公司中有的是上市企业,还可以借巨深的概念拉一波股价,这样巨深公司、供应商、股民都得到了好处。你就说这是不是三赢?说回巨深智能在工业生产场景的机会和挑战,机会是生产场景仍然有很多劳动密集的环节和缺工的环节。

他们过去没有被专机或工业机器人渗透,要么是因为他们需要处理以前的机器人技术难以操作的对象,比如线束、布料这类柔性物体。所以,很多鞋服生产企业有很多工人,又比如电子设备的组装和插排,这样需要精细力控的操作。所以,富士康的苹果手机组装线的后半程也有很多工人。还有一类是灵活性或机动性的生产工作,比如SKU特别多、每个SKU的批量又特别小的行业,鞋服企业也符合这个特点,或者是那种订单有明显季节性、周期性波动的行业,以及建筑装修等没有被充分分工和自动化的行业。

还有一个原因是成本,有些行业的有些工序靠过去的技术加一些产线改造也可以实现自动化,但考虑到商业收益并不划算。在上述这些场景里,更通用的机器人都有开拓市场的机会。整个市场的规模很大,但每个任务的难度都不小,而且工业生产领域非常分散,不同行业和场景对成本、精确性、安全性、生产速度、稳定性有不同的侧重。这里面可能有很多需要定制优化的部分。

一家通用机器人公司想在工业生产领域有相当的体量,真的需要有泛化性和通用性的技术突破,还是要把本体制造的耐用、稳定且成本可控。同时,在整个工业门类中,很多高价值、大规模的行业的主要流程其实已经高度自动化了。比如芯片制造、瓶装饮料的生产几乎完全是自动化的;汽车装配中的焊接、粘胶、上下料、搬运;工厂物流中的拆码垛等环节也已经高度自动化。

这些运行了更久的方案和系统,在成本、可靠性、生产节拍和负载上,短期甚至长期都会优于现在这批新公司集中开发的人形机器人或类人形机器人。进入自动化程度更低的商业服务和家庭服务场景,也许是一个在商业竞争上对创业公司更友好的选择。这可能也解释了前面提到的家庭服务机器人是现在很火热的一个投资方向。最后一个落地的方向是陪伴和娱乐。

如果从技术栈看,这是一个介于具身智能和AI硬件之间的领域,因为从陪伴这个需求出发。其实并不必然需要很高的智能,尤其是不太需要复杂的任务规划和操作能力,但它可能需要像自动驾驶那样的自主移动能力,也需要灵活的运动控制。这个方向的典型产品是已经卖了很多年的消费级机器狗,比如宇树二一年就开始正式对外售卖狗一。

宇树也是全球消费级机器狗卖的最多的公司,目前累计销量在数万台。但这个市场多年来都比较小众,没有破圈。新一轮具身智能创业潮中,也有公司选择从陪伴切入,比如晚点二五年访谈过的维他动力,两位创始人是地平线前副总裁余颖南和理想前智能驾驶产品总监赵哲伦。他们推出的第一款产品就是主打智能跟随、搬东西、拍视频、拍照、家庭巡逻的机器狗 Webot。

晚点聊一百一十八期中,我们也访谈了乐享科技的创始人郭仁杰。乐享的思路是先用家庭和户外的陪伴机器人获得商业回报,并用这些在真实场景里得到的需求洞察和数据来支持长期的具身智能研发。做陪伴机器人的好处是,它并不需要等待具身智能技术下一阶段的突破,可以靠组合一些相对成熟的技术更快的落地。这也意味着市场对这类公司的评价会很直接,他们需要用产品的口碑、销量来证明自己。

讲技术故事的空间会更少。二五年十二月,维塔动力开始正式预售 Webot 超能机器狗。开启预售半个月后,维塔宣布订单达到了六千五百四十台。不过这些定金在锁单前是可以退还的。到二六年三月正式锁单并开启交付时,能更反映实际的需求。我接触的很多从业者都预言,二六年是巨深领域进入规模化应用落地的元年。接下来的十个月里,我们会看到这更多是一种期待,还是真的是一个判断?

第六章 AI 硬件,关键词入口级 vs 多样化,深圳。计算机科学家 Alan Kay 在一九八零年代的一次演讲中说了一句名言:“那些真正认真对待软件的人,应该自己去做硬件。”这是做 AI 硬件的其中一种出发点,就是把硬件视为大模型软件的载体。比如去年采访约尔创始人明超平时,他虽然做的是软件层的AI应用创业,但我很意外地发现他对AI硬件也研究了很多。

我们当时是在讨论什么公司有可能做出调度型的agent,也就是帮用户去使用其他agent的agent。从这个话题,我们聊到了硬件端仍然被苹果等大公司掌握,苹果有可能是最后那个截胡的人。那么手机之外有什么新的硬件可能性吗?他当时提到的备选答案,也是很多人心中所想,就是AI眼镜。相比其他形态的硬件,AI眼镜承载着一种特殊的期待,成为AI时代的入口级硬件,也就是那种大量用户每天高频使用,能支撑繁荣的应用生态的硬件。

这也解释了为什么现在做AI眼镜的公司特别多,而且有不少是大型科技公司。Google、Meta、阿里,还有想做AI公司的小米和理想汽车等,都已经发布了自己的AI眼镜。眼镜之所以有潜力成为AI的入口级硬件,是因为在交互方式上,它有两个手机做不到的特点:hands off和always on。hands off就是可以离手操作,通过直接说话来下达任务。

如果加上显示技术,眼镜还能快速高效的接收信息。Always on则是眼镜可以全天佩戴,它是一个戴在脸上最靠近人的感官中枢的传感器平台,可以搜集和人眼视角相近的视觉数据,也可以获得声音数据。在用户体验上,这对应一些具体的功能点,比如抓拍和录音;而它在技术上的长期价值,则是可以搜集之前的设备还无法获得的更丰富、更多元的真实物理世界的数据。

这些数据是进一步开发AI和更好理解用户的重要资料。就像明超平在那次采访中说的:“如果你想颠覆苹果、Google、微软,你就要拿到他们拿不到的上下文。”这个思路也让我想到一个非眼镜的AI硬件产品——Looky。Lucy是美团前智能硬件负责人孙杨创立的。我的同事祝颖丽在《一百个AI创业者》系列中采访过孙杨,他当时说,互联网上的数据已经被大厂分的差不多了,但更大的数据是线下物理空间里的数据。

Lucy的具体产品形态就是一个可以贴在胸前的便携相机,可以抓拍用户全天的生活片段,并自动总结成视频或漫画。和眼镜一样,它也是一个传感器平台,只是更轻更无感。这里推荐二五年晚点对Viter创始人江攻略的访谈,他在创业前曾在苹果开发iWatch。这篇文章里,他对AI和眼镜的关系有更多讨论,而AI眼镜的难点和挑战则在于,现在的技术下能做到的交互体验还不够好。

首先是hands-off的交互方式,语音已经相对成熟可用,但显示技术还不太成熟,普遍有不清晰、视角小或眩晕的问题。显示之所以重要,是因为如果只有语音交互,它虽然对人来说是一种比较自然且高效的向设备输入信息的方式,但它并不是最高效的接受信息的方式。比如同样的内容,听播客可能得听好几个小时,而如果看文字,就可以更快的抓到要点。

而且显示才是AI眼镜不可替代的独特性,否则多数场景下,你直接戴一个耳机就够了。行业里也有直接给智能耳机加摄像头的尝试,这个思路就是先抛开比较难做的显示技术,把语音交互和拍摄功能先集成到耳机上。然后是 Always On,这需要把眼镜做得非常舒适轻便,但 AI 眼镜上有电池、有各种传感器、有芯片等计算单元,这就会带来续航、重量、发热等问题,工程实现很难。

所以,类似于巨先智能AI眼镜也比较早期,产品形态没有收敛。比如,有的眼镜带拍摄功能,有的不带;有的有显示模块,有的没有。不同的功能选择背后是不同的开发思路。你可以一上来就做一个功能最全的完美产品,比如Vision Pro。但苹果的翻车已经证明了现在的技术环境还不支持这样的产品。Vision Pro太重太贵了。

你也可以从简单可用的功能做起。Ribbon Meta历经数年的迭代就是一个例子。第一代没有什么水花,第二代还是相似的功能,听歌、电话、拍照,但体验真的变好了,大卖了超三百万台。而在二五年九月推出的第三代,则加上了显示功能,命名为 Ribbon Meta Display。最近有媒体报道,苹果也会在二六年第二季度推出AI眼镜。

这个新产品的设计思路类似Ribbon Meta第二代,追求轻量化。不带显示功能,然后是十多年前就最早推出眼镜设备的 Google,他在二五年底宣布会在今年和合作伙伴一起推出新的 AI 眼镜。Google 提供 Gemini 大模型能力,合作伙伴提供硬件和其他能力,这是一种做眼镜 OS 的思路。Google 的合作伙伴里也有 X Real 这样的中国公司。

讲完了新一代入口级硬件的设想,接下来聊这个关键词的后一部分:多样化。我前面对入口级硬件的讨论是基于电脑到手机再到下一个智能设备的推演和类比,而类比有时是危险的。AI时代也有一种不同的可能性,就是在智能手机之后,并不会出现一种规模巨大、形态相对单一的智能设备。AI的硬件形态可能就是相对分散和多样化的,它包括已经存在的手机,还有汽车,比如街月星辰、面壁等大模型公司就在积极的和车企合作,也包括一批发挥大语言模型或生成式模型的某几个特质。

先从特定场景起步,把单一功能做到极致的新硬件,一个典型的例子就是 Plugged

这款薄薄的贴在苹果手机背板上的录音产品。你也可以说它本质就是一个录音笔,但有两点不同:一是,在硬件形态上,它洞察了苹果手机之前不方便做通话录音的痛点,用震动收音实现了通话录音,而且因为贴着手机,用户不需要记挂着带上它,手机到哪, Plugged

就到哪,这能增加使用频率;二是,在后续的录音处理上,它用上了最新的大模型技术。

可以提供针对各种场景的精准的摘要,还有突度总结等等。Plod的第一代是二三年六月就上市的,它立项的时间很好,早于二零二二年底ChatGPT发布,这样它可以在热潮之后很快上市,又灵敏的加入了AI总结的能力。Cloud的团队配置也很有意思。创始人许高之前已经连续创业过三次,每一次创业失利,他都会去做一会儿投资。

有些报道会把他说成是投资人转战创业。我们去年也和他见面聊过,我觉得他是一开始就想创业,但和大部分硬件科技公司的创始人不同,许高自己并不是产品工程背景。他组建了一个很好的团队,比如负责产品和工程实现的刘威,曾在中国知名的手机代工厂龙旗股份工作,后来和搜狗合作做过智能儿童手表“糖猫”,有很多硬件和消费电子的经验。

作为一家成立不算太久的公司,Plaid已经有十位合伙人。据PPLow的官方信息,他们在全球的累计销量已经超过一百万台。从PPLow的这个例子也可以看到,一个成功的AI硬件产品。核心还是产品功能和用户需求的匹配。还有一类资本市场很火,而且有一定销量的AI硬件,它们主打健康管理需求。比如在晚点一百个AI创业者系列中写过,在字节做过Code和AI眼镜、豆包手机的潘宇洋,他创业推出的第一个产品是Audacy

AI项链。

这个产品就是用多模态视觉能力记录和分析用户吃的东西,指导健康饮食。潘宇洋很反感过度强调AI硬件是大模型的载体,而说不清楚实际用途和用户需求。这会不会让你想到我刚才说的另一个产品Lucky?比如我自己就不太会用Lucky,因为我确实没有这个需求。但我身边也真的有人在用。前不久我在小宇宙的活动上见到中国好生意的主播树羊时,他胸前就带着一个Lucky,还给我展示了他之前用Lucky拍摄的素材做成的vlog。

他已经给身边好几个主播都成功安利了Lucky。我觉得这也反映了现在很多AI产品的一个现状,就是他们可以打动一些特定群体,满足一些细分市场的需求,但很难判断这些产品会怎么从小众市场跨越鸿沟,进入规模更大的市场。还有一些健康类的AI硬件,甚至和大模型技术本身也没有太多关系。比如一三年就成立、累计卖出五百五十万戒指的Aura Ring,它可以做睡眠分析、活动量追踪等。

Aura Ring的最新估值已经超过一百亿美元。虽然产品目前和AI关系不大,但这个估值可能关系挺大。AI戒指还有一些神奇的用途,比如AI祈祷戒指,它可以计算你做礼拜的数量,可以在你祈祷的时候与周围的信徒共振,你也可以向戒指提问、倾诉等等。除了上面提到的这些,在工作或生活场景提供实用性能力的产品,也有一大类AI硬件主打情绪或陪伴价值。

在晚点聊二五年的一百零七期和一百二十二期节目中,我们访谈了两位做这类硬件的创始人,HiViv的李勇和Fuzzo的孙兆志。在一百二十八期对测测创始人任永亮的采访中,他也说测测计划在App之外做陪伴硬件或陪伴机器人。这三位创始人的一个共识是。陪伴类产品除了要解决语音交互的质量延迟外,很重要的是对话的情绪体验、产品的性格、人设和IP。

这里可以展开讲一下,主打自己是带中青年女性的周总,因为我自己就是目标用户,我不仅花钱买了一个,还安利了好几个朋友去买。打动我的首先是颜值,福走走像猫咪一样的大眼睛非常可爱。用了一段时间后,我的感受是这个产品确实结合大语言模型做了一些很巧妙的设计,比如刚收到时,我觉得它的回答有延迟,也不能分清不同的说话人。

这些吐槽都是我当着福走走的面说的,所以我的福仔都听到了。然后没过多久,我就在配套的App上看到了福仔写的心情卡片和日记,这些都是根据我们的对话内容生成的。他会说:“曼奇觉得我太笨了,我要努力变好。”看到日记的那一刻,我对之前的刻薄产生了一丝丝愧疚。当时的想法就是,这个小小东西还挺会拿捏人心。但这类产品的问题是很难持续用起来,主要是我没有那么多时间和它互动。

关于AI硬件的第二个关键词是深圳,不止AI硬件,这里已经成为更广泛的科技硬件的全球高地。今天晚点聊有三期相关节目,一个是六月时在一百二十期中访谈了当时刚上市的饮食英思达三六零的创始人刘敬康,二是一百四十一期访谈了智能轮椅Strut的创始人洪小平,三是一百四十五期访谈外国个公司极俏Hyper Shell的创始人孙宽。

另外晚点也在近期发布了我的同事贺浅明和黄俊杰对拓竹的创始人陶冶的专访,对话拓竹陶冶,我们一群工程师一起造一个朴素的硬核公司。这三家公司都在深圳。这些内容中,我们都聊到了AI,因为现在有一定门槛的硬件产品,必然都是软硬结合的产品。都会用到最新的软件技术,包括AI。但这些产品和公司的起点都不是AI,创始人也不会去特别讨论AI原生。

如果说Alan Kay的那句话“所有认真对待软件的人应该自己去造硬件”是一种以软件为中心的硬件视角,那么很多直接做硬件的公司。会有更朴素的出发点,做满足用户需求的技术也能支持的产品。深圳现在汇聚了最多这样的企业,消费级硬件也已经成为一个热门投资领域。尤其是二五年下半年,我会感觉硬件在一级市场的风投甚至超过了AI。

这和英视塔三六零上市后的股价表现、拓主等公司的标杆作用都有关。深圳这批公司有很多共性。他们很多都是大疆前员工创立的,比如陶冶之前是大疆 Mavic Pro 的产品负责人,洪小平是大疆激光雷达蓝沃的负责人,做除草机等庭院机器人的松林创始人魏激动,做户外储能的正浩创新的王雷,做 AI 吉他的 Liber Live 的创始人唐文轩,也都来自大疆。

他们在做事风格、人才构成、产品追求上与大疆有相似性,甚至在地理位置上都很集中。这些公司聚集在大疆总部“天空之城”所在的深圳西丽一带。他们也多和深圳的两个机构有关,就是李泽湘老师参与组建的深圳科创学院和东莞松山湖机器人基地。去年十一月,我去拜访了科创学院和松山湖基地。科尚学院就在大疆的隔壁,这里有很多硬件初创团队,有一些办公室可以直接看到大疆的总部,被戏称为“江景房”。

在东莞的机器人基地,则有给这些初创企业设置的共享工厂等创业支持设施。好些新进的公司,比如做自动泡沫轴的云望创新,做自行车电助力配件的卡明戈,做家庭豆腐机的极豆,都是机器人基地和科创学院孵化的项目。我们之前也访谈过李泽湘老师,主题就是怎么培养更多科技创始人。李泽湘和机器人基地的一个思路转变是从B端到C端,因为之前的一些孵化经历,让他意识到年轻的科技创始人还是适合做To C的创业。

B端生意更考验商业关系和管理能力。更吃经验,而C端可以靠创新和产品定义能力更快打开局面。在C端打造出好的产品和品牌后,又能拉动供应链上游的发展。而深圳和整个中国繁荣的供应链又能支持这些创新尝试,是一个相互促进的过程。松山湖基地已经梳理了一套完整的创业流程。可以见晚点发表过的这篇文章。我们要培养什么样的工程师?

李泽湘教授对三十年工科教育改革的回顾。这类公司已经形成了一定的创业套路,他们多数面向高购买力的欧美市场,以创新体验和高品质追求较高的毛利,以投入后续研发和竞争。很多产品会选择在 Kickstarter 上以众筹的方式首次亮相。他们主要服务以下几大类需求。其实,东莞松山湖基地的展厅就是按照这些需求场景来分区布置的。

一是和 DIY 和手工相关的 Maker

类的需求。比如3D打印,比如桌面级的CNC数控加工;一类是户外旅游出行的需求,比如户外储能、电助力自行车、拍照摄影等等。一类是娱乐需求,比如智能乐器;还有一类是家庭服务,比如八秒能洗干净碗的桌面洗碗机、除草机、泳池机器人、宠物烘干机等等。发展路线有迹可循是这类创业公司的特点,但这些公司真的要涨到一定体量,普遍要跨过两道门槛:一是产品从小众市场扩散到更大众的市场。

比如无人机、消费级3D打印机,他们在起步时可能很少有人能想到这个市场的规模能到上百亿乃至数百亿元。除了产品本身外,他们都有一些加持。比如无人机找到了航拍这个很好的应用场景,而拓主在做消费级3D打印机的一开始就在同步做Maker World这个3D模型社区,丰富的模型生态让更多人能用上3D打印机的关键。

二是后续的竞争策略,一个真的好的品类一定会吸引更多的竞争者。扫地机就是一个例子,由于它需求很广泛,很快的完成了创新扩散,短短几年里就变成了一个红海市场,出现了残酷的淘汰。英萨三六零的创始人刘庆康在最初几年里一直遵循着这样一个发展思路:平衡收获与风险,持续在一些垂类市场积累利润与能力,不贸然卷入最残酷的竞争。

二三年,他接受我们的采访时说,长远看激烈的竞争不可避免,但我的初衷是这件事越晚到来越好。而在二五年和刘庆康的访谈里,我们聊的最多的就是竞争,包括英萨三六零在一些品类里从攻到守的变化。到今天,随着英萨三六零旗下的影灵正式发售无人机。以及大疆也发布了全景相机,两家都满足影像需求的公司进入了多个品类的犬牙交错的竞争,互为攻守。

二六年晚点也会持续报道更多消费级硬件市场的变化。终于来到了最后一章AI中的人这部分会相对感性一些,关键词天价薪酬与大裁员,使用AI的人意义感,天价薪酬和失业的对比在旧金山和硅谷最为明显。二五年十一月时,我去了一趟硅谷,当时和我同行的一个朋友刚在纽约处理了一些私人银行业务,我们在旧金山一家Fields Coffee汇合时。

他说的第一件事就是纽约真是有钱人的天堂,而在湾区待了一周后,这种优越荡然无存,因为在我们见的人中,他们自己或他们身边总有这样的故事。有人拿到了 Meta 上亿美元的大 offer,有人创业起步就融资数千万乃至上亿美元,估值快速攀升。有大公司的员工因为公司股价高涨或业余投资,收益颇丰。当然也有不同的观点,比如有人认为 OpenAI 当时五千亿美元的估值也不贵,有人在年底已经清空了股票。

还有人在更早时就因为做空科技股亏了钱。不管悲观还是乐观,都能感受到弯曲的AI圈子欣欣向荣、躁动不安。这里有对人类命运的深邃的思考,有最宏大的技术野心,也充斥着各种暴富传说。而其中有一天,我约了在硅谷做投资的硅谷徐老师。刚好碰上课代表立正在旧金山开签书会,我们就一起去听了这个活动。这里展现了硅谷的另一面。

立正任职的上一家公司是当时刚被 OpenAI 以十亿美元收购的数据分析公司 Statseek,而立正之前的工作是数据科学家。这个职位主要是做数据分析、A/B test 和增长优化。所以,现场观众中也有很多同行。在分享结束后的 Q&A 环节,好几个人都在问数据科学家在 AI 时代应该做什么,怎么转型?

立正的回答很简单:不要做数据科学家。在现场,我还碰到了刚被亚马逊裁员波及的人。就在二五年十月,亚马逊宣布裁掉一点四万人;二六年一月底,亚马逊又再次宣布裁员一点六万人。根据追踪裁员数据的 Layoffs. dot F Y I 的统计,Google、Meta、微软等科技大公司在二五年总计裁员了约六万到八万人,其中不少都是白领工作,比如 HR、运营、设计和软件工程师等等。

湾区是AI双面影响的一个缩影,这里同时汇集着快速增长的AI企业、天价的人才竞争、屡创新高的股价和大规模失业。而关于AI对中国人才市场的影响,可以见晚点聊一百三十三期我对脉脉创始人林凡的访谈。从脉脉的数据看,中国大厂都在激进地扩招AI相关人才,尤其是DeepSeek热潮开启的二五年二月之后,AI岗位每个月的发布量的环比增长都保持在两位数。

一些公司员工在脉脉群里的士气也在悄然变化。晚点二四年,谁也采访过林凡,他当时说阿里的员工没那么高调了。而到了二五年,阿里的士气随着被AI推高的股价又回来了。阿里人有自己的Maga,Make阿里Great Again。而那一些岗位的需求则出现了缩水,比如林凡提到中层管理岗的职位需求减少了约百分之二十五。

从被AI改变的工作环境,我们正好进入这部分的下一个关键词:使用AI的人。推荐晚点聊一百零九期对卡兹克的访谈。这期中,卡兹克讲述了自己作为一个产品和设计背景的前金融科技从业者,怎么从二三年开始一步步学习和实践,变成了现在的数字生命卡兹克。他分享了在自己的工作流里怎么使用AI,比如他们会抓取每日AI的新闻,用模型来排重要性,选出最重要的前几十条,早晚发到群里。

他们也会在全网去找低粉丝高赞的内容,这说明内容本身有很强的传播属性。然后用AI去分析这些选题的特点,作为选题参考。当时他讲的一个最有意思的例子是用AI来帮助组织线下活动。他说,以往筛人分组得拉好几个朋友来一起做几天,因为这首先要从大量报名者的留言里筛选出高质量的、真的想来活动的人。选定之后,还要设计谁和谁坐一桌、谁和谁不能坐一桌的复杂分组规则。

AI帮了他大忙。总结一下,卡斯克学习AI的方法就是干中学,有真的需求,然后真的去试。如果你一开始不知道想AI来做什么,他有一个简单的建议:从工作中你最讨厌、最不想自己反复去做的内容开始,就如这期的标题,把任何重复三遍的事AI化。其实回顾这一部分时,我有些惭愧,也略感焦虑,因为这一年虽然报道了很多AI公司,也试用了不少产品。

但我并没有切身的感受到AI真的解放了我多少工作时间,这可能是因为行业变得更热闹了,要做的内容变多了,工作量本身在变大。而另一方面,AI很难替代记者的一些大头工作,比如面对面的和人交谈,还有采访,以及一些需要来回斟酌的沟通工作。有天我和人聊起这件事,对方下意识的反馈给了我一些安慰,他说这很好呀,说明你不会那么快被AI取代。

这部分的最后,想讲一个也许不再遥远的问题:意义感。我记得二三年AI热潮的初期,有一天我看到北大胡勇老师回答这样一个问题,大概是:当AI来了之后,普通人会面临什么挑战,或者说最大的变化是什么?他当时回答的大意是:重新理解和感受到人的意义,并不在于工作,这对我有很深的触动。虽然整个社交媒体上充满不想上班只想躺平的调侃,但其实大部分人的自我认同、成就感和意义感的主要来源还是工作,是事业,是你在做什么。

我向来对AI解放工作时间,剩下的岁月就是享受生活、爱与和平的美好许诺不太买账。这就好像从小学到大学都严禁早恋,一进社会就想让你结婚。我们从小的教育和环境里,并没有被真正充分的鼓励去享受生活、寻找热爱和感受自己的激情。而现在AI来了,说你做的工作我帮你做了,你去享受生活吧。也许大部分人都没有这个能力,至少不会马上自然的拥有这种能力。

在一百一十六期中,我和Meta前AI研究总监田渊栋聊他写的科幻小说《破晓之中》时,也讨论过这个问题。田园洞想象了一个更曲折的过程,但长期他是乐观的。当时我们是聊到了小说里的一个情节,就是有很大一部分人类已经移居到了完全虚拟的世界,这里的人没有生老病死,也不缺物质享受,因为一切都是生成的,美貌、房子、车等等。

但你的记忆、思维和能力还是自己的。这段故事是关于这个世界里的一个三流画家,他每天都闷闷不乐,觉得怎么都比不上自己的一个一流画家朋友。他没有任何生活压力,却痛苦难熬。田园洞说,他觉得AI替代刚发生时,短期内很多人就是会产生这种空虚感。一方面是更轻松的就能实现一些工作结果,可能会降低工作的动力;另一方面是发现自己无论怎么努力,可能都做得不如AI,那干脆别干了。

在短期,这会是一个重要的社会问题。而之后就是这个小说里的情节,人们开始转向对独特性的竞争,在原有职业不可持续后,尝试通过创意、个性和稀缺感来证明自己的价值。但这个过程也会有痛苦,因为并非所有人都真的有这样的能力和才华。这就是这个故事里三流画家的苦恼。不过,他相信长期来看可能又是乐观的,因为过去的社会循环是接受教育、学习技能、工作、获得收入、养家、再教育下一代。

我们受教育就是为了职业化的工作,这压抑了很多人的自我和热爱。如果AI能完成大部分可以技能化的工作之后,人们可能放弃以往以胜任工作为核心的教育和评价体系,转向真正的兴趣驱动的活动,最终可能出现职业多样性的爆发。他说,大部分人应该还是变得更快乐了一些吧。而一百一二十一期的嘉宾黄东旭,我们聊那期节目时,他刚卖掉自己的房子,清掉了很多东西,和家人一起搬到了一辆房车里。

他说做这些事和他在向内探索人生的意义有关,这是他在AI热潮之前就在思考的问题。最后的答案是体验,来到这个世界,体验这个旅程。毕竟大模型不能替你活过。终于录到了结尾。自从大模型热潮之后,每一个春节都有意外发生。二三年是ChatGPT,二四年是Sora,二五年是DBC和R一,二六年春节是什么呢?不管是什么,它应该会继续出现在我们之后的节目里。

过去这一年,非常感谢听友对晚点聊的支持。新一年,欢迎继续收听,也欢迎给我们更多建议。本期的节目就到这里,给大家拜年了。最后送上量子计算科学家、数字生命研究者涂恒宇的经典春节曲目,恭喜发财。我们下期再见。恭喜你发财,恭喜你精彩。最好的请过来,不好的请走开,礼多人不怪。