模型技术:Agentic能力的崛起与开源范式

2025年,AI模型技术的核心演进方向聚焦于Agentic model——即具备代理(agent)能力的大模型。这类模型需具备五大基础能力:推理能力(支持复杂任务分解与规划)、编程能力(尤其是代码生成与修正)、多模态理解能力工具调用能力,以及长期记忆与上下文管理能力。这些能力既可内嵌于大模型本身,也可通过外挂系统与MCP等协议生态协同实现,但已成为头部大模型公司的重点优化方向。

Agentic模型的突破性进展始于DeepSeek R1的发布。作为全球首个在大参数规模上复现OpenAI O1推理能力的模型,R1于2025年1月20日与Kimi的K1.5“撞期”上线,这一日期或将载入中国AI史册。R1后续影响力远超O1与K1.5,其成功得益于三大关键因素:完全开源(包括最强版本)、详尽的技术报告,以及仅557万美元的最终训练成本——后者尤其引发美国政商界关注,甚至牵动英伟达股价波动。

“一个美国人都说厉害的 AI 大模型,在全国人民都闲着的春节假期,引发了史无前例的科技狂潮。”

“DeepSeek R1 的影响力,体现了AI技术影响力的典型扩散路径:先在顶尖研究者中建立口碑,再借开源与‘出口转内销’效应破圈。”

R1的爆发标志着推理模型进入实用阶段,其核心是测试时间计算(test time computing)范式——将更多算力用于推理阶段而非训练阶段,从而显著提升多步推理的准确性与规划能力。这一能力直接催生了chatbot产品中“deep research”(深度研究)功能的普及。更深远的影响在于,R1验证了轻量级团队也能高效复现顶尖模型:盛大创始人陈天桥受此启发,迅速支持成立MirrorMind团队,认为顶尖模型的研发门槛已大幅降低。

与此同时,Anthropic推出的Claude 3.5系列模型以超强编程能力为标志,其后续产品Cloud Code不仅是一款编码工具,更被视作首个真正意义上的通用Agent,甚至早于Malice一个月发布。编程能力之所以关键,在于它赋予大模型“数字世界中的手脚”,使其能自主执行复杂任务。2025年,全球头部厂商纷纷跟进:OpenAI发布CodeX,xAI推出Grok CodeFast,Google则在11月发布AntiGravity——AI编程能力正迅速成为大模型的标配能力。

多模态原生化与协同设计:从拼接到融合

2025年,多模态能力迎来质变:主流大模型已全面进入原生多模态阶段——即用统一模型架构处理文本、图像、语音等多模态信息,取代此前“分开训练+拼接”的旧范式。OpenAI的GPT-4o(2024年5月)与Google的Gemini 1.5(2024年12月)是这一趋势的先驱;2025年,Gemini 3与Kimi 2.5进一步巩固了这一方向。与此同时,专用多模态生成模型也表现亮眼,如可灵、MiniMax的海螺、Google的VU3与Nano Banana——后者甚至衍生出“照片变桌面手办”等社交爆款玩法,其背后团队Google Labs融合研发、工程、内容与设计,体现了AI产品创新的跨职能协同逻辑。

值得注意的是,DeepSeek、Kimi与Anthropic并未将多模态生成列为核心,反映出不同团队在技术判断、应用场景与资源分配上的差异化路径。但整体而言,推理、编程、多模态三大能力的同步跃升,为高主动性、高复杂度的Agent应用铺平了道路。2025年因此被广泛视为Agent应用元年,OpenCL等新产品的快速走红印证了这一趋势。

在模型研发范式层面,协同设计(Co-design)成为新共识:即从底层芯片、中层基础设施(Infra)、上层算法到最终应用的全栈协同优化。Google凭借多年布局TPU、JAX、Cloud等全栈能力,形成强大技术闭环;阿里“通义+阿里云+平头哥”战略、腾讯将AI Infra部门划归姚舜宇统一管理,均体现了类似思路。而DeepSeek作为新锐团队,则从零构建了高度协同的组织机制——Infra团队深度参与算法设计,若某算法在推理层难以稳定实现,即被否决。这种“工程化思维”使其在2025年2月24–28日连续五天开源Infra成果,并于周六发布《DeepSeek V3R1推理系统总结》,披露其单日处理6000亿输入token、1700亿输出token的惊人性能,毛利率高达84.5%——远超行业预期,引发第三方Infra厂商尤洋的质疑,也促使行业重新审视模型与系统协同的极限潜力。

协同优化:从组织整合到工程手感

协同设计不仅是技术路径,更是组织方式的重构。阿里通义实验室自2025年下半年起,开始自建Infra团队,取代此前依赖阿里云AI平台支持的模式,以实现与算法团队的更敏捷协作;腾讯则通过组织调整,将AI Infra纳入姚舜宇统一管辖,强调“从Infra到产品”的端到端协同,减少内耗、加速迭代。

DeepSeek的协同优势则源于其创始人梁文锋对全链路的深度把控与工程直觉。他不仅参与技术决策,更坚持开源理念——曾因归奇流动未承诺开源推理引擎而放弃投资,却促使其成为V2/V3首批合作平台。这种“ hands-on”的工程文化,使DeepSeek在模型架构与系统实现间形成强反馈闭环:袁近辉推测其V3/R1架构可能是“先定模型、再解工程”,或“先解系统、再定模型”,无论哪种路径,都要求模型与Infra团队高度耦合。

此外,注意力机制的持续优化是提升长上下文处理能力的关键。作为Transformer的核心,原始注意力机制因计算复杂度与显存开销高而限制上下文长度;2025年,各厂商通过FlashAttention、MHA改进、滑动窗口等技术,在GPU算力约束下不断突破瓶颈——这再次印证:大模型训练本质是工程问题,而非纯科研问题,一线手感与系统直觉比理论完美更重要

注意力机制的演进:从算法到系统协同优化

注意力机制作为 Transformer 架构的核心,自 2017 年《Attention is all you need》提出以来,始终是大模型能力扩展的关键瓶颈。其计算复杂度与显存开销直接受限于 GPU 的算力互联效率与存储物理限制。2025 年,播客围绕注意力机制改进策划了三期专题(第 103、104、143 期),系统梳理了稀疏注意力线性注意力两大主流路径,并揭示出一个深层趋势:注意力机制的优化已从纯算法层面,深度延伸至系统层乃至硬件底层的协同设计

以 Flash Attention 为例,它通过重新组织标准注意力的计算顺序,结合对 GPU 内存访问特性的理解,显著提升了计算效率并降低了显存占用——这是典型的算法与系统协同优化范式。而在第 143 期中,DeltaNet 的核心作者杨松林更展示了从算法研究员转型为系统层开发者的过程:他通过改写 GPU Kernel,构建出对硬件更友好的可扩展训练方法,使 DeltaNet 能在有限资源下实现高效训练。

“二五年,我们做了三期和注意力机制改进相关的节目……都很自然地延伸到了系统层和硬件底层。” “他对DeltaNet的核心优化就是提出了一个对GPU更友好的、可以做Scalable训练的方法。”

算力基础设施:从单芯性能到多芯互联的系统级整合

算力竞争的焦点正从单颗芯片性能转向多芯片互联的系统级协同能力。2024 年底华为发布的 384-Matrix 超节点,即是一个连接 384 颗 AI 芯片的超级集群,体现了这一趋势。英伟达更早推出的 NVL72 亦遵循相同逻辑——芯片间的互联效率,已成为制约模型规模与推理速度的关键变量

在晚点第 115 期中,模型智能创始人徐林杰指出:AI 计算成本结构正发生结构性转变——从以计算为主转向以显存为主;同时,像英伟达这样同时掌握芯片设计与高速互联软硬件能力的公司,正构筑起极高的技术护城河。这种“协同设计、垂直整合”的架构逻辑,不仅解释了为何头部玩家难以被颠覆,也预示着未来 AI 基础设施将愈发走向软硬一体化。

“这背后的一个算力层面的趋势,就是从拼单颗芯片的性能到优化多芯片互联的系统。” “这可能就是某些领域强者恒强、强者很难被动摇的原因。”

学习范式的再思考:从 Scaling 到研究重启

当前主流范式——即“海量数据预训练 + 少量高质量数据微调/强化学习”——正面临根本性质疑。伊利亚·萨特舍夫斯基、戴密斯·哈萨比斯、杨立昆等学者一致认为:真正的通用智能不应依赖海量数据与算力堆叠,而应具备类人水平的少样本学习、持续演化、跨任务迁移与物理世界建模能力

伊利亚在 2025 年 11 月的播客中明确表示:“过去几年是 scaling 的阶段,而现在是重新回到研究、回到 research 的阶段。” 这一转向催生了持续学习、在线学习、事件相机模型等新方向。研究者们正转向生物学与认知科学寻找灵感:Leon Gauthier 创立的 Sakana 提出“连续思维机”,试图模拟人类大脑的动态推理过程;马毅教授则从演化角度指出:智能的本质是学习世界中可预测的规律与结构,以实现生存所需的预测能力

Meta 前 AI 总监田园洞进一步强调:若仅靠当前黑盒式大模型即可达成 AGI,将是人类认知上的悲哀——因为这意味着我们无法理解智能的底层逻辑。他期待一种更简单、可解释、节能的学习范式,呼应了人类大脑仅以 20 瓦功耗实现复杂认知的奇迹。

“如果 LLM 就能实现 AGI,那么人类的未来是悲观的。” “如果用一种不可解释的方式也能表达和捕捉宇宙的规律,这对智慧生物难道不是一种知识上的悲哀吗?”

Agent 应用爆发:从工具链到群体智能的生态演进

2025 年被广泛视为 Agent 应用的“元年”,其发展呈现双主线:通用 Agent(以 coding 为核心能力)垂类 Agent(聚焦垂直场景)。值得注意的是,“抠顶”已不仅是目的,更是 Agent 在数字世界中执行任务的通用手段——从 Cloud Code、Cloud CoWork 到 OpenCL,再到字节 Tree、蚂蚁灵光、Milrun 的 Agent Builder,这些工具正大幅降低个性化应用的开发门槛,使普通人也能为自身需求定制自动化流程。

Anthropic 推出的 MCP 协议与 Skills 开放标准,进一步推动了 Agent 能力模块化与复用化。马卡龙创始人陈凯杰总结道:我们正从“参数 scaling”“算力 scaling”进入 agents 的 scaling 阶段。这一趋势催生了新型实验:如 Motebook——一个由无数 Agent 构成的社交网络,模拟群体智能的涌现;黄东旭据此构建 MiniBook,用三角色分工协作提升编码效率;明日新城则致力于打造多智能体协作框架。

与此同时,Agent 与移动端的深度整合加速:豆包手机助手、OpenCL 等产品已实现通过手机通信 App 部署 Agent,执行比价、点外卖、自动回复等任务。但这也引发三方博弈——手机厂商、超级 App(微信/美团)与 AI OS 开发者在入口控制权上的角力。值得注意的是,Agent 商业化路径正从“平台化”转向“工具强化”,如 Milrun 2.0 更强调 Agent Builder 的易用性,陈宇森认为未来市场应是对话式而非货架式

“如果说之前我们已经经历了数据、模型参数和算力的 scaling,那接下来我们就会看到 agents 的 scaling。” “Agent 的数量变多,新的可能的需求,还有 Agent 本身的分享、分发和交易。”

三方博弈:手机Agent生态中的利益重构

在《150》与智谱AutoGLM产品负责人刘潇、以及《138》与OPPO小布助手负责人万玉龙的两期访谈中,一个核心议题浮出水面:手机Agent的落地面临手机厂商、超级App(如微信、淘宝、美团)与AI OS/Agent开发商之间的三方博弈。这种博弈不仅关乎技术路径,更牵涉商业利益的再分配。一个关键观察是:不同类型的超级App受Agent影响程度差异显著。对提效需求强烈的场景——如点外卖、订啤酒、甚至高效网购——用户更可能欢迎Agent介入;尤其当购物目标明确、重复性强时,Agent可大幅压缩决策与比价时间。但超级App则因广告收入、用户停留时长、内容安全等顾虑,在是否开放Agent接入上态度谨慎:一旦真人用户减少、真人交互下降,信息流广告的曝光与转化效率将被削弱。更深层的问题在于:若AI也能被广告影响,广告收益应如何分配? 是归Agent提供方,还是App平台方?而长远看,若Agent成为独立OS级平台,现有App生态的中介价值是否会被重构?

“如果来这些App里的Agent变多了,真人变少了。那广告谁来看了?信息流广告的价值是不是也会变少?” “我们还有大量定期重复的购物需求。”

垂类Agent:从利基场景到商业模式创新

与通用Agent聚焦办公、内容创作不同,垂类Agent正通过深度嵌入特定行业流程,开辟高壁垒、高价值的应用路径。以智谱嘉宾、都比创始人陈冕的早期分类为例,AI应用机会可分为生产端(Office、Adobe类)与消费端(搜索、社交、泛娱乐)两大类;而当前市场最活跃的,正是生产端中围绕编码、通用办公(新时代Office)与音视频/图像生成(新时代Adobe)的Agent。陈冕指出,垂类产品的生存空间在于:“你既能用好通用人的能力,又不要去做一个通用人就能直接做好的事儿。”——即在通用模型之上叠加行业Know-How与数据壁垒。

明势基金夏令分享的案例进一步印证了这一逻辑:被投企业“爱语智能”聚焦银行小额坏账起诉场景,利用Agent自动化筛选高胜诉率案件、生成法律文书等环节,解决了此前因人工成本过高而被机构直接计提损失的‘效率死结’。值得注意的是,其商业模式并非卖工具,而是直接向客户端按结果收费——这与红杉在2025年AI峰会提出的趋势一致:AI软件正从“卖席位”转向“卖结果”。此类模式在法律、医疗、工业等强监管、高成本领域具备显著复制潜力。

“之所以他当时选了都比这个方向,是因为这个领域围绕多模态模型展开,它离大模型公司的主轴有一定距离。”

Sora App与AI To C:陪伴经济的冷启动与文化适配

以Sora App为代表的非效率型AI To C产品,聚焦陪伴、社交与娱乐,构成AI应用的另一重要分支。其2025年10月上线引发关注,不仅因OpenAI背书与Cameo交互创新(用户授权人脸后生成专属角色合拍视频),更因它承载了“AI YouTube”的集体想象。然而数据揭示现实落差:Sensor Tower显示其30日留存率低于8%,远逊于TikTok(42%)与Instagram(38%)。视频生成工具属性明显,多数用户仍将其产出二次分发至抖音、小红书等平台。

有趣的是,真实用户画像远超预期:旧金山创业者卢源运营的“Sora Stats”发现,活跃创作者包括教师、Uber司机等非科技从业者;日本用户尤为突出——账号“Cego Masmalu”(松丸会吾,解密游戏制作人松丸亮吾之弟)以高质量二次元内容迅速涨粉至10万+,接近Sam Altman本人的14万。OpenAI在2025年10月博客中特别致谢日本创作者:“In particular, we'd like to acknowledge the remarkable creative output of Japan”,并点明Sora之名源自日语“空”(Sora)。日本ACGN文化与AIGC工具存在天然亲和力:同人创作传统叠加AI放大创造力,使该市场成为全球AIGC文化创新的前沿阵地。

“Sora App不仅是一个视频生成产品,它也是一个社交产品,因为Cameo等功能的设计会让人忍不住把Sora App给身边的朋友。”

AI for Science:从计算加速到AI驱动科研闭环

深势科技(DP Technology)的实践勾勒出AI for Science的完整演进图谱:从第一性原理计算的效率突破(如DPMD),到生成式AI解决蛋白质结构预测(AlphaFold类),再到构建覆盖‘假设-实验-验证’全流程的科研Agent。其创始人张凌峰、孙伟杰在《140》中指出,传统量子计算因复杂度高难以跨越尺度鸿沟,而机器学习可在不损失精度前提下大幅提升效率,并已落地为药物研发平台Ermit。

更前沿的方向是“用AI提升AI”——让AI自主承担文献综述、实验设计、结果分析等研究员职责,形成技术自我迭代的闭环。这一逻辑呼应了布莱恩·阿瑟《技术的本质》中的核心观点:技术具有自我繁殖特性——旧技术通过新组合催生新技术,而新技术又反向提出改进需求,形成正反馈循环。在AI时代,这一循环正加速运转:大模型既是工具,也是科研对象本身。

“技术的起点是人类对一些原始物理现象的捕获,而从那时起,两股交织的力量就开始推动技术的自我繁殖。”

技术演进的双引擎:观测工具与自我需求

技术进步从来不是单线推进的。一方面,新技术与旧技术的组合爆炸式增长,极大拓展了创新的可能空间;另一方面,望远镜、测量器具等观测技术的成熟,使得实验方法日益精密,从而加速了人类对新物理现象的发现与验证——这正是近数百年现代科技从萌芽走向爆发的核心路径。

更深层的动力则来自需求端:技术自身会催生改进自身、降低成本的新需求,并不断提出新的目标,倒逼出新的解决手段。例如,一旦我们能识别某种疾病,就会自然衍生出“如何治疗它”的技术诉求。这种“技术驱动新问题—新问题催生新技术”的循环,构成了技术自我演化的内在逻辑。

尽管该书写于2009年,尚未预见大模型如今的爆发式进展,但作者已敏锐指出:技术的自我进化与拓展,需通过人类发明家这一中介实现;而不久之后,我们或将迎来“AI发明家”——一个信息广度与计算能力远超个体、且永不疲倦的智能系统。当这一天临近,问题便不仅是“它能否做到”,更是“我们是否准备好了?又该如何提前准备?”

技术的这种自我进化、自我拓展是通过人类发明家这个中介来实现的,而也许不久之后,我们就会看到逐渐成型的AI发明家。

一个问题是,我们做好准备了吗?又可以提前怎么准备了?

巨头AI战:人才、组织与赛马逻辑

中国AI竞争已进入以字节、阿里、腾讯为核心的“三强博弈”阶段。晚点在2025年集中发布了多篇深度报道,从人才与组织、应用落地、商战策略三个维度拆解这场“AI之战”。其中,人才结构与组织形态,直接决定了各公司底层模型实力的天花板。

字节采取“类创业公司”模式,将AI大部门设为相对独立单元,下设负责产品的Flow、模型研发的Seed、后端支持的Stone。2025年2月,Google DeepMind前研究副总裁吴永辉加入Seed任研发一号位,其资深背景与技术权威性,为整合一批来自Google、面壁、零一万物、智谱等机构的顶尖年轻技术骨干(如蒋璐、秦宇佳、黄文浩等)提供了关键凝聚力。值得注意的是,吴永辉的加入并非“从零搭建”,而是对2023年张一鸣力主“自研大模型”战略后的关键补强

但人才汇聚也带来新挑战:内部赛马机制若失控,易从“试错式竞争”滑向“零和式淘汰”。一位技术负责人指出:好的赛马是“跑完一轮还有下一轮”,坏的赛马则变成“拳击”——败者直接退场;更糟的是“未赛先分”,在技术快速迭代期过早固化分工,反而错失最优解。

阿里则展现出另一种路径:通义实验室由十年老将周靖仁持续领导,其晋升为阿里合伙人,核心功绩是保障“通义千问”系列模型的持续领先。千问团队由90后林俊阳主导,自达摩院内部边缘地带自下而上成长,以开源建立强大开发者生态;通义万象专注多模态生成;2025年初又引入徐主红组建多模态交互团队。不过,2024年底通义团队薪资职级普调,也折射出对市场人才争夺的被动响应。

腾讯在2025年底迎来关键转折:26岁的AI原生学者姚舜宇(OpenAI React作者)加入并任腾讯总裁办首席AI科学家,统筹AI Infra与大模型研发。他迅速引入DeepSeek同龄人王炳轩,并推动三大转变:从重benchmark转向重实际体验、强调Infra与模型协同设计、加速组织整合(如将Infra部门划归统一管理)。尽管姚舜宇缺乏管理经验,但腾讯此举意在以“鲶鱼效应”激活沉稳体系——正如DeepSeek靠95后团队逆袭所示:年轻、高密度、强自驱的团队,可能比资历光环更具爆发力

一位从业者曾像我这样评价吴永辉:是大佬级别的技术管理者,能镇得住场子。

为什么镇得住场子很重要了?这和字节补充AI技术人才的顺序有关。

应用落地:规模效应的再定义与组织张力

模型与产品的协同深度,已成为巨头AI落地能力的关键分水岭。OpenAI通过Sarah App等案例证明:产品端的用户行为与反馈,可高效回传至模型迭代,形成“端到端垂直整合”闭环。在此维度上,字节在模型(Seed)与产品(Flow)协作上最为紧密——双方共享“为产品服务”的意识,甚至将用户反馈直接转化为post-training数据流。

字节在2025年1月豆包1.5 Pro博客中提出“数据飞轮”概念:依托推荐/搜索/广告领域的A/B测试经验,构建“问题发现→数据挖掘→人机标注→快速迭代”闭环。但需警惕概念陷阱:飞轮的终点是“实际使用体验”,而非模型性能本身——普通用户反馈需经研发流程转化,才能真正增强模型能力。这恰印证了早前《99期》中严俊杰的提醒:“做大模型,千万别套用移动互联网的逻辑”。字节试图将过往移动互联网的基础设施经验(如规模效应)迁移至大模型,但其免费产品模式也带来新挑战:用户越多,算力成本越高,传统‘build once, sell many times’逻辑失效

腾讯与阿里则在2025年同步经历组织拆分:腾讯将元宝、QQ浏览器等AI产品整合至CSIG,而混元大模型仍留在TEG;阿里将通义To C产品从阿里云划入智能信息事业群,模型与产品分属不同事业群。腾讯的底气在于微信——一个十亿级用户入口,却也因“微信封禁元宝红包链接”事件暴露了组织协同困境:当国民级应用成为AI布局的“守门人”,创新节奏与用户体验的平衡将愈发艰难。

注意,这里飞轮的两端是大规模用户反馈和模型实际使用体验,而不是模型性能本身。

因为现阶段大量普通用户的反馈其实不能直接提升模型能力,要让模型变强,还是得靠研发流程和研发人员的努力。

巨头AI应用布局的摇摆与战略分野

微信在2024年整治过度营销与诱导分享的举措,表面是产品规范,实则折射出其在腾讯AI战略中的微妙定位——作为国民级应用,每一次调整都需权衡十亿级用户的体验与接受度。相比之下,阿里的AI产品布局则呈现出更剧烈的组织震荡:2023年10月,通义千问App作为To C主力产品上线,隶属阿里云;2024年底,其To C团队被整体划入智能信息事业群(即夸克所属部门),标志着产品与模型团队彻底分离。这一调整背后,是阿里对“AI入口”的反复试探:早期寄望于通义千问,但因功能冗杂、用户路径不清而表现平平;转而押注夸克,将其升级为AI超级入口,提出“AI超级框”概念,并由吴佳主导;最终在2025年底,通义再次更名为千问App,重新回归C端主战场,聚焦打通阿里生态内的生活服务场景。

“阿里是把产品和模型团队从同一个事业群调到了两个不同的事业群。”

“这次的新主题是前面聊到过的接通阿里生态里的生活服务,成为一个全能AI助手。”

字节与腾讯则展现出更清晰的路径:两者均在2023年大模型热潮后,专门为大模型打造新应用——字节推出豆包,腾讯推出元宝。豆包迅速成为中国首个日活过亿的AI产品,其海外版“豆了”全球日活已超千万;而元宝在接入DeepSeek后,日活在2024年2月底最后一周增长十倍,并尝试通过“元宝派”打通微信与QQ社交关系,构建AI社交新场景。三者中,腾讯更强调AI应用落地,策略是等待模型能力成熟后再发力;阿里则试图以云+模型+生态整合构建护城河;字节则以“App工厂式饱和攻击”覆盖AI coding、教育、角色互动、图像生成等多个方向,形成“一超多强”的矩阵式布局。值得注意的是,字节对豆包的投放相对克制,因其团队观察到:大模型能力不足时,大规模买量留存率低;而其自身掌握抖音等流量入口,投放成本低、转化效率高。豆包也逐步形成独特人设——亲切、生活化、可互动,如UP主“阿康的憨憨生活”与豆包的日常互怼内容广受欢迎,视觉多模态能力更催生穿搭指导等UGC玩法,形成正向传播飞轮。

但字节的布局存在一个关键错位:增长最强的豆包是免费产品,而AI收入主力来自锤子(即扣子)等To B工具。2024年11月,豆包上线商品卡功能,首次在对话中嵌入购买推荐,标志着其商业化探索进入新阶段。2026年关键观察点之一,正是豆包将如何推进更多商业化动作,以及市场接受度如何。

创业公司:IPO不是终点,而是下一轮竞赛的起点

2026年1月,智谱与MiniMax先后上市,成为中国首批大模型第一股,也首次向市场披露了详细财务数据。截至2026年2月7日,智谱市值约114亿美元,MiniMax达185亿美元,虽与OpenAI(超7000亿)和Anthropic(3500亿)仍有数量级差距,但已较此前一级市场估值(30–40亿)大幅跃升。收入层面,智谱2025年上半年为1.9亿元人民币(约2700万美元),MiniMax前三季度为5300万美元;而OpenAI 2025年收入预估超130亿美元,Anthropic达45亿美元——中国头部模型公司收入仅为美国同行的1/20至1/30

“对比移动互联网的几次上市盛宴,大模型领域的IPO并不发生在大战告一段落之后,它不是对胜者的奖赏,而是下一轮竞赛的鼓点。”

IPO对中国大模型公司而言,不仅是融资工具,更是续命保命的安全网。原因在于:中国一级市场对大模型的持续投入能力远逊于美国——2024–2025年间,欧美仍不断涌现新基础模型公司(如Safe Super Intelligence、Thinking Machines Labs、Core Automation等),而中国几乎再难成立新模型公司。现有玩家则面临三重挤压:巨头自研模型的全面围剿(阿里、腾讯、字节均放弃采购,转向自研)、人才虹吸效应,以及缺乏新硬件载体(大模型仍运行于Web或移动端,无法复刻iPhone+App Store带来的自然增长红利)。

与此同时,一批不自研大模型的AI应用公司正快速商业化。全球ARR(年度经常性收入)≥5000万美元的AI原生企业约40–70家,代表包括Perplexity(AI搜索)、Cursor(AI编程)、Midjourney(图像生成)、Runway(视频生成)、Eleven Labs(语音合成)等。5000万美元ARR已成为一个标志性门槛——既非初期试水,也非成熟垄断,而是从产品验证迈向规模化盈利的关键跃迁点。这些公司虽不碰底层模型,却凭借垂直场景深耕+高效产品闭环,在巨头缝隙中开辟出独立增长曲线。

春节前夜:模型迭代与入口之争的终极预演

2026年春节,将成为AI应用落地能力的终极压力测试:豆包拿下春晚合作,元宝派发十亿红包,千问随即宣布三十亿红包投入——流量争夺已进入史诗级阶段。而悬于所有人头顶的变数,是DeepSeek V4的发布时间与性能表现。若V4在节前发布,对腾讯元宝将是重大利好,因其是中国大公司中与DeepSeek绑定最深的产品。尽管当前第一梯队模型的用户体验差异已趋模糊,但DeepSeek仍保有显著品牌势能。

“唯一比较确定的是,这个春节各公司的 AI 从业者大概率又享受不了一个完整安逸的假期了。”

这场春节之战,本质是模型能力、产品成熟度与组织执行力的三重较量。腾讯凭借“轻装上阵”(混元能力较弱,无历史包袱)快速接入DeepSeek;阿里在组织反复调整后,以千问App二次冲锋;字节则以成熟飞轮持续领跑。无论结果如何,2026年都将证明:AI入口之争,早已不是模型参数的竞赛,而是生态整合力、用户运营深度与商业化可持续性的综合比拼。

AI原生企业的收入格局与代表案例

截至2025年底,全球ARR(年度经常性收入)达到或超过5000万美元的AI原生企业约在40至70家之间,涵盖多个垂直领域:AI搜索(Perplexity)、编程助手(Cursor)、图像生成(Midjourney、Higgs Field)、视频生成(Runway)、语音合成(Eleven Labs)、虚拟人视频(Heygen、Synthesia)以及行业应用(Harvey法律AI)等。ARR是将某一时段订阅收入折算为一年的结果,对高速成长公司而言,其数值往往高于实际年收入。

这些企业主要集中在三类方向:AI编程(Coding)内容创作类Agent,以及与法律、教育、医疗等垂直场景深度结合的产品。其中,中国背景的团队表现亮眼:通用Agent公司Malice(蝴蝶效应)于2025年12月底被Meta以20亿美元收购——创始人虽未抵达最初设想的终点,但投资人与团队收获了可观回报。Malice现有团队超百人,其中不少核心成员跟随创始人创业十年以上,且多数持有公司期权。

“这是一个童话故事。创始人可能没有走到他原本设想的更遥远的目的地,但投资人和团队都获得了不小的回报。”

另一家通用Agent公司Jans Park由前小度CEO景昆创立,2025年9月底已对外宣布ARR达5000万美元;AI绘图产品Open Art由Coco毛等人创立,20人小团队ARR已达7000万美元;而Labart(上线仅4个月)与Pixverse(2025年总收入超4000万美元)也接近该量级。值得注意的是,视频生成类公司中部分选择自建模型(如Pixverse、Sandra AI、Vivix、生数),这与大模型公司普遍未将多模态生成作为主轴形成错位竞争,开辟了独特的创业空间。类似地,语音模型公司Eleven Labs估值已达110亿美元

“在技术上,它和大语言模型的主轴并不完全重叠,这就创造了一个独特的创业空间。”

效率、生态与地缘现实:创业公司的多元路径

旧金山创业者Henry Shi维护的 Topline AI Native Companies Listboard 提供了观察AI创业效率的独特视角:其筛选标准包括ARR≥5000万美元、员工<50人、成立<5年,或人均收入>100万美元但总ARR未达5000万。最新版榜单收录44家公司,其中真正达到5000万美元ARR的仅14家,凸显AI创业的高人效特征。例如,由奥地利开发者Peter Steinberg主导的OpenCL,几乎由一人完成核心开发;而MaliceJans ParkOpen Art等则代表了小团队撬动高营收的典型范式。

然而,基础大模型公司正持续挤压纯应用层空间,尤其在Coding、通用Agent等高价值赛道。相比“Go big or go home”的大模型公司,应用层团队拥有更多生存策略:可追求小而美、接受战略收购,或在巨头暂未覆盖的缝隙市场扎根。事实上,Perplexity、Cursor等应用起家的公司,也已开始向底层模型拓展。

在地缘层面,中美AI创业生态正面临结构性分化。以黑卷(视频数字人生成)为例,其中国主体诗云科技早在2023年12月即已注销,早于AI热潮全面爆发;Malice则于2025年6月将总部迁至新加坡,并在被Meta收购后遭中国商务部启动合规审查;而MirrorMind原中国研发团队(由戴继峰领导)因陈天桥难以继续合规支持,于2026年1月突然转向独立融资——尽管该团队仅运营不到一年。

“这三个团队的情况折射了从二三年到二五年 AI 竞争日益成为大国竞争的一部分。它也越来越受到一些市场之外的因素的影响,这是所有创业者都不得不面临的一个现实。”

这些案例共同揭示:AI创业已不仅是技术与商业的竞赛,更是制度环境与地缘政治的博弈场。创业者需在三个关键问题上做出判断:未来主导模型的公司是谁?目标场景是否必须依赖最前沿模型?应优先追求规模扩张还是阶段性盈利?尽管宏观上,开源社区与全球研发共同体仍保有超越国界的合作韧性——“人类的重要技术进展很难长期被控制、封锁在一个小范围里”,但“长期”究竟多长,将直接决定一批公司的生死。

具身智能:资本、政策与制造优势的共振

2025年,巨深智能(具身智能)领域迎来融资爆发期:据中国信通院报告,该年度该领域总融资额达735亿元人民币,远超同期大模型公司总融资额(182亿元)。头部公司估值水涨船高——美国Figure估值达390亿美元(约为OpenAI的1/20),而中国银河通用、语数等估值已达30亿至120亿元人民币,语数IPO预期市值甚至逼近千亿元

新公司持续涌现:踏实(陈逸伦、李振宇)、元力灵机(旷视唐文斌)、智简动力(理想贾鹏)、诺音之行(李银川)、安卓十六(宋洪勇)、星海图新项目(许华哲)等均由重磅背景创业者主导;Hilbert创始人苏浩(李飞飞学生,ImageNet参与者)亦于2025年在中国扩团队。车企成为重要推手:除特斯拉Optimus外,小鹏、理想等纷纷布局,依托其自动驾驶技术积累、制造能力与供应链资源,并借机器人提升品牌科技属性——小鹏机器人部门负责人米良川(前英伟达)、葛一潇(前ARC首席研究员)、陈杰(前字节强化学习负责人)等相继加入。

中国具身智能热潮背后有三大深层动因: 1. 政策与资金支持:属国家大力倡导方向,地方政府乐于引入“看得见、摸得着”的产线与就业;全国已建成及计划建设的训练场近30家,部分公司采用“自产机器人—自建训练场—自获数据—自研模型”的闭环模式; 2. 制造与供应链优势:语数以10万元起步价的人形机器人成为全球高校主流开发平台,既构建开发者生态,又为海外纯软件公司提供硬件支持; 3. 二级市场偏好:相比纯软件,中国资本市场更青睐具制造业属性的硬科技企业,语数已明确推进科创板IPO,智元、银河通用、星海图等亦在筹备上市,多数虽尚未盈利,但已引发非理性狂热(如尚伟新材因智元收购公告连续涨停)。

“朱少虎在二五年接受投中网采访时说,把机器人卖给学校不是他喜欢的商业化,但其实我个人认为卖给学校还是挺有价值的。”

上市潮与非理性狂热

2026年将见证一批具身智能企业集中谋求上市,包括星海图、重擎、魔法原子等公司,其中不少已完成股改,港股成为主流选择。然而,这些企业普遍尚未实现大规模落地应用,收入可持续性难以验证,且几乎全部处于亏损状态——这并非源于能力不足,而是行业仍处于早期发展阶段的客观体现。

值得警惕的是,二级市场已显现出非理性狂热。典型案例如2025年6月,智元收购科创板上市公司尚伟新材29.99%股权后,后者股价连续涨停,市值从约30亿元飙升至最高690亿元,目前仍维持在550亿元以上。需澄清的是,该交易并不构成借壳上市,因借壳需同时满足四点:控制权变更、资产注入、主营业务替换、资产指标达IPO标准。智元仅完成了控制权变更,远未达成全部条件。

“其实,直到今天,致远都没有完成借壳。” “主要做风电材料的上伟新材的市值,还是从之前的三十多亿元人民币,最高涨到了六百九十亿元,现在仍然维持在五百五十多亿元的高点。”

结合港股宏观行情波动、多数公司持续亏损等现实因素,这场“巨升上市潮”的走向将成为2026年行业关键悬念之一。

具身智能的三大支柱:数据、模型与本体

观察巨深智能进展的三大核心维度是:数据、模型与硬件本体。其中,数据是当前行业共识的最关键课题——核心挑战在于如何规模化且低成本地获取大量有效数据。各公司正采取多元路径:遥操作、仿真迁移(Sim2Real)、视频数据、UMI(通过可穿戴设备采集手部位姿与力控)、以及机器人自主任务与Self Play。多数企业采用组合策略,以平衡精度、质量、类型与成本,由此形成不同“数据流派”。

例如,特斯拉Optimus早期依赖遥操作,后期转向自主任务+仿真+少量人类校准;银河通用因成本考量,侧重仿真路线;Hilbert则以高质量3D仿真数据驱动强化学习。但多位创业者(如千寻高阳、元力范浩强、自变量王潜等)对仿真数据训练大模型持保留甚至否定态度——“仿真数据很难训练矩阵模型”,有人直言这是“大坑”。

在模型层面,主流路线包括VLA(Vision-Language-Action Model)端到端神经网络世界模型。VLA通常基于VLM(视觉语言模型)进一步训练;端到端追求用单一网络替代规则编程;世界模型则聚焦于状态预测与生成,如OpenAI的Sora(2D视频生成)与Google的Gemini 3D(空间建模)及Sima(3D空间中的Agent探索)。但当前Sima尚不能实现与物理世界的真实交互(如戳破气球、摘花等)。技术路径分歧显著:有人主张VLA必须基于LLM,也有人提出VLT(加入触觉)或以视频模型为基座;有人坚持单一大模型,也有人支持分层架构(任务规划层+动作执行层)。相关深度讨论可见2025年长视频《具身智能的幻想与现实》。

最后是硬件本体——这是高度复杂的多学科系统工程。Optimus的延期暴露了严峻现实:其灵巧手寿命仅6周,无法局部维修,单只成本超6000美元,远未达工业场景所需的耐用性与成本可控性;关节寿命、减重、续航等挑战同样突出。一位供应商坦言:“老马的信誉分现在连充电宝都借不出来了。”Optimus仍是观察顶尖机器人本体技术的重要窗口。

落地应用:从研发、表演到工业与陪伴

2025年底至2026年初,已有企业公布量产/销量数据:智元宣称量产5000台,鱼数称销量超5500台。但实际应用场景仍较模糊,目前主要分为五类:研发、表演、工业生产、商业/家庭服务、陪伴娱乐。

研发用途是当前最真实的落地场景,包括向具身智能训练厂出售机器人采集数据、向高校实验室供货等。需警惕“训练厂”沦为地产项目的伪需求。表演与展示亦有真实订单,如中国移动2025年7月斥资1.2亿元采购人形机器人,其中智元7800万元、宇树4600万元,用途涵盖机房巡检、展厅接待及数据采集。部分公司已实现租赁回本周期2–4周,但多数表演仍依赖真人遥控。

工业场景潜力巨大但门槛极高:大量劳动密集、柔性物体处理(线束、布料)、小批量多SKU、季节性波动、低自动化率(如鞋服、电子插排、建筑装修)等领域尚未被传统工业机器人覆盖,为通用人形机器人提供机会。然而,高价值流程(芯片制造、饮料灌装、汽车焊接、物流拆码垛)已高度自动化,其在成本、可靠性、节拍与负载上优势显著,新入局者短期内难以撼动。

商业与家庭服务虽受资本热捧(如3D Robotics、One X、Side Robotics、Delta Robotics),但尚未出现真正自主落地产品。Side展示的“一手持两杯”“团袜子”、Delta的酒店叠衣等动作极具挑战性,仍处原型阶段。

陪伴与娱乐是相对低门槛的切入点:宇树自2021年起销售消费级机器狗,累计数万台,但市场长期小众。新玩家如维他动力(Webot机器狗)瞄准智能跟随、搬运、巡逻等功能,2025年12月开启预售半月订单达6540台(定金可退),2026年3月锁单后将反映真实需求。相比等待技术突破,陪伴机器人可组合成熟技术快速落地,市场反馈更直接——“讲技术故事的空间会更少”

“维塔动力开始正式预售 Webot 超能机器狗……开启预售半个月后,维塔宣布订单达到了六千五百四十台。”

行业普遍预期2026年为具身智能规模化落地元年,未来十个月将验证这一判断是期待还是现实。

AI硬件:入口级硬件的竞逐与眼镜的特殊期待

当前AI硬件的发展正围绕两个关键词展开:入口级多样化。其中,AI眼镜被广泛视为智能手机之后最具潜力的下一代入口级硬件。其核心优势在于交互方式上的两个独特能力:hands off(离手操作)与always on(全天佩戴)。前者支持通过语音直接下达指令,后者则使设备成为贴近人体感官中枢的持续性传感器平台,可采集高保真、高频率的视觉与听觉数据——这些数据远超现有设备所能获取的物理世界信息量,为AI模型训练与用户理解提供关键燃料。

Google、Meta、阿里、小米、理想等科技与车企均已发布AI眼镜产品,反映出行业对这一形态的高度共识。然而,技术瓶颈依然显著:显示模块尚未成熟,普遍存在清晰度低、视角窄、眩晕感强等问题;而续航与重量问题则制约了“always on”的用户体验。因此,当前产品形态尚未收敛:有的带拍摄无显示,有的有显示但笨重。Ribbon Meta的迭代路径颇具参考价值——从第二代起聚焦轻量化与体验优化,最终实现超三百万台销量;其第三代Ribbon Meta Display虽加入显示功能,仍延续“先可用、再升级”的务实策略。相比之下,苹果Vision Pro因过重过贵而未达预期,印证了当前技术环境下“一步到位”路径的不可行性。

“如果你想颠覆苹果、Google、微软,你就要拿到他们拿不到的上下文。”

“互联网上的数据已经被大厂分的差不多了,但更大的数据是线下物理空间里的数据。”

从Lucky到Plugged:AI硬件的多样化生存路径

与“单一入口”推演不同,AI硬件的现实发展更可能走向高度多样化——不再依赖一种主导形态,而是围绕细分场景与用户需求展开多点突破。

Plugged 是典型代表:这款贴附于iPhone背部的录音设备,以震动收音解决苹果手机原生无法通话录音的痛点,并依托大模型实现场景化摘要与语速突度分析。其成功关键在于:精准捕捉用户未被满足的真实需求,并快速集成AI能力。团队背景也颇具启发性:创始人许高虽非工程出身,却组建了包含龙旗前高管、搜狗“糖猫”团队成员在内的强执行团队,公司成立不久即实现全球销量超百万台。

另一类是面向健康管理的AI硬件。如潘宇洋推出的Audacy AI项链,通过多模态视觉记录饮食行为以指导健康决策;而Lucky(即前文提及的便携相机)则以“全天生活片段抓拍+自动成片”满足特定创作者群体需求。这类产品虽尚未跨越大众市场鸿沟,却已成功在垂直圈层建立口碑——正如一位主播朋友持续使用Lucky制作vlog并成功“安利”同行所示,小众市场的深度共鸣比泛化普及更具现实可行性

此外,Aura Ring等健康监测戒指(累计销量550万枚,估值超10亿美元)甚至尚未深度整合大模型,但其市场价值已隐含AI叙事的溢价;而“AI祈祷戒指”等更显创意型产品,则进一步拓展了硬件的情感与文化承载边界。

“AI硬件不是大模型的载体,而是解决具体问题的工具。”

深圳:硬件创业的生态高地与‘非AI原生’逻辑

深圳已不仅是硬件制造中心,更成为全球科技硬件创新的生态高地。晚点近期多篇报道聚焦于此:从上市企业英思达(360)、智能轮椅Strut,到拓竹、极俏(Hyper Shell)等新锐公司,均扎根于此。值得注意的是,这些企业的起点并非AI,而是以用户需求为原点的软硬结合实践——AI只是赋能手段,而非产品定义的出发点。

这一生态的形成与李泽湘教授推动的深圳科创学院松山湖机器人基地密切相关。基地采用“从B端转向C端”的孵化策略:年轻创业者更易通过C端产品定义能力快速验证创新,再反向拉动供应链升级。基地已形成清晰的创业路径:多数团队面向高购买力欧美市场,以高毛利+高体验策略支撑持续研发;常借Kickstarter众筹首发,聚焦四大场景:DIY/Maker、户外出行、娱乐、家庭服务。

这些企业的共性同样显著:大量创始人来自大疆,聚集于深圳西丽“天空之城”周边;在产品哲学、工程文化与供应链协同上延续大疆基因——朴素、硬核、以用户价值为本。这与Alan Kay“认真做软件者应自造硬件”的软件中心主义视角形成对照:深圳模式更强调“用技术支撑真实需求”,而非技术驱动本身。

“做满足用户需求的技术也能支持的产品。”

消费级硬件:从 niche 到 mainstream 的跃迁路径

欧美消费级硬件创业公司普遍以高毛利支撑持续研发与市场竞争,其产品常通过 Kickstarter 众筹平台完成首次亮相,并围绕明确的需求场景组织产品线。东莞松山湖基地的展厅即按五大类需求分区布展:DIY/Maker类(如桌面级3D打印、CNC)、户外出行类(如户外储能、电助力自行车)、娱乐类(如智能乐器)、家庭服务类(如8秒洗净碗的桌面洗碗机、除草机、泳池机器人、宠物烘干机)等。这类企业的发展路径具有高度可预测性,但真正实现规模化增长需跨越两大关键门槛:其一是产品从小众市场向大众市场扩散,例如消费级3D打印机与无人机,初期市场规模难以想象,最终却成长为百亿级赛道;其二是生态与场景的协同构建,如大疆借力航拍场景打开市场,拓普集团同步打造 Maker World 模型社区,以丰富生态降低使用门槛。“一个真的好的品类一定会吸引更多的竞争者”——扫地机器人即为典型,需求广泛推动快速扩散,却也迅速陷入红海混战。英萨三六零创始人刘庆康在2023年曾表示:“长远看激烈的竞争不可避免,但我的初衷是这件事越晚到来越好。”至2025年,其旗下影灵发布无人机,与大疆在影像设备领域形成多品类交叉竞争,攻守之势悄然转换。

AI双面性:硅谷的繁荣与阵痛

2025年末的硅谷,呈现出天价薪酬与大规模裁员并存的极端张力。旧金山与湾区成为这一矛盾的缩影:一方面,Meta开出上亿美元大额Offer,初创公司起步即融资数亿、估值飙升;另一方面,Google、Meta、微软等科技巨头在2025年总计裁员6万至8万人,亚马逊更在2025年10月与2026年1月底两度裁员,合计超3万人。数据追踪平台 Layoffs.fyi 显示,被裁岗位涵盖HR、运营、设计乃至软件工程师等白领岗位。在这样的背景下,职业身份与技能价值正被重新定义。现场观众中,不少数据科学家焦虑地向立正(前Statseek数据科学家,现为OpenAI收购企业成员)提问转型路径,而他的回答简洁有力:“不要做数据科学家。”这一反直觉建议,折射出AI时代对“人”的角色重构:与其固守岗位,不如转向AI增强型工作流。卡兹克在晚点第109期中分享的实践印证了这一点——他带领团队用AI自动筛选每日AI新闻、分析高传播潜力内容、甚至辅助线下活动分组,其核心方法论是“干中学”:从工作中最重复、最不愿手动执行的部分入手,践行“把任何重复三遍的事AI化”的朴素原则。

AI时代的人的意义:从工作认同到体验本体

尽管AI已深度嵌入工作流,记者群体却普遍感到“AI并未显著减负”——内容产出量反因行业热度提升而激增,而AI难以替代的核心环节(如深度访谈、反复斟酌的沟通)仍高度依赖人类判断。这种张力引向更深层的议题:当AI接管大量技能型工作后,人的意义感将从“职业胜任”转向“存在体验”。北大胡勇老师曾指出,AI带来的最大挑战是“重新理解和感受到人的意义,并不在于工作”,这一观点引发强烈共鸣。Meta前AI研究总监田渊栋在《破晓之中》构想了一个更曲折的图景:当虚拟世界中的人不再有生老病死与物质匮乏,一位三流画家仍因“无法超越他人”而陷入痛苦——这预示了AI替代初期可能出现的空虚感与价值焦虑。但长期来看,田渊栋持乐观态度:人类或可摆脱以职业为中心的教育与评价体系,转向兴趣驱动的活动与独特性竞争,最终迎来职业多样性的爆发。这一转向在现实世界已有萌芽:黄东旭在卖掉房产、全家入住房车前,已开始向内探索人生意义,其答案是“体验”——“来到这个世界,体验这个旅程。毕竟大模型不能替你活过。”