Cursor 的这笔交易具有重要的象征意义。它实际上是 AI 应用层迎来的第一个现象级成功。
他们有力地验证了以下价值主张:深耕垂直领域的重要性;作为“模型路由器”的角色;何时依赖前沿模型、何时训练自有模型;以及通过 AI 应用层的市场进入(GTM)与分发策略来把握市场机遇的关键作用。
他们业务的方方面面都经过精心打磨,旨在竞争激烈的赛道中开辟阵地并持续加码。这确实是规模化执行这套打法的首个范本。
好文。那些能将独特的知识产权、组织经验和数据转化为特定格式与架构,从而充分捕捉 AI 进步红利的公司,将在未来占据最有利的位置。
“真正的机遇不在于挑选最好的模型,而在于在模型之上构建一个学习闭环,让人力资本与 Token 资本实现复利增长。你可以外包任务,甚至外包工作,但你永远无法外包学习。企业的未来在于能否实现人类与 AI 之间学习能力的复利叠加。
这需要一种全新的架构方法,让企业能够构建随时间不断进化的智能体系统,同时仍能掌控自己的知识产权。公司应当能够更换‘通用型’模型,而不丢失其学习系统中内置的‘资深员工’级专业知识。”
我们都在共同探索 AI 未来的正确架构。但显而易见的是,巨大的权力和价值将流向那些能最有效地利用 AI 系统来处理自身信息的地方。这也是为什么在未来几年,AI 应用层也将获得巨大的价值。
这一切最终的大赢家将是开源权重模型。这对该领域而言是巨大的胜利,因为两天前还完全是理论上的风险(模型可能被撤回),现在已经有了先例。
美国应当高度重视其中的博弈论风险,即在模型层而非应用层监管 AI,会促使其他国家更有动力开发“主权 AI”。如果一个模型随时可能对某国的用户或企业停用,那么依赖特定国家的技术将构成切实存在的风险。
因此,这会迫使主要国家走上自己的 AI 发展道路,从而随时间推移削弱美国在该技术栈中的领导地位。其他国家最可能依赖的解决方案是开源权重模型,而目前这类模型大多并非来自美国。
美国在决定如何以及在技术栈的哪个环节监管 AI 时,应当考虑所有这些连锁反应。同时,我们也应当大幅增加开源创新。
如果你好奇 AI 监管实施后会是什么样子,按照目前的趋势,这基本上就是未来的图景。
如果政府掌控了模型的发布权,企业将不得不花上数月时间与政府反复拉锯,讨论模型在特定场景下的风险,并就如何规避风险达成共识。
许多人认为这种互动机制很健康(这倒也无妨!),但考虑到 AI 模型的能力极其广泛且难以穷尽,这可能导致模型在最终发布前陷入无休止的博弈。最终结果很可能是 AI 进步速度的放缓,因为这种延迟会累积到研究环节,并拖慢现实应用场景的反馈循环。
无论你是否愿意,我们都已经跨过了那条“卢比孔河”,无法回头了。
这是 AI 监管的一个重大转折点。
政府开始判定某些模型对于特定用途而言过于强大,这为未来的各种管控措施开创了先例。
我个人认为这并无必要,监管重点应当是 AI 的应用而非底层模型。但同样地,也有很多人更倾向于这种结果。
无论如何,我们都不太可能回到那个政府对 AI 发展速度几乎没有实质性干预的世界了。
大量证据显示,Fable 在编程(及相关)任务中的能力有了巨大飞跃。在复杂的知识型工作任务中,其准确率和成功率也实现了大幅跃升。
在我们的 Box AI 复杂工作评估中,我们将该模型与 Opus 4.8 进行了对比,发现它在几乎所有行业都表现出巨大的提升。在评估过程中,我们让使用 Fable 的 Box AI Agent 处理一系列涉及企业文档的真实、高难度的知识型工作问题,并对其任务执行情况进行评分。
Fable 与 Opus 4.8 的主要区别在于:它在复杂推理时不会走捷径,能正确完成多步计算,且多次运行的一致性显著更高。我们在媒体与娱乐(78% vs 61%)、技术(81% vs 73%)、金融服务(89% vs 83%)和医疗保健(66% vs 60%)领域看到了最显著的跨越。
具体案例包括:
* **法律并购尽职调查**:在根据一家半导体公司的合同政策审查 NDA(保密协议)条款的任务中,Fable 正确识别出共同所有权条款违反了排他性要求,而责任上限在“超级上限例外(Super Cap exception)”条款下是允许的。Fable 得分为 100%,而 Opus 为 78%。
* **医疗保健**:在对 12 份报告进行的临床放射学错误审计中,Fable 精确地按严重程度对每个错误进行了分类,并正确得出不存在 3 级错误的结论。而 Opus 在证据不足的情况下,过早地将一个案例判定为“需要立即进行部门审查的重大错误”——Fable 得分为 63%,Opus 为 41%。
* **媒体与娱乐**...
如果你正在打造一家应用型 AI 公司,这篇文章非常值得一读。
“应用型产品之所以能在‘难以被模型训练替代’的领域站稳脚跟,靠的是做那些不显眼的工作:梳理企业的私有数据与现状以便模型处理,为模型提供执行工具,并协助客户改变其员工的工作模式。能够完成这种‘衔接’的公司很难被模仿,而且这种衔接永无止境。只要客户关系还在,集成与维护就会一直持续;而这正是那些能将领域专家工程师和工具直接交付给客户的团队所能赢得的。”
模型能力与将其应用于特定企业工作流之间,仍存在着巨大的鸿沟。其中一部分需要构建技术,很大一部分在于获取并格式化正确的数据,而更多的工作则在于变革管理和具体的落地实施(如前线部署工程师等),以确保 AI 能在特定的企业环境中真正发挥作用。
以下两点可以同时成立:前沿模型和实验室的能力将持续爆发式增长,同时也会涌现出庞大的软件和服务公司生态,将这些模型的能力带入真实的商业企业。这为新的基础设施提供商、各垂直领域的应用型 AI 公司、新一代系统集成商以及更多参与者腾出了空间。
各个领域都令人无比兴奋。
写得好。模型性能很大程度上取决于推理时的计算量,这意味着基于计算量归一化的基准测试是唯一的逻辑出路。
但挑战在于,这比看起来要难得多。因为投入多少计算量具有主观性,导致模型在不同阈值下的表现各异(简单来说,模型 X 的最低思考量可能优于模型 Y,但在高计算量下情况会反转),且可选的阈值几乎是无限的。
不过无论如何,向这个方向迈进将有助于更好地理解 AI 的进步。
编程几乎是 AI 自动化能力的巅峰,但为了让 AI 智能体发挥效用,仍需人类工程师进行监管。
AI 模型是在海量复杂的代码上训练出来的;用户技术过硬,能快速掌握新工具;工作内容是“可验证”的,因为应用可以测试;产出结果往往与代码质量脱钩(代码写得烂,应用照样能跑);此外,智能体所需的上下文通常已数字化并存在于代码库中。
这些优势让 AI 编程智能体如虎添翼。虽然其中一些优势也适用于知识型工作,但在那些需要全面审核才能产生价值、或数据数字化程度较低的领域,大部分优势并不适用。这使得 AI 在知识型工作中的应用变得更加复杂。
既然在如此高的自动化程度下,工程师的需求依然旺盛,那么其他知识型工作面临的风险可能比预想的要小。AI 智能体会让人能做更多事情,但人并不会消失。
Anthropic 的这篇文章发人深省。我认为这段话指出了 AI 乐观前景的核心要素:
“由于 Anthropic 的员工在使用能力极强的模型,新想法、新计划、新工具和新模拟正呈爆炸式增长——其数量远超我们的执行能力。组织识别并解决这些瓶颈的速度可能会随时间提升,并可能成为任何组织最重要的技能。”
AI 大幅降低了门槛,让我们能做更多事。因此,我们的想法远多于执行力;而对于想要实施的想法,我们最终受限于处理执行这些想法所需的配套工作能力。无论 AI 如何进步,这一挑战都无法消除。
AI 将让我们开发更多软件、开展更多营销、研发更多药物等等。所有这些工作,即便有智能体(agents)加持,最终仍需要人类来管理。
持续发布的就业数据表明,情况正朝着与许多人预期截然相反的方向发展。
以工程领域为例,这是受 AI 影响最大(且被认为风险最高)的领域。由于 AI 的助力,大多数公司的软件项目比以往任何时候都多,而实际上只有工程师能完成这些工作。
非技术人员或许能暂时构建软件,但最终总得有人去理解构建出的成果、进行维护、修复安全漏洞、升级底层系统等等。而这些全都是工作岗位。
将这一逻辑推广到其他职能:AI 会促使公司增加销售人员的招聘,因为 AI 代理能处理更多线索并进行更多客户调研;AI 也会引发营销岗位的爆发,因为活动投放和精准获客变得更加高效。以此类推。
AI 对就业的影响,将与许多人的预想截然不同。
进入 AI Agent 时代,一个核心问题是:当竞争对手拥有和你一样的 AI 模型和智能时,你该如何建立竞争优势?
未来能保持领先的企业,必然是那些能将内部机构知识、现有数据资产以及特定领域的业务流程与 AI 深度结合,并能高效利用这些资源的。
企业是选择自建技术栈,还是利用各类顶尖工具,这固然是一个核心变量。但关键在于,企业如何能够长期捕捉并保护由其独特的数据、流程和专业知识所创造的价值。每个行业都有其独特的路径,竞争优势也将因垂直领域而异。
我们在 Box 身上正日益看到这种趋势:客户希望在利用自身机构知识的同时,能够灵活地随时将任何 AI 模型和智能应用于其数据。这种模式将日益成为未来战略的核心原则。
再次强调,这或许有些反直觉,但在我与大型企业 CIO、CTO 和 CEO 的大多数交流中,他们要么正因 AI 而扩张(例如新增 FDE、工程等岗位),要么至少正将效率提升带来的结余重新投入到业务的新领域(如销售、市场等)。
高盛 CEO 大卫·所罗门(David Solomon)上周在《纽约时报》的一篇评论文章中对此表达得非常透彻:AI 热潮既在 AI 系统的构建和跨行业应用中创造了全新的岗位,也释放了资金,使其能够投入到那些此前资金不足或因 AI 而需求激增的领域。
大多数企业此前都受限于诸多因素:给定成本下的软件产出量、销售代表的人数、营销活动的规模、能否进行足够个性化的主动客户成功拓展、能否发现并预防业务风险,以及数百个其他环节。
当 AI 让这些事情变得更高效、更具规模时,资金就会重新流回业务。从长远来看,那些能更好地服务客户的公司将赢得竞争,而那些仅仅试图通过 AI 削减成本的公司,最终表现反而会更差。
Opus 4.8 正式发布。我们已通过 Box AI 智能体,针对企业文档中最复杂的真实知识工作任务对其进行了测试。
Opus 4.8 在企业最关心的生成与分析任务(如撰写报告、综合数据、审查各行业复杂文档)方面表现出显著提升。以下是其对比 Opus 4.7 的优势示例:
* **报告撰写**:Opus 4.8 在多数报告撰写任务中表现更佳,生成的分析报告更完整、更准确。在工业品报告任务中,得分从 Opus 4.7 的 77%
我们正经历从廉价、小上下文窗口的 AI 对话工具,向具备超大上下文窗口、能处理长期任务、且推理成本高出一个数量级的 AI Agent(智能体)的转变,因为后者的性能更强。
这种演进速度远超大多数人的预期(除非你去年年中或年末一直密切关注,这里的许多人确实如此),而且现在的资金流入也变得更加实实在在。
接下来,AI 能力将持续进化,首先会被编程、科学、金融、咨询等前沿应用场景所采用,随后,部分任务会分流给足以胜任工作的低成本模型。以前我们认为 AI 的成本可能会收敛到统一的低价,但现在很明显,根据任务需求,成本分层正在进一步扩大。
这将是 AI 广泛普及过程中必须解决的又一个问题。企业需要建立专门的项目、新的财务团队和技术方案来应对。那些能帮助客户针对具体任务实现成本优化的实验室和平台,将占据最有利的位置。