从偏科少年到中国第一代软件出海创业者
嘉宾纪超(Pik)是 ManusAI 的联合创始人兼首席科学家。他出生于学术与创业交织的家庭——父亲是北大物理系教授,母亲是中关村早期创业者。这种双重背景塑造了他在科技与商业之间寻找平衡点的独特路径。
他自述并非传统意义上的“聪明学生”,学习表现中等偏下,但很早就发现自己对“自己瞎琢磨”的强烈兴趣。真正改变他人生轨迹的事件是 2009 年 App Store 的上线。在此之前,个人开发者即使做出好软件也难以实现全球化变现;而 App Store 提供了一个清晰、低门槛的商业模式:一次性付费下载(buy copy)。
当时还在高中的他开发了第三方 iOS 浏览器 Mambo Square Browser(毛马浏览器),采用纯付费模式运营,最终累计收入约 30 多万美元。这笔现金流对高中生而言已属可观,且因模式简单、维护成本低,成为他早期创业的“安全垫”。他因此也成为中国第一代软件出海创业者。
“而 App Store 当时的出现给了我一个契机,就是说我可以向我的父母、同学,乃至于老师证明说,我瞎搞的这个东西是能产生经济价值的。”
“我算是赶上了一个好时代吧,当时。”
他指出,那个阶段是典型的“平台迁移红利期”:从桌面互联网向移动互联网跃迁时,硬件媒介更替带来生态真空,巨头与个人开发者站在同一起跑线,尚未形成成熟的商业模式壁垒。而对比当下 AI 时代,他敏锐指出:AI 是技术突破,却未伴随新平台诞生,因此不存在“蛮荒期”——巨头、创业公司与个人开发者反应速度几乎同步,竞争门槛反而更高。
这段创业并未以“结束”收场,而是自然消亡:随着 iOS 系统更新,浏览器逐渐失配,最终被 App Store 下架。但他视其为人生创业的起点——它不仅验证了出海变现能力,更意外将他引向自然语言处理(NLP)领域,为后续发展埋下伏笔。
真格基金的承诺与辍学创业的抉择
尽管毛马浏览器带来可观收入,但纪超很快意识到其模式不可持续:巨头已回过神来,第三方浏览器市场将不可避免走向免费+增值服务路径。他尝试在功能上做跃升——提出“预测用户下一次点击并预加载内容”的方案,以应对当时 3G 网络下的弱网体验问题。
这一需求直接牵引他进入 NLP 领域。2011 年前后,他开始系统研究自然语言处理,成为国内最早一批实践者。他强调自己始终遵循“需求驱动学习”原则:所学内容均源于真实问题,因此兴趣与目标高度一致。
真正意义上的第二次创业始于他决定转向 NLP。2011 年,他在中关村一次创业活动中结识真格基金徐小平。当徐老师问他“想创业吗”,他起初拒绝——毕竟已有稳定现金流。但经父母鼓励后,他开始权衡机会成本:App Store 带来的正反馈是时代机遇,而非常态;若继续读书,未来未必能复制这一成功。
最终他接受真格基金的 term sheet,并做出关键决定:辍学创业。他看重的不仅是资金,更是真格“不干预、任你发挥”的承诺——这为他后续转向 NLP 研究提供了自由空间。
“我说我不想做浏览器了,然后真哥说随便。”
他坦言,若回看当年,未必能做出更优选择;浏览器本身也更适合作为巨头生态中的“锦上添花”功能,而非颠覆者武器。但这段经历让他确认了核心兴趣:不是做产品,而是做底层技术。
Word2Vec 如何点燃他的 NLP 研究之火
2013 年,Mikolov 团队在 Google 发布 Word2Vec 论文,首次实现将自然语言高效映射为稠密向量。纪超称其为“我心中最石破天惊的转折点”——它让深度学习方法得以系统性应用于 NLP,终结了此前依赖人工特征与复杂规则(如依存句法分析、中文分词等)的“小作坊式”研究范式。
此前的 NLP 研究高度依赖标注数据与领域知识,难以规模化(not scalable);而 Word2Vec 所代表的分布式表征思想,为后续端到端模型铺平道路。他由此彻底转向 NLP,并意识到:自己真正的热情在于探索语言背后的计算本质,而非界面层的产品实现。
他特别提到,真格基金兑现了“不干预”的承诺,使他能自由切换方向。这也印证了他早年对创业环境的认知:早期创业成功不仅靠技术,更依赖制度性支持——尤其是对探索自由的尊重。
这段经历也埋下了他日后联合创立 ManusAI 的种子:当大模型统一 NLP 任务后,他回望早期探索,反而更清晰看到“需求牵引技术演进”这条主线的价值——从浏览器预加载,到弱网优化,再到语言建模,每一步都源于真实场景的痛点。
从浏览器转向语义搜索的转折点
2013年 Word2Vec 论文的发布,对作者而言是“新世界的大门打开”的时刻。这一技术突破让他意识到自己的兴趣其实在于语言模型(LP),而非继续深耕浏览器领域。他向创始人真哥表达转岗意愿后,对方爽快同意:“随便。”——这份信任为后续探索提供了关键空间。当时,可穿戴设备(尤其是Apple Watch)即将面世的传闻,引发了他对交互范式变革的深刻思考:传统“输入query→返回10个蓝色链接”的搜索模式,高度依赖桌面大屏;若未来交互界面转向语音或小型可穿戴设备,这种自由文本形式将难以适配。因此,他萌生了以更结构化、更紧凑的方式重构人机知识交互的目标,这正是后来“语义搜索”(semantic search)的雏形。团队当时坚信,这将是“下一代Google”,甚至可能复制Google当年颠覆Yahoo的路径。
这个东西我当时会觉得这就是下一代的Google。我作为一个呃创业者,我会不会是当年的Google,像当年的Google颠覆Yahoo那样的?
所以当时我想解决的一个问题是什么?就是说我能不能以一种更结构化且更紧凑的形式把知识跟用户之间的交互进行一次革命。
知识图谱的自动化之路:从白名单到Open IE
为实现紧凑知识表达,团队将目光投向知识图谱——尽管彼时它尚属“半截身子埋在土里的老词”。他们很快发现,主流知识图谱(如Freebase、Wikidata)严重依赖人工标注或众包编辑,存在完备性瓶颈。为突破这一限制,团队转向自动化构建路径:早期尝试结合命名实体识别(NER) 与关系抽取(Relation Extraction),但受限于预设schema——NER仅识别有限实体类型(人名、地名等),关系抽取也需提前定义谓词(如“主持人”“出生日期”),而现实中实体间关系近乎无限。这一局限促使团队提出并实践了开放式信息抽取(Open IE):不依赖白名单或预定义关系,让AI自主识别文本中的实体与关系,并直接输出三元组(S-P-O),持续构建动态知识图谱。
我们当时投入到了一种新技术的研发……后来的话,这个技术在学术界的定义应该叫做 open information extraction,叫 open IE,开放式信息提取。
它跟刚才这些技术的区别就是说,我不需要提前定义一套规则或者 schema……完全变成一个 schemaless,就是说呃无大纲的形式的提取。
技术跃迁中的苦行与幻灭:从LSTM到GPT-3的冲击
从2013年底起步,团队踏上了一条“最苦的路”:从零训练模型,并持续应对技术迭代的阵痛。早期并行探索依存句法分析与BERT式向量化方案;随后迭代至LSTM、LSTM+Attention;但很快发现词向量无法处理同形异义(如《西游记》孙悟空 vs《龙珠》孙悟空 vs《王者荣耀》孙悟空),亟需上下文相关的编码方式。Transformer、BERT的出现解决了该问题,却也意味着前期大量工作被“清零”。更严峻的是长上下文限制:BERT默认仅支持512 tokens(实际可用约510),而网页内容远超此限。团队从2018年底攻坚长上下文,最终实现16K长度支持——虽在今日看来微不足道,却是当时的重要突破。
产品层面,他们推出了名为Maggie的系统(灵感来自动画超级计算机),实现AI自主抓取全网文本、持续构建知识图谱,即今日所称的持续学习(life-long/continuous learning)。作者坦言,这是其“智力和编程能力的巅峰”,但外部技术爆炸加速了幻灭:2019年拿到GPT-3 Early Access后,他意识到“天要塌了”——GPT-3仅用简单prompt,便达到自研小模型五五开的性能,且具备任务通解性。此前各NLP子领域(信息抽取、机器翻译、客服系统)泾渭分明,而GPT-3印证了“大一统模型”的可行性。最终,团队选择出售公司,结束这段“顺着技术往上爬”的创业旅程。
拿到GPT-3的时候,我测了一下。我觉得天要塌了……它虽然现在很贵,但是它是一个通解。
你光有技术,其实你解决不了不了一些非技术问题。
技术理想主义与搜索梦碎
Maggie 项目是团队基于第一性原理发起的一次雄心勃勃的尝试:打造一款能替代 Google 的搜索引擎。但项目过程中,团队严重低估了搜索引擎的系统性门槛——不仅技术上需要从零构建爬虫、索引引擎等全栈基础设施(“我工程能力的巅峰”),更关键的是,非技术因素早已构成难以逾越的壁垒:Google 与各类数据源之间已形成闭环协同生态,新入局者几乎无法复制其二十年积累的网络图谱与信任链路。
更深层的反思是:时机错误。团队曾寄望于新一代可穿戴设备或人机交互界面的出现,但直到 ChatGPT 横空出世,才真正引爆通用人机交互的拐点。因此,Maggie 的失败并非技术不足,而是“早一步是先烈”。
“我把我这辈子想试的技术,都以合理的方式花投资人的钱给搞定了。”
“所以在那个项目做完的那一刻,我的人生已经圆满了,你知道吗?”
项目虽未商业化成功,却成为一次高密度技术练兵:团队实现了89%+ 的最高置信度准确率(优于同期 Google 的 Knowledge Vault)、多语言支持(含反向阿拉伯语)、向量搜索实战落地(与英特尔合作,基于 PMM 持久化内存与 HSW 算法自研索引),并完成了大规模系统工程验证。这段经历让创始人彻底放下“未竟之业”的执念——此后所有行动,皆为热爱,而非证明。
大厂打榜岁月:算力自由与组织观察
离开 Maggie 后,创始人在一家即将上市的 AI To B 公司工作了一年半。这段经历意外地“非常开心”,原因并非职位或薪酬,而是一种反常规的内部激励机制:团队以“打榜”为核心,将用户需求转化为可量化 benchmark,researcher 通过榜单竞争获取算力资源——赢榜越多,显卡越多,形成正向飞轮。
他本人长期霸榜第一,囤积数十张 GPU,得以自由实验各类技术构想,算力充裕 + 客户真实需求驱动 = 极致研发自由。这与他早年在北大附中的经历形成奇妙呼应:自由探索空间(如不受强制上课约束的计算机社团办公室)与资源倾斜机制,共同催生了他最高效的成长阶段。
更重要的是,这段经历让他更清晰地认识到自身特质:极度不适配 CEO 角色——他厌恶商业化决策、抗拒组织管理的复杂人性博弈(“人太复杂了”),且易陷入“正道执念”:在技术理想与商业现实间,会本能选择前者,哪怕明知是错。因此,他渴望找到一位能“在我又想发癫的时候给我摁死”的 CEO 搭档。
画布思维:从垂直整合到轻量观察
第二段创业终止时,他面临关键抉择:是否投身大模型浪潮?答案是否定的——他已厌倦“垂直整合的窒息感”(比喻为“每天醒来海水上涨,不知何时淹到鼻子”)。他明确将目光投向基础设施层与应用层,但发现当时 AI 应用仍处于混沌期:真正验证 PMF 的产品仅 ChatGPT 与 Character AI 两款,而后者他直言“自己用不进去,做不好”;前者则让他确信“Chatbot 赛场已结束”。
最终,他选择以“空画布”方式切入:不预设方向,而是寻找一个无偏观察用户行为的窗口。Monica 浏览器插件的形态击中了他——它不改变用户习惯(用户仍在用 Gmail、YouTube),功能分发完全依赖上下文(如仅在看 YouTube 时触发视频理解功能),从而规避了“Everything added dilutes everything else”的复杂度陷阱。
“它甚至不能叫一个产品形态,它是一个空的 Container,一个空的画布。”
这一洞察成为他加入 Manus 的底层逻辑:先观察,再定义;先验证,再构建。他不再相信“因为相信所以去做”,而更倾向“像字节跳动一样,有一点数据思维”——用最小成本,在真实场景中捕捉用户与 AI 的交互本质。
浏览器插件:AI应用时代的观察窗口
作者认为,浏览器插件是一种极为精妙的观察用户如何使用AI的窗口——它甚至不能被称作一种成熟的产品形态,而更像一个空的容器或空白画布。这种轻量、嵌入式的设计,恰恰能有效消解功能叠加带来的复杂度爆炸问题。正因如此,插件成为用户进入AI应用时代的天然门槛。作者提到,通过插件观察到了一些非常有趣的现象,这些观察后来深刻影响了Manus的创业方向。在AI产品设计中,保持界面极简、功能隐性嵌入,比强行堆叠功能更符合用户心智模型。正如他所说:
它甚至不能叫一个产品形态,它是一个空的 Container,一个空的画布,所以我觉得这款产品是绝佳的作为进入AI应用时代的门槛。
它其实消解了就是功能增加带来的复杂度爆炸问题。
小红:AI时代稀缺的‘正常人’CEO
作者反复强调,小红身上最稀缺的特质是正常——身心健全、无极端思想、不偏执、不抑郁。他直言:‘你没有乔布斯的命,却得了乔布斯的病’ 是当下许多AI创始人的通病。相较之下,小红的理性、常识导向与团队信任感,使其成为能持续将公司从一个阶段带到下一阶段的稀缺人才。作者指出,自己若独立创业,只会沉溺于喜欢的阶段;而小红则具备长期主义的稳健执行力,能平衡直觉与数据驱动的判断方式。
这种‘正常’并非平庸,而是在AI创业已转向重运营、高成本结构的新阶段下,一种对现实的清醒认知与克制。作者甚至反思:移动互联网时代偏爱‘艺术家型’创始人,但AI时代更像传统制造业——用户增长直接带来线性成本上升,对经营能力提出更高要求。正如他所言:
小红非常的现实……或者说包括整个现在我们公司的这一个运行,其实我觉得都是很稳健的,嗯,甚至有时候我们内部反思会觉得有点保守,嗯,但这才是一个叫什么?就是更尊重对尊重常识,我觉得你这个词说的很好。
就是说,以前移动互联网时代,我还挺喜欢这类人的……但其实我们觉得现在AI这个行业……它更像传统的制造业。
模型与产品的先后之辩:从‘买彩票’到‘稳中求进’
作者基于前次创业的惨痛教训,明确反对‘从产品反推模型’的路径依赖。他认为,若在产品早期就绑定自研模型,本质上是在‘买模型彩票’——即使有清晰Roadmap,也无法保证模型在最终交付时能精准满足需求。他举例指出,OpenAI之所以持续创新,正因其长期坚持自下而上的迭代范式;而创业公司若反其道而行,极易陷入技术与产品脱节的泥潭。
他主张更健康的路径是:先达成产品-市场匹配(PMF),再以降本、增稳或突破天花板为目标,自上而下构建模型能力。这一判断也体现在他对大模型公司的观察中——他虽曾看好千问、DeepSeek和Gemini,但始终认为应用层才是创业者的主战场。他指出,随着Cursor等公司推出自有模型(如Composer One),模型与应用的边界正在快速模糊;但即便如此,‘先做产品,再做模型’仍是更理性的节奏。他总结道:
所以很多时候你是因为有些突破,所以反向在引导产品的的走向。这个我觉得我之前已经吃过这个亏,这是第一点。
你当过CEO,然后也当过就是旁观CEO的人,你觉得身心健康对于现在AI的Founder来说价值大吗?我觉得非常大,就是因为你很有可能会受挫,或者说你必然受挫,但是身心健康的人是打不死的……
模型与应用的边界正在消融
在2023年,几乎所有主流大模型公司都进入了访谈者的视野。他当时就提出几个关键判断:long context能力并非决定性优势;自然语言与系统交互的边界——即function calling、environment interaction,也就是今天所说的agent能力——将成为核心分水岭;以及scaling定律(bitter lesson)依然有效——人类AI进步史反复证明,通用方法+更大算力比人工注入专家知识更有效。基于此,他早早投资NVIDIA,并笃信Google终将凭借其双向技术实力胜出,尽管这一过程耗时较长。
他进一步指出,模型知识在业内流通极快,尤其在硅谷,几乎没有秘密可言。因此,未来真正的竞争将从“模型之争”转向“应用之争”。做出一款被用户喜爱的优秀应用,其难度远超训练一个“够好”的模型。模型公司与应用公司将不再泾渭分明,而是呈现“应用绑定模型”的融合态势。
“训模型这个东西,它的知识的流通在业内是非常非常快速的……所以这个东西一定会流通的。”
“我觉得到最后,其实会变成一个应用之争,然后每个应用背后会绑一些模型。”
从插件到浏览器:一次误判的‘原生化’尝试
2024年3月加入Manus前,访谈者曾深度参与Monica的早期战略讨论。当时团队拥有一定用户量,且产品已实现正向现金流,因此自然外推出一个直觉性判断:我们是否该跳出插件生态,打造一款原生AI浏览器? 这一想法看似有数据支撑——毕竟Chrome插件商店头部产品(如Ad Block、Grammarly)活跃量级仅约五千万,而Chrome日活达二十亿,插件渗透率不足1%。
然而,从2024年4月到9月的快速开发过程中,团队很快意识到问题所在:浏览器本质是联网工具,却试图用端侧模型实现隐私与零API成本,逻辑自相矛盾;更关键的是,用户并不关心技术实现方式,只追求效果——在Apple Silicon上,端侧模型顶多运行30亿参数量级,远逊于云端旗舰模型。
“你拜托你做的是一款浏览器,浏览器本身就是联网的,你为什么要追求一个离线端测运行?现在想起来可能有点傻。”
六位合伙人的‘反CEO’结构与混合决策机制
Manus(及前身蝴蝶项目)由六位合伙人构成核心团队:萧红(CEO)、张涛(CPO,负责产品与对外合作)、潘潘(CTO)、慧杰(CMO)、访谈者本人,以及负责运营与财务的CFO。其中前三者是Monica原始创始团队,张涛则是资深连续创业者(豌豆荚、神策等)。这种结构源于团队高度复合的能力背景——每人皆为多面手,且彼此信任、观念中正、无不良嗜好(玩笑中)。
在决策机制上,他们采用分阶段混合模式: - 定目标(Goal):采用“仁慈独裁”(BDFL)模式,由CEO快速拍板; - 定优先级(Priority):独裁+民主结合,一人拍板,充分讨论; - 生成备选方案(Alternatives):高度民主,鼓励数量优先,因“action space不足则决策必劣”。
他们正从早期“自上而下”的快节奏决策,逐步转向“自下而上”的赋能型组织。萧红作为产品最终决策者,访谈者则在技术领域拥有BDFL权限——这种分工确保公司基因是“产品驱动”,同时保留技术深度与执行弹性。
“与其悬而未决,不如赶紧试试……你没有额外的信息输入,你仍然是基于你模型内部的参数化知识,没有做rag,对吧?你也没有一个检验的结果,那你在想太多,你不如先把这事干了,拿到你的reward再去做。”
原生AI浏览器的体验困境
当AI被赋予对用户电脑的直接控制权时,会出现一种奇特的“人机抢系统”体验。例如,让AI在网页表单中逐项填写时,一旦用户手动滚动页面——哪怕只是想查看后续字段——就打断了AI的观察链(observation chain),导致Agent可能强行将页面拉回原位,造成操作冲突。这种体验本质上源于一个被忽视的前提:当前所有操作系统与软件的设计逻辑,仍是为单人同步操作构建的。我们曾形象地比喻:这就像你和一个极其聪明却缺乏分寸感的实习生共用一台电脑,彼此都在争夺控制权。
更深层的问题在于任务价值的错配。我们发现,若让AI去执行那些用户几秒内就能完成的短任务(如点外卖),反而会因推理延迟(哪怕仅需5–10秒)而显得低效,用户自然会想:“我干得更快”。真正体现AI价值的,应是长时程任务(long horizon task)——即范围广、步骤多、耗时长、且用户本就不愿亲为的任务。但问题随之而来:当AI持续在本地运行、操作浏览器时,用户无法合上笔记本(否则休眠导致任务中断),又无法同时处理其他工作,陷入“守着AI干瞪眼”的尴尬境地。
“这就像你有一个特别聪明的实习生,但你好像非要把你跟这个实习生一起共用一个电脑。”
“我干更快,这是我们常见的一个想法。”
浏览器作为载体的结构性困境
随着反思深入,我们开始直面一个核心拷问:在Chrome已高度成熟、且Monica插件表现优异的生态中,用户究竟有多大动力为AI功能而更换浏览器? 历史表明,浏览器的两次大规模迁移——从Netscape到IE,再从IE到Chrome——其根本驱动力并非技术本身,而是渠道分发能力(IE靠系统预装,Chrome则结合了首页地位与IE的技术溃败)。若无类似的历史窗口,创业公司很难凭“AI+浏览器”的组合实现颠覆。
这一认知在《The Browser Company》创始人Josh Miller宣布 discontinuing Arc 浏览器时得到强烈共鸣:“我甚至无法说服我的亲戚朋友从Chrome换成Arc。” 这句话如黑纸白字般道出了我们内心的疑虑——做第二遍浏览器,大概率只是重复失败。
值得强调的是,放弃并非轻率之举,而是在理性审视中形成的共识。团队成员(尤其是被“重做浏览器+搜索引擎+LLM”愿景吸引加入者)起初也难逃“产品完成后的偏爱惯性”,但当产品打磨完毕后仍感到“不是特别酷”,我们便意识到:若连创造者都不觉得它酷,用户更不会喜欢。这种从用户视角出发的诚实判断,比任何数据都更具决策分量。
“对于任何一个复杂问题,总能有一个简单清晰但错误的回答。”
从无所事事到Manus的诞生
放下浏览器项目后,团队进入一段“无所事事”的真空期——这反而成了灵感的温床。与此同时,Monica作为正向现金流产品,持续为我们提供两大关键资产:一是财务上的决策自由度,使后续探索既大胆又理性;二是对用户AI使用行为的深度洞察,尤其是“context”(上下文)在真实交互中的核心地位。Monica通过被动观测用户浏览器行为(严格脱敏处理),让我们看清了用户如何自然地与AI协作,远超传统Chatbot需手动粘贴内容的割裂模式。
真正触发Manus构想的,是2024年10月左右对Cursor的观察:非工程师用户(如运营、数据分析师)正用这款专业IDE完成博客撰写、数据分析等非编码任务。他们并不看左侧代码,而是持续与AI对话,让AI以编程为媒介执行任务。这揭示了一个关键洞见:编程不是垂直技能,而是通用问题求解的媒介。而Cursor的IDE形态对这类用户而言显然非最优——它仍要求用户“在自己电脑上运行”,重蹈了AI浏览器的覆辙。
最终,我们从MIT校训“Minds at Manas”(心与手)获得命名灵感:别人已在“心智”层面深耕,而我们要做的,是那个“手”——让智能真正触及现实世界。Manus(拉丁语“手”)由此诞生,使命明确:不替代用户操作,而是延伸其能力边界。至于为何产品多以M开头?“这纯属巧合,可能M开头的产品运气都不会太差。”
“再强的智能,你也不能把环境给内化掉……你一定是需要一个手来去触及到现实世界中,否则你再强的思维,你也只是一个理论物理学家,或者说,甚至你可以说是一个缸中之脑。”
编程作为通用媒介:从 Cursor 到云原生 Agent
团队在反思 Cursor 的使用体验后意识到,编程并非垂直技能,而是一种通用任务的实现媒介。用户真正需要的不是写代码,而是通过与 AI 的自然交互来完成目标——AI 以代码为底层媒介,异步、自动地执行任务。这引出了对产品形态的重新构想:Cursor 的本地化运行方式限制了注意力释放,而理想状态应是让 Agent 在云端运行,实现真正的异步与并发处理,从而成倍提升效率。此外,代码本身不应作为用户界面的核心呈现,因为对非技术人员而言,看到代码会引发天然的紧张感;更严重的是,本地运行的工具常需请求系统级权限,一旦误操作可能带来严重后果——例如有用户因误用 Cursor 导致网卡驱动被卸载,电脑彻底断网。因此,团队决心用相同技术,但将复杂度封装在“壳”内,面向的不再是专业工程师,而是广义的脑力工作者(prosumer)。
AI通过编程的方式,以编程或者代码为媒介去完成一些非编码任务。
我们有一个朋友,他当时就用Cursor,他也不懂技术,就瞎用,结果Cursor把他的网卡驱动给卸了,导致电脑上不了网。
AirBNB 项目:浏览器上云的极简路径
得益于此前在浏览器自动化项目中积累的技术资产——尤其是对 Chromium 内核的深度理解与 Agent 调度系统——团队迅速确立了新方向:将整个浏览器“搬上云”。内部项目代号“AirBNB”(Browser in Browser in the Air)由此诞生,本质是在云端运行一个可被调用的浏览器实例,作为 Agent 的运行环境。从 2024 年 9 月底启动,到 2025 年 1 月中旬基本完成 Manus,仅耗时约六个月。但团队并未急于发布,而是选择延迟一个月半,等待 Claude 3.7 的发布,以确保产品上线即能获得最大模型代际红利。他们判断,当时可用的 Claude 3.5 Sonnet v2 虽初步具备 Agentic 能力,但在推理稳定性、泛化性等方面仍有明显短板;若提前发布,将错失一次关键的“模型溢出”窗口。
所以就是我们应该再多花一个半月的时间去抛的时呃去打磨这款产品,嗯,然后跟下一次模型的迭代对齐再一起发布。
产品驱动 vs 模型驱动:节奏、决策与 ARR 理念
Manus 的诞生也重塑了团队对创业节奏的认知:Monica 已实现约 1200 万美元 ARR(Annual Recurring Revenue),为创新业务提供了坚实的现金流支撑,使团队在探索 Manus 时保持“不焦虑”的状态。团队强调对 ARR 的严格定义——ARR = MRR × 12,且 MRR 必须来自 Stripe 等可验证渠道的月度收入,反对任何形式的虚高估算。这种对指标的敬畏,也延伸至对“技术 bet”的理解:产品公司不应执着于单向门的重技术押注(如等待预训练 checkpoint 结果),而应采用可逆、轻量的实验式迭代。技术 bet 依然存在,但更聚焦于产品形态(如“壳”的构建)而非模型训练本身。团队将 Monica 称为“生鱼片式套壳”,而 Manus 则是“水煮鱼”——同样是壳,但后者深度整合了环境(runtime)、任务编排与交互逻辑,厚度不可同日而语。
产品的话,你的掉头会非常快。
三大关键判断:克制、差异化与通用性
在2025年初,Manus 团队面临一个关键抉择:面对当时基座模型(如 Claude 3.5 V1/V2)虽快速迭代、但稳定性、可靠性与泛化能力仍严重不足的现实,他们没有选择自研模型来弥补短板,而是做出了三个关键判断。
第一,不押注模型自研——因为技术演进速度极快,与其赌一个方向,不如选择更轻量的路径;第二,坚定押注 Agent 框架——即便当时尚未有“context engineering”这一术语,他们相信,通过优化 agent 架构仍能带来显著提升;第三,拒绝做“中国版 Cursor”——团队始终秉持“创新带来正反馈”的创业哲学,坚持做有差异化的产品,服务 prosumer(专业用户),而非陷入同质化竞争。
“我觉得不做什么真的特别重要,因为你说AI,我觉得最大的一点就是它让创业公司的产能变得很大……AI时代,大家好像眼中的机会很多,AI又充分解放了生产力,所以我觉得每天都要回答就是不做什么。”
“Manus到现在,我觉得都是一款相对克制的产品……而我们每个月都在想我能删掉什么。”
这三个判断最终被证明是正确的。Manus 的克制不仅体现在功能增减上,更反映在对产品边界的清醒认知:不做大而无当的工具堆砌,而是持续追问‘我能删掉什么’,即便在通用 agent 路径上,也坚持“减法优先”的哲学。
为什么不做垂直 Agent?通用性的底层逻辑
许多团队会自然选择垂直领域切入,但 Manus 的选择是反直觉的:不做垂直,坚持通用 Agent 路径。这背后有双重技术与产品逻辑。
技术层面:即便垂直 agent,其底层仍依赖通用基座模型;所谓 specialization 往往受限于模型本身的探索能力。而 Manus 的本质是“通用模型 + 一台计算机”——每个 session 都运行在独立、隔离的虚拟机沙盒中。虚拟机即图灵机,理论上可运行任意算法,因此底层架构天然通用。
产品层面:Manus 采用“达尔文式观察”策略——初期不预设使用场景,而是让用户自由探索,团队则通过集体行为模式识别头部需求(如 PPT、网页生成、批量文件处理),再进行最后一公里优化。这种“用户塑造产品”的机制,使 Manus 能持续捕捉真实、高频的长尾场景。
“他把这个文件上传给 Manus 之后,Manus 说:‘哦,这是一个很奇怪的文件格式,我先去研究一下。’研究好之后,Manas 自己去 GitHub 去下载了一个开源项目来解析了这个数据格式,然后再继续去完成分析。”
长尾 ≠ 低频——对专业用户而言,这些场景是 recurring(重复性)工作流。正如 Google 的核心优势在于长尾查询的惊喜感,Manus 的价值在于:只有它能解决的、专属用户的独特问题。
统一框架 vs 多产品拼凑:通用性的真正壁垒
市面上许多“通用 agent”实为多个垂直功能的界面整合,而 Manus 坚持真正的统一 Agent 框架——用户在不同任务间切换时,上下文与记忆可自由流转,从而实现“比垂直功能再多做一步”的能力闭环。
举例:当用户要求生成一个网页时,Manus 不仅能构建界面,还能同步完成: - Deep Research(深度调研)以确保内容有深度; - 搭建真实后台与数据库; - 若网页上线后获得流量,还能在同一 session 内分析数据、生成 PPT,并自动邮件发送给潜在投资人。
这种内部网络效应,正是通用框架的威力所在。
环境扩展:Manus 的沙盒系统已实现大规模 scale-out(横向扩展),如“Wide Research”功能可并行启动上百个沙盒完成广域信息检索(如批量抓取 YC 公司 CEO 联系方式),突破单模型 context window 与懒惰性限制。
虚拟化选择:团队未采用轻量容器(Docker),而是基于 Firecracker 实现全虚拟化,同时支持 Linux 与 Windows,以兼容专业软件生态。更进一步,Manus 正在维护一个专为 Agent 定制的 Linux 发行版,内置只有它才知道如何调用的工具链,极大拓展了模型的动作空间。
“其实我们最近也不是最近了吧?几个月前我们推出一个功能叫 Wide Research……Manus 其实能说哦,这个任务很难,我可能要找一百多个。那我现在能启动一百多个 sandbox,然后去并行去完成这件事,最后再进行汇总。”
影响力即议价权:用 token 消耗撬动模型演进
在 Manus,巨大的 token 消耗量(全球范围内稳居各主流模型厂商的 Top 2–Top 5 客户)赋予了我们远超普通用户的议价能力。这不仅是成本问题,更是影响模型发展方向的杠杆:正因消耗量大,我们得以与 Google、DeepMind 等深度合作,甚至直接参与功能设计与评估体系构建。例如,Gemini 的“可控并行函数调用”功能,其定义、提案与 schema 方案正是由 Manus 团队主导撰写。这种合作不是单向采购,而是双向共建——我们提需求,他们实现;我们反馈问题,他们快速迭代。
我们甚至以消耗更多的 token 为荣。
涛哥有一个梦想,就是他想造一个七乘二十四小时烧 token 的机器。
Agent 与 Chatbot 的范式鸿沟:模型训练尚未为长链路推理对齐
当前主流模型(如 GPT-3 到 ChatGPT)的后训练目标是单轮完成用户查询,这与 Agent 的核心范式——React 中的‘观察→动作’循环轨迹——存在根本冲突。Agent 需要耐心分步执行、基于中间观测动态调整策略,而现有模型却因缺乏真实 Agent 轨迹数据,在长链路任务中表现出明显的“耐心衰减”:输出越来越简略、频繁使用 bullet point、质量逐轮下降。
更深层的问题在于:模型未经过为 Agent 场景定制的训练。例如,当前的 long-context 模型虽能处理长文本,却缺乏“压缩意识”(compression awareness)——即理解上下文可被 offload 至外部存储、中间过程可被 compact 为摘要,且不丢失语义完整性。而人类记忆本就依赖这种外化与压缩机制。此外,O 系列等强 reasoning 模型在 Agent 场景中反而表现不佳:其内部长思维链会削弱指令遵循能力、提升幻觉风险。更优路径应是交错式思考(interleaved thinking):在每一步 observation 后插入短时 reasoning,而非一次性脑内推演数千 token。
你数据的 distribution 其实会影响模型的一个风格。
模型是能感觉到这种压力的,所以这块其实是一个很不好的事情。
生态协同:借力模型厂商,专注应用创新
Manus 的策略是:不重复造轮子,而是成为模型演进的‘需求引擎’。凭借产品价值与用户规模所积累的影响力,我们得以高效推动模型改进——例如《Gemini 1.5 Pro》的快速迭代就直接响应了我们反馈的 Agent 场景痛点。更关键的是,头部模型的成果会迅速外溢至开源生态,形成正向循环。
不同厂商各有专长:OpenAI 在纯推理与 coding 榜单领先;Anthropic 在工程级多轮编程任务中表现最优;Gemini 在多模态(尤其 YouTube 视频)理解上断层领先,且是唯一可通过 API 访问 Google 搜索索引的渠道。这种分化反而利好应用层:我们可按任务需求灵活调用最适模型。
谁对你们的反馈改进的最多?呃,我觉得看效率吧。其实目前其实头部的几家……大家的响应都会非常快。
你教会了他们,他们可以反过来抄你们的产品,但是你们没有那么快能抄他们的模型,怎么办呢?
竞合中的速度与场景适配优势
当前大模型生态中,Grok、开源模型等各有特色,对应用层开发者而言,这是一个前所未有的幸福时代。头部模型公司如 Google、DeepMind 和 Anthropic 响应迅速,但不同场景需匹配不同模型,因此客观效率仍受限于问题本身的复杂度。值得注意的是,模型公司发布的研究博客(如“thinking two”、MCP 的代码调用方式等)往往是在应用公司已上线功能之后才成文——这并非抄袭,而是竞合关系下的自然现象。
Manus 的核心壁垒在于两点:其一,我们不依赖单一模型,而是为不同场景动态选择最优模型,确保用户始终获得当前最好的体验;其二,垂直整合的模型公司迭代速度远慢于应用层的敏捷产品迭代节奏。这种“综合 vs 垂直”的反向路径,恰恰源于公司基因:模型公司倾向于从单一突破出发构建场景(如买模型彩票),而 Manus 则将所有外部创新视为养料,无需做选择,只专注整合与交付。
‘你教会了他们,他们可以反过来抄你们的产品,但是你们没有那么快能抄他们的模型,怎么办呢?’
‘对,我觉得就是快……他们的速度一旦是垂直整合,其实你一定是没有我们快的,因为产品方面的这个迭代还是太快了。’
数据飞轮:用户即教练,反馈即燃料
与 Chatbot 的简单重试或重写 prompt 不同,Agent 用户会主动‘教’模型:当 Manus 筛简历标准不符预期时,用户会明确指出‘我喜欢这种’‘下次请用 Excel’;若任务失败,用户还会直接修改结果并告知正确格式——这些行为构成高质量的监督信号,远超传统日志或自动评测。
基于此,Manus 实现了一种无参数更新的‘自演化’能力:随着用户量增长,系统能将高频失败模式与用户共识性反馈,转化为原生能力的一部分——用的人越多,失败率越低,任务完成轮次越少。与此同时,主观评价体系不可或缺:尽管自动化 benchmark(如 SWE-bench)有参考价值,但用户真实评分更关注易用性、美观性等难以量化的维度。因此,我们组建了十余人的跨职能 eval 团队(含技术、产品及实习生),持续进行人工评估与反馈闭环。
‘其实我在一直在教 Agent,这是教,这是第一种。’
‘它有低维度和高维度两种……更常见一种情况是用户先发现了一个错误并指正它……’
衡量通用 Agent 的新标尺:远程劳动力指标
Manus 在 Scale AI 新推出的 RLI(Remote Labor Index) 中登顶 SOTA,该 benchmark 的核心标准极具启发性:AI 完成的工作能否让真实客户愿意付费,且无法区分是人类还是 AI 所为。尽管当前完成率仅为 2.5%,但这一数字极具想象空间——它可能对应全球 2.5% GDP 的生产潜力加速点。
这背后映射出我们对通用 Agent 的根本理解:它不是工具,而是‘人’的延伸。垂直 Agent(如设计师助手)仍是工具,而 Manus 作为通用 Agent,其抽象层级是‘一个普通人用电脑能做的事’——键盘、鼠标、屏幕、声音,仅此而已。因此,我们关注三大可量化维度:编程能力(SWE-bench)、浏览器交互与多模态理解、以及泛化任务执行能力(含命令行工具调用等系统级技能);同时重视难以量化却至关重要的软性指标,如美学性与错误自我意识——后者指 Agent 能否在出错时主动识别并修正,而非盲目‘修复’却引入新 bug。
‘所以这是一个很好的一个梦想。’
‘也许到了二六年,我们乐观一点,可能二点五我们能刷到这个二十三十,对吧?’
错误修复与可用性跃迁:从‘能用’到‘好用’的鸿沟
在评估 AI 编码能力时,一个关键但常被忽视的维度是:模型是否能识别并修复自身错误。理想状态下,模型应具备自我纠错能力;但现实中更常见的情形是——用户先发现错误并指正,而模型却轻率地宣称“已完美修复”,结果不仅未解决问题,反而引入新 bug。这类错误难以被量化追踪,因其依赖低维度的人工反馈,缺乏系统性评估机制。
更深层的问题在于:模型常产出一个“能用”的产物,却无法自然推进至“好用”的层级。这种从可用性到体验感的跃迁失败,我们仍视其为可解的错误。例如,Manus 在完成网页构建后,可主动调用内置浏览器进行自检,验证页面逻辑与数据库记录的一致性,从而实现闭环验证。这正是弥合该鸿沟的可行路径。
“Manus 能再往前再往前做一步,就基于我们的通用能力,Manus 每做完一个网页,它可以选择说我自己用我的浏览器去把这个网页玩一圈,嗯,然后看看我再看看我数据库里的记录是否都对上了。”
“模型跟人一点都不像,或者说,强行把模型或者 agent 与人与人的常用的思维体系去对齐,这事儿是不对的。”
去角色化设计:拒绝机械套用人类组织逻辑
当前许多 Agent 项目倾向于模仿人类组织架构,将系统划分为设计师、程序员、项目经理等角色。这种设计源于对人类社会分工的朴素类比,却忽略了其根本前提——人类个体能力有限,必须依赖协作。而模型本质上是更全能的系统,强行赋予其角色标签,只会人为制造信息损耗与协作摩擦。
我们主张:应充分发挥模型的通用性优势,而非套用人类的组织约束。这并非否定分工价值,而是提醒我们:在 AI 系统中,分工不应是预设前提,而应是可选策略。技术路径上,垂直与通用 Agent 或在输入输出设计上存在差异,但底层能力构建逻辑终将趋同。
“你只能从输入和输出角度来看,你觉得不用分类?我觉得不用分类。”
“模型是比人更加全能的一个东西。所以你应该充分利用模型的优势,而不要生搬硬套人带来这套约束。”
生态位判断:通用 Agent 的定位与市场分层逻辑
关于“是否做 Agent OS”的问题,我们的态度是审慎回避——OS 是一个需要掌控用户核心数据流的基础设施层,而当前 Agent 尚未触及这一层级。与其自封为 OS,不如拥抱现实:现有操作系统(如 Windows)正以开放姿态集成 Agent 能力,未来将是“所有 OS 都在变得 Agentic”,而非诞生一个全新的 Agentic OS。
在生态格局上,我们判断:To B 垂直 Agent 将率先规模化,尤其在海外市场。美国创业环境已形成正反馈闭环——成熟退出机制、稳定营收路径与资本偏好,共同推动创业者集中于 To B 领域;而 To C 创新则需勇气与差异化押注。值得注意的是,To C Agent 的关键突破口不在服务专业人士,而在赋能非专业但有需求的用户——例如为自媒体创作者而非专业剪辑师设计剪辑 Agent,实现“净增效”而非“替代风险”。
“你应该做一种什么样的 agent 呢?是做一个给非剪辑师用的,但是却有剪辑需求的人做的 agent。嗯,比如说自媒体。这样的话,其实你会变成一种给原本就有这个需求但做不了的人,它是一个净增益。”
“我们从来不以替换人的思路来想这个事儿……你应该是一种提升人,就 enhance people 的思路去想,让你现在已经最高效的雇员,或者说你是一个自驱的一个人,你获得了这工具之后,你能让你的产能提升。”
未来方向:从响应式到主动式——Agent 的‘能动性’觉醒
当前 Agent 的最大瓶颈之一是:输入仍高度依赖用户 prompt,而大量上下文无法被显式代入。这不仅增加用户负担,也限制了系统潜力。Manus 的下一阶段重点,是探索 Proactiveness(主动性)——即 Agent 主动感知、推理并发起行动的能力。
这并非空想:我们正尝试构建可7×24 小时持续推理的系统,让 Agent 在后台默默积累上下文、预判需求、发起协作。OpenAI 提出的“Agent”概念,其词源 Agency 本就指向能动性,但当前多数产品仍停留在结果呈现层。我们希望超越类似 ChatGPT 的 POPS 机制,真正让 Agent 成为用户的“数字伙伴”,而非“应声筒”。
“Agent的本意其实来自于Agency,就是能动性、主动性。”
“我们现在距离大厂还很远,还很远,但是在做了,在做,在做。”
从Agent能动性到主动生产力
“Activeness”(主动性)一词虽常被归功于OpenAI的推广,其本质实则源于“Agency”——即能动性、主动性。这一概念在AI发展初期常被忽视,人们更关注结果输出,而忽略了上下文(Context) 的关键作用。Monica曾率先关注输入上下文,而Manus则更进一步:我们不希望复刻ChatGPT的POPS模式(每日推送大量内容,占用用户时间),而是聚焦于真正为产品付费、追求生产力效率提升的核心用户需求。
在内部,Manus已构建出可运行的原型系统,其核心在于让Agent主动完成任务,而非被动响应。例如:面试结束后,团队通常需手动将Notion中的记录整理为HR系统中的评价。有了主动式Agent后,它可在用户醒来前自动读取Notion内容,完成信息迁移,并仅向用户请求最终确认——真正解放用户的时间与认知瓶颈。
“所以其实应该解放出来的就是用户的这一层瓶颈,让Agent的能动性逐渐逐渐去发挥出来。”
“Manus其实可以每天早晨在我醒来之前,先去自己看我的Notion,帮我去直接把记录填到这个管道,呃,填到H B里头,然后只让问我接受与否。”
‘通用Agent’是技术选择,非市场话术
“通用Agent”这一命名常被误读为市场定位策略,实则源于一次临时的、甚至略显尴尬的创作:视频录制中保洁阿姨突然入镜,团队为剪辑需要临时添加黑屏,并仓促补上“the world's first general agent”的定义。这个词并非刻意抢占‘AIGC元年’生态位,而是技术叙事缺位下的权宜之计。
从技术角度看,通用Agent源于一套统一的架构设计——它使不同场景(如网站构建、文件批量处理、幻灯片生成)具备天然协同性与增强效应。例如Meta CDR中的网站生成功能仅用不到一个月便上线,且效果极佳,正是得益于这一架构的复用性与扩展性。
对用户而言,Manus无需解释技术细节,而是按客群分层沟通:对企业客户强调其作为内部工具构建平台的能力;对创意工作者则突出其作为连接器(connector/integration) 的角色——它不替代专业工具(如Live Word),而是嵌入Slack等工作流中,调用外部工具完成任务。
“Manus是给有设计需求的非设计师用的……Lovebird是给设计师用的。”
“我们是一个网络中的节点。但很多时候价值其实不是在网络节点,是在网络的边上。”
竞合逻辑:不收敛,但重协同
Manus明确拒绝“收敛至垂直领域”的路径选择——我们刻意维持长尾能力与头部场景的双重优化。尽管当前聚焦批量文件处理、网站生成、幻灯片生成等头部场景,但从未推出独立产品(如“Manus Slides”),所有功能均在统一Agent架构下迭代。
与垂直Agent(如Lafarge)的关系并非竞争,而是角色互补:Lafarge服务专业设计师,Manus则赋能非专业用户的轻量设计需求;更关键的是,Manus可作为“智能中介”,在用户日常工具链(如Slack+Live Word)中自动触发专业工具。它不是替代者,而是网络中的增强节点。
在AI Coding赛道,Manus视Cursor为重要启发者与对标者。团队认为,创业公司对抗大厂的核心在于:组建比大厂同类团队更强的精锐小组。目前Manus团队近100人,已具备与头部公司直接竞争的能力。尽管Gemini等模型在静态前端美学上表现突出,但Agent Coding的战争远未结束——灵活性与场景深度仍是关键变量。
“我们跟Kimi从来没有任何的竞争,因为我们没有国内业务。”
“最终一定是一个竞合类关系,其实我不觉得我们会输。就像我们已经跟ChatGPT打了第一仗,我们从效果上至少还是赢的。”
邀请码:算力危机下的无奈之选
外部对Manus邀请码机制的质疑(如“过度营销”)曾长期存在,但团队直到达成1亿美元ARR后才正式回应。真相远非营销策略:发布前,所有云厂商与推理供应商均警告——若开放注册,算力系统将在24小时内崩溃。
当时,Manus团队与云厂商沟通后意识到:“世界上能够在第二天立即到位的算力比想象中少太多了。”因此,控量成为唯一选择。邀请码虽非最优解(如定向邀请更温和),但已是当时最可行方案。它本质上是一场技术现实倒逼的运营妥协,而非刻意制造稀缺性。
“我们当时内部就说,你没做到一亿美金 ARR 前就不用搭理这个事儿,啊,现在当然我们可以回答这个问题了。”
算力荒与邀请码的无奈选择
Manus 上线初期面临的核心困境是:全球能在次日立即到位的可用算力,远比想象中稀缺。当时主流云厂商与模型服务商均无法支撑其预期负载。例如,Cloud 明确警告:“你们千万别放开,你如果放开,我们会挂。”在无其他可行方案的前提下,团队只能选择控量机制——即上线邀请码系统。尽管团队意识到这并非最优解(如定向邀请可能更合理),但当时时间紧迫、资源有限,只能先上线应对。
值得注意的是,Agent 的算力消耗模式与传统 Chatbot 截然不同:随着多轮推理与自我迭代的展开,其输入 token 消耗呈指数级增长(prefilling/decoding 比例从 3:1 升至 100:1),而云厂商此前并未为此类 workload 做好准备。初期甚至需要云厂商“从别的项目可用区临时调资源”,“物理层面搬卡插机柜”来紧急扩容。正是 GCP、Azure 和 AWS 的雪中送炭式支持,才让 Manus 艰难撑过第一个月。
“如果当时我们能直接放开,那其实我觉得可能体验会比现在还要好……因为我们真的没有那么多算力,scaling 也没有那么好,就会崩掉。”
“我们当时就是为什么后来跟 Google 的关系这么铁……真就是对我们来说是雪中送炭级别的的支持。”
出海战略与‘不炒作’的底线
Manus 从立项起就锚定海外 prosumer 市场,因此上线时间特意选在北京时间晚上十点多——对应北美市场的清晨。团队清醒意识到:在中国本土爆火并无实际商业价值,反而会带来不必要的舆论压力与误读。尤其当产品被赋予超出其定位的宏大叙事时(如“国产AI崛起”的标签),反而会稀释核心用户价值。
正因如此,团队在宣传上秉持极强克制:“如果我们在三月份发布的时候,有任何付费宣传,我死全家。” 他们坚信,真正有效的传播应来自真实用户的自发推荐与口碑裂变,而非国内自媒体的集中曝光。所谓“爆款内容”,实则是多年“广结善缘”的自然结果——早期持续分享技术见解、参与播客、无私协作,使得一批老朋友如今成为投资人或创作者,在看到熟人创业时自然愿意发声支持。
“我们只是一款AI产品出海的一个应用,不要给我们赋予太多的这些东西。”
“你做出一个好的东西,且刚好是你的朋友,大家就会愿意帮你一下,因为这是一个广结善缘的结果。”
从控量到正向现金流的跃迁
邀请码系统仅维持了不到一个月,便在云厂商资源逐步释放后被彻底取消。团队坦言:Manus 初期是严重亏本运营——高昂的算力成本迫使他们以补贴方式让用户免费体验 Agent 形态。定价逻辑亦极为原始:直接沿用 ChatGPT 的 $20/$40 两档订阅价,理由仅是“别随意调价以免伤害老用户体感”。本质上,其商业模式仍是按 credits 消耗计费的用量付费模型,基础订阅价仅作锚点。
尽管产品热度在国内迅速降温(团队甚至处于“灭火”状态),但在海外却通过核心用户(如 Andrew Capacity、Gary Tan 等)自下而上扩散,形成真实需求驱动的增长曲线。如今团队已接近盈亏平衡:“马上跑正”,并持续为免费用户提供基础服务,视其为“社会责任”。
“Manus 是亏本的……我们其实已经是在补贴用户,让他们来体验 Agent 这个形态。”
“对于大部分创业公司,包括我们在内,其实我们都没有活着的权利。活着的权利是自己持续跑才能争取来的。”
团队在高压下的真实状态
Manus 创始团队在产品爆发初期经历了极度高压的阶段:从第一周到第二周,几乎每天只能零散睡三四个小时,且均为间断性睡眠;办公室仍维持在原有小空间内,但为改善跨区域协作——尤其是武汉团队与总部的配合——他们迅速在楼上租下更大场地,动员武汉同事集中到线下办公。然而,物理聚集并未带来“嗨”的氛围,反而更显疲惫:办公室书架上堆满了补剂与营养品,团队整体精神状态濒临透支。
这段时期,与投资人的沟通反而成了团队为数不多的正向能量来源。白天面对网络上铺天盖地的批评,而晚上向投资人做 pitch 时获得的反馈,是他们一天中最温暖的时刻。团队坦言:“懂的还是懂的。”——真正理解产品价值的人始终存在,只是声音较小。
“当时我们还挺感谢投资人的,你知道吗?因为确实每天白天看见的网上大多是一些骂我们的东西,而真的就跟投资人好好讲的时候,得到正反馈是我们一天中最温暖那个时候,你知道不?”
“你在国区 App Store 上搜到的所有 Manus 都是假的,那都不是 Manus,那都是来蹭我们人。”
被骂的根源与市场策略的清醒
团队对“为何被骂”进行了三层反思:第一,大量国内用户实际使用的是山寨版本——国区 App Store 中所谓“Manus”均为仿冒品,这是被误伤的核心原因;第二,产品突然走红易引发公众对“营销炒作”的天然怀疑,但团队强调:“如果我们当时有这种行为,我先死全家”;第三,用户期待与现实能力的落差:当高期待产品尚未能覆盖所有用户时,部分用户的愤怒是可以理解的。
面对中国市场,团队坦言“比较难”:受限于资金与带宽,无法像海外那样以高付费意愿支撑本地化运营。Agent 类产品本质上更接近“工业生产”而非传统互联网的边际成本为零模型,因此必须优先确保生存。他们选择出海并非偶然,而是基于“海外用户对生产力工具付费意愿更强”这一现实判断。
“我们团队能力是有限的,我们很难去服务所有的用户……因为我们团队带宽有限,那我们先盯着有限的市场去做。”
“我们之所以一开始选择出海,其实原因也非常非常简单,就是因为海外的用户对于生产力工具的付费意愿就是更强,而 Agent 就真的是非常贵的一个东西。”
技术演进与商业逻辑的重构
Manus 1.5 的发布并非技术突变,而是一次系统性整合:将过去数月的多项功能更新打包呈现,让用户获得“体感升级”的确认。技术上,它实现了任务完成速度无损提升约3–5倍——对简单任务提速显著,对复杂任务则动态分配更多 inference time,体现“智能调度”思维。
团队明确拒绝“DAU导向”,转而聚焦高价值用户的“agentic hours”:即每个用户通过 Manus 完成的高价值脑力劳动时长。有用户月付数千美元,因其持续提交大量高复杂度任务。营收成为核心指标,而非用户量——这与互联网时代逻辑截然不同:AI 是技术增量而非平台迁移,强者凭借先发优势叠加持续投入,形成“强者恒强”格局;同时,AI 产品更像制造业,需权衡成本与质量,无法靠补贴无限扩张。
关于入口之争,团队认为:不存在单一 AI 入口,而是多入口并存。数据表明,ChatGPT、DeepSeek 等用户的最大异常安装概率产品正是 Manus,说明它并非替代关系,而是专业级用户在工具链中的高阶补充。未来目标仍是:在每一刻提供当前 AI 能提供的最高质量体验,服务最挑剔的一群人。
“对于 Manus 要打这群人,他们的质量的敏感程度是极高的……我们做过一些双盲测试,悄悄换模型,那块用户的满意度直接就下降了。”
“我们追求的不是 DAU,而是把最有高要求的用户、高价值用户的高价值 task 做到最好,体现更多的可能是我们的营收,而不是 DAU。”
Agent模型的四大关键进化方向
在 agent 领域,模型的选择与优化路径亟需重新思考。与其无限扩展 context window,不如让模型具备 compression awareness(压缩感知能力)——即模型需意识到自身上下文可能被截断,并据此智能选择如何上传、检索和组织文件信息。其次,推理目标应从“纯缸中之脑”式自洽转向 tool integrated reasoning(TIR,工具集成推理),强调模型与外部工具、环境观察的深度耦合,而非仅依赖 RLVR 在竞赛编程或数学题中刷分。第三,交互模式亟需从异步走向同步协作:理想 agent 应支持用户随时插话——无论是调整目标、补充信息,还是直接终止任务,而目前多数模型仍停留在“用户-模型-用户”的线性交替节奏中。最后,error resilience(错误韧性)是真实世界部署的刚需:agent 必须能在系统报错、资源受限、非代码性异常(如文件格式错乱、批量处理中断)等场景下持续探索替代路径,而非直接放弃或陷入死循环。这些能力无法靠单一技术突破实现,需专门训练与架构设计协同推进。
‘Manus 刚出来的时候,有一个让大家都觉得非常新奇的体验,就是说 agent 在持续工作的过程中,用户可以随时插嘴……’
‘最好的模型应该是他永远能找到一条别的路去尝试。这个是需要专门去训练的一个事儿。’
从CBA到NBA:创业环境与团队认知的跃迁
Manus 的创业环境与前两次相比已发生显著变化:当前创业成本显著上升,属于“上来就是挺重资产”的投入——上线首日即需烧掉数十万美金,远超移动互联网时代边际成本极低的轻量模式。更关键的是,这是一次真正参与全球竞争的创业,团队内部戏称“从CBA打到了NBA”:即便Manus已实现百万级ARR,横向对比行业头部玩家,仍处于“NBA平均水平”。这种认知落差带来清醒的紧迫感。
在团队层面,对小红(联合创始人)有了更立体的认知:即便经验丰富的连续创业者,依然会因外界反馈而情绪低落甚至受伤——她比作者更敏感、更易受影响,但情绪稳定(非波动),常陷入“不开心但不爆发”的低谷状态。正因如此,团队协作中形成了一种“互相分担痛苦”的默契:即便她说“接下来一段时间我可能很抑郁,你们不用帮我”,大家仍会主动支持。这种人性层面的坦诚与互助,构成了团队韧性的重要底色。
‘小红可能比我没有我那么没心没肺……她很多时候还是比较容易受到这些事的影响,她会不开心,甚至就很着急嘛。’
‘虽然小红经常说一句话,就是说接下来一段时间我可能很抑郁,你们不用帮我,但是谁会真的就就放他不管的嘛?’
组织进化:AI赋能下的协作范式重构
当前百人规模的Manus,远超作者此前十人团队的经验。AI时代组织的核心变化并非结构本身,而是“组织中多了很多的AI”——公司主动报销员工使用的各类第三方AI工具,鼓励全员用AI提效,以直观感知技术前沿。这种策略旨在提升个体生产力(2-10倍),而非替代岗位,目前尚未达到“AI可替代人类”的阶段。
在协作机制上,团队摒弃了“投票制”,认为其会异化为站队行为;决策依赖充分讨论生成多方案(alternatives),最终由Red拍板。产品与技术的权责边界清晰:技术拥有对“快操猛”方案的一票否决权(如放弃纯选A帧改用quick fix),但技术始终服务于产品目标。增长策略也正经历重大转变——从过去“踩着西瓜皮滑到哪算哪”的被动用户选择,转向主动设计增长功能,实现“产品驱动+增长驱动”双轮并进。
‘与其说是整体的就组织结构变化,不是发现更多的人可能让他自己有了两倍、十倍的生产力的提升,但他并没有还没有到一种就是 AI 能够替代哪些岗位的一个状态。’
‘AI用的不够多……如果用一个最极端的想法来讲,就是我们不喜欢的事都被AI所取代的话,那剩下的东西其实就是人自己嘛。’
AI时代没有注意力瓶颈,稳态未必存在
在移动互联网时代,产品的增长常受限于用户总注意力时长——你必须在有限的‘注意力池’中与抖音、微信等巨头争夺用户时间。但AI时代不同:Agent(智能体)的核心价值在于异步后台持续创造价值,而非依赖用户实时交互。这意味着,用户无需长时间‘盯着屏幕’,也能通过调度多个Agent完成工作、获取服务,并愿意为此付费。因此,用户的总注意力时长不再是制约AI产品增长的瓶颈,传统意义上的‘稳态’未必会出现。
‘你娱乐时间你可以多花在这个AI domain上,没有问题。但实际上,因为你能调度很多异步的agent,嗯,大家都在跟你不交互的前提下给你提供价值,你也会为它付费。’
‘所以我现在还没有想出来,就是AI时代到底什么是产生稳态的那一个约束条件。’
当前阶段:类似2018年,但质量比规模更关键
当前AI发展节奏令人联想到2018年Transformer刚发布、BERT推动首批落地的阶段:技术范式已确立,scaling(模型扩增)仍有效,但边际收益递减、用户对‘够用就好’的期待上升。开发者不再只追求参数量或新能力涌现,而是聚焦于现有场景中的完成质量与可靠性。Agent领域的问题已从‘有没有需求’转向‘能不能高质量完成’——这需要模型能力、环境适配(如context获取)、生态协同(如API支持)共同推进。
‘A晋已经爆发了,只不过就是我觉得大家可能没看到那种就是理想象中那种就是一片勃勃生机,就很多冒出很多东西。’
‘为什么呢?我觉得就是A晋现在处于的一个状态是我刚才讲的,就是场景大家都在挖,但其实每一个场景可能都还差一口质量的,就差一口气,这一口气可能是质量决定的,是完成度决定。’
未来展望与隐忧:增长与克制的平衡
Manus 1.5版本已迎来关键转折——大量用户开始将其作为主力生产力工具,而不仅是辅助提效,标志着Agent正跨越‘工具’门槛,进入‘核心生产要素’阶段。预计2026年Agent市场将进一步渗透主流人群,尤其在支付、工作流集成等场景(如与Stripe合作)推动下趋于成熟。
然而,团队最大的隐忧并非外部竞争,而是内部复杂化倾向:每新增一个功能都在稀释整体体验。正如GitHub所言:‘你每增加的一个东西都在稀释所有别的东西。’因此,克制与聚焦将成为长期挑战。至于外部竞争,如大厂模型供应、竞品断供等风险,反而是产品足够优秀的‘副作用’——真正危险的,是失去独特价值。
‘我让我觉得最开心的一个,就是说他觉得这个版本越过了生产力工具这条门槛……很多用户真的就在拿Manus一点五来作为他的工作的主力应用来帮他产生收入,这我觉得就是形成一个更健康的一个飞轮。’
‘对于Minus,我觉得我心里对Minus最大的隐忧其实是失去特色,这是最大的一点……而从内看的话,我其实最害怕的是Minus变得复杂。’
大厂困局与人才流动
谈及 Meta 在 AI 领域的相对滞后,访谈者指出这背后涉及复杂的人事变动——例如 Llama 团队已历经多轮更迭;而 OpenAI 虽面临人才流失(如 ChatGPT Agent 团队核心成员出走),但其创新文化依然顽强存续,使其仍是最有可能催生新范式的公司之一。值得注意的是,“只要创新文化还在,OpenAI 就仍是未来范式的最强候选者”。至于 OpenAI 是否会取代 Meta 成为新的社交平台中枢,受访者认为尚无明确路径,毕竟当前所有大厂都在探索阶段。
“它会成为新的社交网络替代 Meta 吗?我觉得这个比较难吧,这个当然说不准,因为这个产品大家都在探索。”
“它只要这个‘whatever’这个创新文化还在的话,我觉得仍然是最有可能诞生新范式的公司之一。”
研究基础设施与开源生态
Thinking Machine Labs 的 Tinker API 被视为一个高抽象层级的实验平台,仅用四组核心 API 即覆盖多数科研需求,尤其适合中小团队使用;但其当前成本偏高,“你可能自己搭集群还稍微便宜点”。该产品高度依赖开源模型的持续进步——其中,通义千问(Qwen)因其提供最全参数谱系的同源模型家族,成为支撑研究的关键基础设施。受访者直言:“DeepChem 的成败主要看千问。”
“而这个 Thinking Machine Labs,我记得它的 Tinker 应该就是抽象为了四组关键 API 吧,然后它基本上很多你自己需要做的实验其实都能搞定。”
“千问提供的光谱一直是最全的。”
人物评价与行业观察
在硅谷 AI 领域,受访者将技术型领袖(如 Demian Davis、Ilya Sutskever)与复合型领导者(如 Mira Murati)区分开来,认为Demian Davis 是狭义技术维度最令人佩服者;而 Mira 则以极强的号召力和行业声誉著称。国内方面,受访者认同姚舜宇提出的“大厂超小公司,小公司也超大厂”的双向跃迁趋势,并特别欣赏杨志林“只要问题能被定义,就一定能解决”这一务实乐观主义立场。针对“Agent 是逆向工程”的观点,他明确反对:“对我们来说不仅不是逆向工程,反而是在给别人带节奏。”
“舜宇那句暴论——以前都是小公司超大厂,现在是大厂超小公司,互相超——虽然前半句本来也不一定是这样,但最近确实大公司超小厂的事儿更多了。”
“你不训模型的话,做 Agent 是逆向工程?——对我们来说不仅不是逆向工程,反而是在给别人带节奏。”
创业现实与全球布局
Manus 的生存状态被坦率描述为“没有权利活着,只是在努力获得一个活着的权利”,最悲观预期是“下个月死掉”,而最乐观愿景则是“让所有高价值白领拥有 24×7 的 AI 推理伙伴”。关于办公选址,团队选择新加坡 WeWork 是出于动态扩容的灵活性与全球合规便利性(已通过 SOC 2、ISO 27701/27001、GDPR 等认证),并非所谓“跑路”——因为公司本就以全球市场为定位。至于工作强度,“办公室大家基本待到十点半往后,而十点后空调关闭,实际停留时间取决于耐热能力”。
“我们没有权利活着,我们是在努力的获得一个活着的权利。”
“一般来说,我们大家基本办公室人,大家都会待到大概十点半往后……十点以后没有空调,所以大家待多久主要看在没空调情况下能待多久。”
快问快答与未来信念
在快问快答环节,受访者给出冷知识答案:“海带不是动物”(因海鲜过敏需反复解释);读书偏好是《线条小狗》画册;影响 AI 进程的关键论文未提 Attention Is All You Need,而是选择“25 年那边那个”(未具名,但指向某篇近期突破性工作)。他坚信:“AI 接下来的进步需要用户的参与”,并将整个行业对 AI 的乐观归结为一种“问题可解”的底层信念——呼应老黄“什么事都不会意外”的回答,也呼应杨志林“只要问题存在,就一定能解决”的哲学。
“海带不是动物。”
“AI 接下来的进步需要用户的参与。”