Hello,大家好,欢迎收听张小俊商业访谈录,我是小俊。这是一档由语言及世界工作室出品的深度访谈节目,我们希望和你一起从这里探索新世界。今天这期节目很特殊,我们的录制时间是二零二五年的十二月一日。嘉宾是 Minus 联合创始人和首席科学家纪超 Pick。就在刚过去的凌晨,Meta 宣布全资收购 Minus,而在这期节目录制的彼时,也就是月初,收购事件尚未发生。

最终,这期节目成为了Minus最后的访谈。Hello,Pick先给大家打个招呼,并且做一个简单的自我介绍。好,大家好,我叫季超,朋友叫我Pik,我是ManusAI的Co-founder and Chief Scientist。然后今天很荣幸能参与这个节目的录制。你从小的经历感觉就很与众不同,就是很小,四岁就去了美国,然后二年级又回国,高中开始创业,大学辍学了又创业。

然后又读完了研究生,你讲讲你的这段经历吧。首先得从我家庭背景,就我觉得我很幸运,就是我的父亲是北大物理系教授,就是传统意义上的科学家。嗯,然后我母亲算是老一辈中关村连续创业者,当然现在可能可以叫企业家吧。对,所以就是我从小在一个这两种怎么说你不叫文化吧,就两种不同的风格中一块儿去成长。我可能就在两者中取了一个中间点,就是所谓的科技创业者。

然后我从小的话,其实就是不是那种聪明孩子,就学习也就一般,但是呢,就是比较喜欢自己瞎琢磨多一般,呃。就就偏科吧,偏科吧,对,就是其实我不知道我学习到底好不好或者聪明不聪明,因为我觉得我就没怎么学,对。然后呃,我比较幸运的是,就是我很早就找到自己喜欢做的事儿,就是那时候是大概是二零零九年,然后就是苹果其实除了iPhone之后的第二第二年,对。

然后那时候对我来说有一个很大的改变,就是App Store出现了。App Store我觉得是对我来说是特别重要的一个转折点,因为在App Store之前,其实世界上很多人像我一样就喜欢自己捣鼓软件或做东西,但是你其实缺乏一个很好的全球化变现的一个能力。但这时候对于高中生来说,就是如果你只是在瞎捣鼓一些课外的东西的话,这个东西其实是比较离经叛道的,你知道吧?

就是你没有一个很好的第三方指标来证明说我的这个爱好其实是有价值的。而 App Store 当时的出现给了我一个契机,就是说我可以向我的父母、同学,乃至于老师证明说,我瞎搞的这个东西是能产生经济价值的。所以呢,我就算是中国第一代软件出海的创业者。对,当时那时候还在上高中,然后我是做了一个第三方的 i iOS 浏览器,叫做 Mambo Square Browser 毛马浏览器。

当年先小小火过一点吧,然后用的是最朴素的那种,就 buy copy,就是每卖一份就赚一份固定的的销售额的这种模式。嗯,然后所以就是很幸运,就很早的时候就有了比较稳定的现金流。对,这个有多稳定啊?现金流?那个软件从第一个版本到最后,我大概赚了三十多万美金。对,当时我觉得那个对于高二、高三的学生来说,已经算是挺开心的一个事儿。

嗯,而且关键是就是它的销售的模式很清晰嘛,对吧?我不需要去考虑太多的,比如说这个 in-app purchase 就应用内付款或者提提供一些增值的这种模式,我只是非常老实的卖一份 copy,然后你给我一份钱。所以其实对于我就是怎么说呢?我就是维护的成本是比较低的,是一个当时还成立的一种商业模式。但是后来大家都知道,就是呃,移动端软件已经不太在支持这样特别朴素的商业模式了。

嗯,因为大家都要先免费获取客户,对,或者就是说,当时是一个很好玩的情况,因为那个时候从桌面互联网到移动互联网,我觉得是有一次平台或者简单来说就有一个硬件媒介的变化,嗯,对吧?所以就是你有一个新的一个媒介出来,即使你是传统的大厂,比如说国内当时的BAT,然后海外这些公司,其实大家都是跟开发者一样,众生平等,都在做一个全新的一个场。

是,然后那个时候其实就会有一段,在我看来可能是蛮蛮荒期的一个阶段,所以你有很多的机会去做这样的事儿。大家还没有反应过来,后来的这个诸多的商业模式。但你看,反观现在AI,我可能就聊到哪说到哪,你就觉得很难的一点就是AI虽然是一个新的一个技术突破,但是实际上没有一个全新的一个平台出现。所以你看这回的话,我觉得没有存在那个蛮荒期,就是无论是巨头还是创业公司,还是个人开发者,大家的反应都一样快,做的都非常的呃干脆利索。

对,所以我觉得我算是赶上了一个好时代吧,当时。这段创业怎么结束的呀?啊,这段创业其实我觉得没有一个明确的结束的那一刻。其实它是我创业的一个起点,那时候我觉得它不能严格意义上来说称为创业,因为我只是一个学生、个人开发者,用一个最朴素的商业模式去获得了一定的。现金流,但当时的话,你有一定的现金流,同时你要做一定的marketing,对吧?

当时我也没有团队,就一个人,就自己在,比如说在国内外的论坛上发帖。然后当时国内没有很成熟的那种就是支付渠道,因为你知道现在App Store你可以用呃,比如说像那个支付宝、微信,或者你用那个credit card,你也可以去付款。但当时我记得其实只能支持国际credit card。所以中国国内基本是没有什么付费的。

哎呀,这感觉跟现在AI也挺像的。对,反正当时呢,我就想,那既然国内我很难去获得现金流,那我在国内就只能赚吆喝。所以我那时候会破解自己的软件,然后在国内论坛上发,就是你没钱你就给我捧个人场,对。然后你在这样做的同时期,你就获得了一些来自于比如说资本界的关注。所以那时候也很好玩,就是我当时高二、高三的时候,然后当时就是在参加一个,当时感觉还是。

比较有创业氛围吧,那时候中关村。然后我应该就在中关村参加了一个创业的活动,我有点想不起来是哪一个了。然后当时的话就认识了真格基金啊,对。然后这个故事就非常简单,就是当时徐老师,徐老师啊,对,徐老师问我小伙不错,你想创业吗?然后我当然不想创业了,对吧?因为我既然有一个稳定的,我可以边上学边躺着赚钱的一个现金流,那我何必要创业呢?

对,然后,但是我觉得,就是毕竟这个徐老师,对吧?这个大家可能当时都是都是比较熟悉的,因为他应该也是北大那个体系出来的。然后当时我就回家跟我父母提了一下这个事儿,然后我这这方面确实感谢我父母,他们就说这个你是值得去好好考虑一下的。然后我觉得那个时候对我来说也是陷入一个纠结,就是我可以有几个选择,对吧?

我也许可以我申请学校去上一个好的大学,走现在跟大多数人一样的那条路,嗯。但另外一点就是,我觉得 App Store 给了我一个特别好的一个正反馈,就是你只要创新,也许就能有回报。当时想的会比较 naive,呃,比较天真,就是说我好像做出一个好东西,自然就会有一个好的结果。然后当时其实我渐渐意识到,这个不是一个常态。

我是很幸运的,踩中了一个时代的机遇。那好,其实我也许我什么时候都能继续去读书,所以我就想,那我其实现在优先考虑的应该是一个机会成本。嗯,对,所以就是我当时就拿了term sheet,然后决定这大学我不上了,我要去创业。对,但是当时的话,就是为什么接受真格的offer,其实也是他们给了我一个承诺,而且我觉得一直是,就是这个承诺兑现至今,就是他们不会管我干什么。

我爱干嘛干嘛,对,所以我觉得这个其实对于一个学生来说,我能觉得我能有的一个最好的一个选择。所以当时的话,我就拉上另外几个同学,比我大两届,他们已经保送去北大了,然后但是又被我忽悠出来。那当时我们其实已经意识到,就是你如果还在做这样朴素的一个按每一个 copy 去赚钱的这个模式,已经不太 work 了。

那个时候已经感觉到不 work 了,对吧?很明显,因为当时的话已经又过了两年了。然后这时候你会发现,无论是国内还是国外,尤其像第三方 iPhone

浏览器的这个市场里头,其实已经出现很多不同的玩家了。嗯,巨头已经回过味来了,所以我们就觉得这个东西一定一定会走向一个免费或者加免费加增值的这条路。但当时我们还做了一点最后的一个尝试,这也其实后面一切的起点,就是我们觉得我们既然要卖一款付费的浏览器,我们应该在功能上有比较大的一个跃进。

首先一点,当时那个 Namus Web Browser 它的这个交互体验确实是比较好的。但当时其实还有另外一个背景,就是那时候无论是国内还国外,都是 3G 初期的一个阶段。那时候其实移动互联网远远没有像现在这样就这么流畅。嗯,那时候呢,可能大家还会更多关注,就是说,比如说网速慢的时候怎么办?弱网环境怎么办?

所以当时我就提出要解决一个问题,就是我们能不能去预测用户的下一次点击?比如说那时候我还记得大家用Facebook,国内应该是用人人网,校内的那个改改名叫人人网了,我记得。那时候,大家很多人都觉得,好像Web版就是移动端的网页,似乎比当时那些比较初期的客户端要好用。嗯,所以很多人其实是在用就是移动浏览器去进行一些社交媒体的使用,所以你会经常有那种翻页、下页这个操作。

然后呢,后来也有更多人在手机上开始看新闻。其实我当时就觉得,如果我能准确的预测用户的下一次点击的话,我可以进行 preloading,就是提前加载下一页的内容,嗯,让它的这个响应会更加的快。然后这个其实也就机缘巧合之下,让我进入了 NLP,就 Natural Language Processing 的这一个领域,就是自然语言处理。

嗯,当然现在大家可能不太提这个词了,因为大模型已经把这一切给统一了。对,然后那时候大概二零零二零一一年开始,就是我因为这一个需求,所以开始研究这一个方向。然后当时做,那真的是太早了。这我觉得就很我很幸运的点,就是我感觉一直我在学习的东西都是因为具体的需求在牵引,对,所以刚好也就跟自己兴趣都会比较 align,所以就接触这个行当开始做。

所以那个浏览器其实真正意义上到后来它的结束是什么?是我发现了更好玩的东西,就是自然语言处理。所以因为它的模式一直是很单纯的卖一份 copy 卖一份 copy 嘛,它就渐渐就变成了一个没有人去维护的一个状态。然后随着比说到最后应该是 iOS 系统不断更新,它的那个兼容的版本已经就是跟 iOS 不兼容了,所以你自然而然就被从 App Store 下架了。

所以这是一个自然死亡的一个一个过程。当然我觉得这还是很幸运的,就是让我人生的第一个产品就同时满足了出海加 AI。加上变现这件事儿,所以有一个很好的一个开始。对,现在反过去去说的话,浏览器这个事情当时怎么做,有可能后来摸到移动互联网的大牌吗?嗯,有这种可能性吗?我觉得当时的话。我其实收到过一些收购的 offer,我觉得也许卖了也挺好的,因为我觉得其实呃,浏览器这个谁的 offer?

啊,这个就不要说了,对,不能点具体名。但我觉得就是浏览器可能从古至今,包括今天,包括很多团队也在做 AI 浏览器,待会儿也许我们会聊到。我觉得它一直都是有一个点,就是它其实不是特别适合以一个创业者或者说一个颠覆者的形态来做。它其实更像是巨头,你已经有了分发的渠道之后,嗯,去锦上添花的一个事儿,嗯,对,所以我如果回看当时的话,我不认为以现在的我的经验或者阅历,我能做出什么更好的选择。

第二段创业呢?第二段创业的方向?第二段创业方向其实应该刚才刚才讲的第一次真正的创业,就是因为在做这个浏览器的时候,意识到就是 NLP 这个领域真的非常有意思。但那时候其实也是很有趣,就是二零一一年,嗯,距离一个石破天惊的 paper,我说的不是 transformer,其实二零一三年是 Team

Mikolov 当时 Google 推出一篇 paper 叫 Word to Vec,就是第一次能够把也不是第一次,就是较为可靠且高效的能够把自然语言文本离散化的自然语言文本变成稠密向量。

这个其实对我来说,是我认为我心中最石破天惊的一个转折点,因为它头一次能让我们比较方便的把一些源自其他机器学习和深度学习领域的方法应用在自然语言处理领域。像当时,比如二零一一年前后,大家做自然语言处理可能关注几件事儿,比如说你要进行比较复杂的分析的话,可能会有一个技术叫做 dependency parsing,叫依存句法分析。

嗯,但是现在可能这个词已经死透了,可能新一代做AI的人都不知道这个词。然后中文的话,那时候我们还会关注额外的,就所谓的 tokenization。当然,跟现在的大模型的 tokenize,呃,相比可能会更原始一点,因为中文本身它会有这个要切分这个问题。当然,不止中文,就是中文。日语,然后其实德语,德语叫 decompose decomposition,就是拆词的这个问题。

所以那时候做的还是一些比较怎么说呢?为了自然语言处理而做的一些比较专有的解决方案。它按现在话说是不太 scale 的,因为其实你需要很重的标注才能做好,而且你本身的模型也没有那么的强大。所以当时的话,我觉得给我最大的一个触动是二零一三年的那个 wordvec 这块这个 paper 出来,然后我觉得这一下新世界的大门就打开了。

然后这个让我真正意识到我的兴趣可能。其实是在 LP,而不是在继续做浏览器。然后也很感谢,就当时真哥兑现他的承诺。我说我不想做浏览器了,然后真哥说随便。对,然后当时的话,我就看中了 LP,但是其实也是看中另外一个一个市场机遇。当然回过头看,我觉得是错的。这是怎么回事呢?就是当时的二零一三年,其实已经开始有传闻,就说苹果在筹备一款可穿戴式设备。

其实也就后来的 Apple Watch,嗯,然后这个当时给了我特别大的想象空间,因为我当时觉得那时候的搜索还是你输入一个问题一个 query,然后它给你十个蓝色的链接,这个东西能够 work 的根本原因是我们在与电脑这样的一个大屏幕进行交。那假设未来,比如说可穿戴式设备或者说语音的界面,就是 voice interface 更加成熟的话,那这一个交互模式可能就不 work 了。

所以当时我想解决的一个问题是什么?就是说我能不能以一种更结构化且更紧凑的形式把知识。跟用户之间的交互进行一次革命,然后这个当时就引向了一个方向,就现在可能叫语义搜索,叫semantic search。这个东西我当时会觉得这就是下一代的Google。我作为一个呃创业者,我会不会是当年的Google,像当年的Google颠覆Yahoo那样的?

所以我们团队大家都很兴奋。然后我们想解决的这个问题,逐渐也就细化了下来。这其实是一个非常技术驱动的问题。我当时在想,如果你想用一个更紧凑的结构去回答用户的任意问题的话,那其实你需要的不能是网页的原始信息,嗯,因为大家都知道,其实搜索引擎的工作原理,当时可能就使用倒排索引,就说你输入一个关键词。他会把所有包含这个关键词的网页,通过一些排序算法进行排序,把 top 十给你。

所以你用户输入的问题,最后获得的东西仍然是原文,是自由文本。那这个东西自由文本,你想象一下,如果你用 Apple Watch 来,你不可能在上面就反复滚动去读完嘛,对吧?如果你是车机或者像 Siri 这种 interface 的话,你也不能让它去朗诵那么长的文本,因为人的带宽听听力的东西,其实是你会你会很着急。

嗯,所以我们觉得当时从技术层面来讲下来,它缺的是什么?是一个高效紧凑的 representation,就表达形式。而那个时候我们想到的一个概念,其实知识图谱。知识图谱现在也是一个半截身子埋在土里的概念,老词儿,老词。对,但是当时我们也是有追求的团队,然后我们在基知识图谱建设,我们再往下下钻,看那到底是什么限制了知识图谱这个概念真正落地呢?

我们当时找到的一个切入点是,我们认为知识图谱其实完全都不够完备,因为那时候你能找到的知识图谱,无论是通用的还是就是行业知对行业领域知识图谱,也是一个很旧的一个词。它其实大量的依赖是人的编辑,比如说,如果你要在一个行业内,比如当时有做些什么这个工业领域的知识图谱,比如科学领域知识图谱,其实都是需要一些专家进行去标注,比如你要标注的SPO,就是三元组这样的形式去进行标注。

而通用或者说通识领域的知识图谱,其实当时世界上有几个比较大的平台,有一个叫做Freebase,好像后来是被谷歌收购了,他们就以一种众包的形式让大家贡献这些知识。后来它应该演化成了Wikimedia

Foundation下面的一个项目,叫做WikiData。它里头做的就是,比如说,关于你张老师,你是一个实体叫 entity,你下面有各种你的属性,比如说你的这个出生日期,你的之前工作的场景,你的节目是什么,这样你就能形成各个实体之间的关系,这就是所谓的知识图谱嘛。

但很明显,这个东西完全依赖于人类。那这个东西我觉得是我们探测到的一个瓶颈,所以我们想找到一种技术来把这件事儿自动化。那当时的技术供给能做到什么呢?就是刚才讲到那一个年代的NLP还在一个比较初期、比较混沌的一个阶段。嗯,当时要做的事情可能已经有的方案是这样:你可以首先进行叫命名实体识别,叫NER(Name

Entity Recognition),就相当于你读一篇文章的时候,你把里头所有的实体能够由一个AI模型来标记出来。

但这样的话,你其实只获得了实体,就比如说张小俊,这是一个实体。然后这档节目是一个实体,但是所谓知识图谱,图谱之间是要有边的 edge。那这个边是怎么来的呢?当时有另外一项技术叫做关系提取,叫 relation extraction。嗯,就是对于两个实体之间,我能探测到,嗯,比如说张小骏是这一档节目的主持人,那么主持人这其实就是一个边,或者叫 predicate 谓语。

然后这样的话,我们用这两套技术能构建怎样的一个知识图谱呢?就是说我如果能限定领域,那么我能进行很好的实体识别;如果我能限定提取类、提取的关系的。总类型,我也可以进行这个工作。比如说,我提前知道这世界上有主就是什么的节节目的主持人是谁,这是一种关系;人的出生日期是什么时候,这是一种关系。那很明显,这个东西好像不可枚举,对吧?

因为任何两个实体之间的关系,它应该是一个无限集。嗯,所以我们就意识到当前的技术肯定是有局限性的。那么我们当时就投入到了一种新技术的研发。后来的话,这个技术在学术界的定义应该叫做 open information extraction,叫 open

IE,开放式信息提取。它跟刚才这些技术的区别就是说,我不需要提前定义一套规则或者 schema,嗯,就是说我不用规定哪些东西是实体,因为传统意义上的命名实体识别可能关注几类,比如人名、地名。

然后组织名这些东西,你看这其实又是一个白名单机制。我们要避免这一层面的白名单,同时在进行关系提取的时候,我们要避免提前预设的这些关系,而完全变成一个 schemaless,就是说呃无大纲的形式的提取。嗯,所以最后我们做到的一个技术是什么?就是说 AI 在阅读一篇文本的时候,它能够自己识别出这里头有哪些潜在的东西是实体。

以及这些实体之间的关系是哪些,并把它们提取出三元组,并持续自动的构建一个知识图谱。嗯,所以这个在当时我觉得还是很重要的一个技术,而且我们选择了最苦的一条路,就是我们从零训的模型。而且你想,这件事是从2013年底、2014年开始的。哦,我非常幸运又不幸的赶上了NLP技术最跃进的那几年。所以我们一开始的话,当时是一条我们团队分两边,一边在做基于传统的依存句法分析的一个解决方案,嗯,同时呢,我这边在做基于bertopic向量化的一个解决方案。

然后做了几年之后,我们发现这个东西好像可以去scale up,然后开始用LSTM去做,后来是LSTM加attention。再到后来呢,我们觉得其实 word to vec 或者说 LSTM 加 attention,它其实在输入层的信息损失就很大,因为那时候如果你用基于纯词向量的方法去做的话,它无法分析分清楚一个完全同名的词的不同的含义。

我举一个例子,比如孙悟空,孙悟空可能是咱们中国传统《西游记》中的孙悟空,可能是我举例子,像日本《七龙珠》里头那个孙悟空,其实再后来还有《王者荣耀》里有孙悟空。对你,如果完全基于这个 virtual reality 技术去做的话,你发现同样一个词,它在不同上下文中的意义都被压缩在了同样的一个。五百一十二或七百六十八维的向量中,所以当时我们就很苦恼,说能不能再进一步?

其实就需要有一个上下文相关的编码方式。然后那时候我觉得那几年是非常幸福的一方面是什么?就是你基本上想什么,这个世界上就会发生什么。那时候再后来 transformer 出来了,bird 出来,它很早解决了 contextual 就就是上下文相关这个问题。嗯,但是不幸的就是每一次这种技术迭代,你会发现我们过去几年积累基本都都算了,不用去做了。

哦,所以很痛苦。然后我们就是当等于从二零一四年底一直做到二零一八年才把这事做完。我们当时所有的模型是自己从预训练区开始做起的,是非常痛苦的一个事儿。然后也很早就开始多大的模型?总共加起来,我们只有两个模型,总共加起来大概是两个零点三B的模型啊。那时候这叫大模型,当然现在这已经都不算什么。对,然后也很早的遇见一些问题嘛,比如当年像BERT吧,它默认情况下如果没记错的话,它的context

length或者那时候我们还叫sequence length是五百一十二个token。

嗯,五百一十二,我的天哪!就是你如果去掉,比如说它一开始的CLS跟SEP token,你只有五百一十个token。那这时候,如果我要让AI去自动在互联网上去读网页的话,这个是完全不够的嘛?所以我们当时从二零一八年底就开始解决 long context 的问题。但是那时候我们解决的 long context,在今天看来也很小儿科。

我们解决十六 k 长度,嗯,对。然后这个我如果没记错的话,那个模型后来我也开源了。反正我们当时就一直在做这个事儿,嗯。然后就当时做了一个产品,叫做 Maggie。Maggie 是来自于我很喜欢的一部动画里的一个超级计算机。对,然后它做的事情就是如刚才所说,就是 AI 能够自己去到网络上去看各种各各样类型的不限领域的文章,并持续构建并更新一个知识突破。

然后当时我们做的这个事儿,按现在的学术定义应该叫 life on learning 或者 continuous learning。对,反正就很好玩。然后这个东项目其实做的,我们是自己很嗨的。我到今天也觉得这是我我智力和我的编程和 research 能力的巅峰。对,再后来就人就已经逐渐老登化了,就水准开始下降。

但是那段时间的话,我们做到后面就会觉得很痛苦,就是外界的创新实在太多,太太快。嗯,直到二零一九年的某一天,我拿到了 GPT 三的 Early Access,我觉得天要塌了。对,为什么?因为是这样,就我刚才讲的,我们当时选择很苦的一条路,就是一切我们要做垂直整合,对吧?就是模型自己做,产品自己做。那好,我其实每一次模产品的迭代,我等着我底下模型的完成。

那时候模型现在还跟现在比,简直非常非常小嘛。但是同样,你的微服务其实也很恶心,嗯,对吧?你的 infra 也要自己去搞。所以,我们当时迭代的周期基本是两到三周能有一个模型的迭代,嗯。但是两到三周在当时的外部,这简直是巨变嘛,嗯。然后拿到 GB3 的时候,我测了一下。我觉得偏塌了的原因是什么?我们把同样的任务,我拿G P T,我随便写了个prompt。

那时候大家没有什么prompt的艺术,对吧?都是胡写。我发现它有跟我们自己训的短短短模型五五开,你知道吗?而且我当时就意识到一个问题,就是它虽然现在很贵。但是它是一个通解,就是那个时候我们在比如 L P 领域内大家互相交流,你会有很明确的感觉,就是比如我跟别人自我介绍的时候说,哎,你好,我是

Maggie 团队的,我们是做信息抽取的,然后这边可能是做这个呃机器翻译的,然后这边是做客服系统的,大家泾渭分明,对吧?

就互相握握手,就哎,互相学习,互相学习。嗯。但 G P 三出来之后,其实它印证了一件事,就是好像我们做的不同的任务是能够大一统的。对。其实它不是第一个工作,就之前其实 Google 有一篇叫 Flan T five 的一个 paper 出来。已经当时有这个苗头了,但是呢,那时候大家还觉得,哎,Google土豪太厉害了,这个做出一很好的 demonstration。

但是你要垂直领域还得看我们呀。但是呢,G P三出来之后,就彻底就把我们那条心给给给摁死了,你知道吧?所以当时我的第一反应就是赶紧卖掉公司,卖了吗?卖了,卖给谁了?变现了是吧?其实你好先进,我听下来就是你你你你从一一年做的事情,感觉和现在大家做的事情差不多。我觉得就是顺着做了一遍。我觉得不能这么说,就是你应该说大家在每一个阶段遇见的问题是类似的。

但是你每一个阶段其实都未能解决未来大家再次遇到的时候的问题,嗯,比如我们当时说的 long context 是从五百一十二个 token 到十六 k,现在的 long context 可能是指的比如说两百 k 到到两个 million,对吧?所以就是我只是说历史的话,它会押韵,那肯定不会重复这个东西,嗯。

你们当时做这些,你的目标是什么呀?因为我感觉一直在顺着这个技术往上爬,但是你的目标是什么呢?对,我觉得这是一个很好的问题,也是上一次创业中我觉得我没有想通的一个事儿,就是可能那个时候还是年轻,包括现在我看到很多跟那时候我一样年轻创业者,大家我觉得优点是什么?就是非常的,就是遵循自己的本心,嗯,比如你喜欢什么事儿,你就先把这个事儿做下去。

当然,你也可以,你可以好点儿说,就是如果你看中了一个技术问题,且这个技术问题真的别人没解决的话,那它往往可能会是符合第一性原理的,就是说它是一个很重要的待解决的一个问题,嗯,对。所以当时的话,我们预见,如果你现在切到产品侧,可能会有几个问题。第一点就是我们会觉得应该做一款很成功的搜索引擎来替换掉Google。

但实际上,首先我们低估了搜索引擎本身这件事儿。嗯,这个其实当时很多人不知道,就是 Maggie 这一个项目,我们没有使用任何第三方的搜索。我们从爬虫到索引引擎,全是自己去建的,自己手写的。对,我觉得那是我工程能力的巅峰。对,然后我们其实低估了一件事儿,就是说,你光有技术,其实你解决不了不了一些非技术问题。

比如说,现在我都不太看好你再做一个新的搜索引擎,因为比如很多的数据源跟Google已经形成了一种,就是他们之间也是一个互利互惠的一个一个循可循环的一个关系。你再以一个搅局者入场的话,其实你无法重复谷歌过去二十年来积累的这些数据源的这个事儿。对,所以当时我们就觉得,产品一方面是我们的技术和非技术原因没做好,另外一点,我们当时很期望发生了,就是说有一个新一代的可穿戴式设备或者全新的人机界面的出现。

这个东西可能到今天为止,也许可穿戴没有充分的落地。对,同时新的人机界面,也许是直到 ChatGPT 才真的落地。所以就是,我觉得产品层面的错误,一个是技术,一个是可能确实是早了。但是就是创业就是这样嘛,你早一步就是先烈。对吧?是啊,不对,早一步是先驱,早十步就是先列。对,所以我当时我们就先列了。然后第三个,我们觉得当时商业上也没有想得特别清楚。

对,所以一开始想的是做一款就是完全to C,把这事做大。但后来其实因为做了很多年,技术不断迭代嘛,你也会慌,所以又想能不能直接做一些to B。但明显团队的基因不是这样的。对,所以我觉得那一段创业经历其实让我学到了很多,当然特别爽。然后特别爽,就是因为那是一个就是我觉得很多创业者梦寐以求的一个状态,就是。

我就想把我人生的夙愿给做完。夙愿是啥?人生的夙愿。你人生的夙愿是啥?就是我想自己从头基于一切都是自己写的,自己写的infra,自己做的模型去解决一个别人没有解决好的问题。然后,可是Google这个事儿已经解决好了,没有解决好?你觉得它哪里没有解决好?它是这样:首先,Google是通过收购Firebase,对吧?

它其实获得这个之后,它只是获得一个很好的一个社区。然后,它当时也有一个并行的项目叫Knowledge Vault还是什么东西?然后我们跟他们做过head to head的的的对比,就是头对头的对比。我们当时在最高置信度下的准确度能达到百分之八十九点几,所以我们的准确度是比它高的。同时,我们不仅支持中文,还支持别的一些语言,包括就反向写的阿拉伯语。

这个现在可能大家不觉得是什么,但当年这还是比较厉害的一个事儿。然后同时,我们还自己去演练了这个像那个向量搜四向量搜索,那个现在可能也是比较常态了。我们当时为了解决这 scale 的问题,我记得是跟英特尔合作,找了一个新的方案。他们当时有一套技术叫做 PMM,就持久化内存。嗯,我们自己写了一套向量索引,基于那 HSW 算法,然后去搭建了整套这个东西。

就是我把我这辈子想试的技术。都以合理的方式花投资人的钱给搞定了。嗯,对,所以我觉得在那个项目做完的那一刻,我的人生已经圆满了,你知道吗?所以就在后来,像包括现在做 madness 这些这些事儿,我心里已经没有什么就是那种就是我要证明自己或者我要做什么这个才能死而无憾,我早就无憾了。所以现在我就可以一个很轻松的一个状态来做很多事儿。

哦,你所以你还去工作了?对,我工作了一年半。哦,那段工作经历其实非常开心。哦,非常开心。为什么?就是是个大公司吗?呃,当时还是一个独角兽状态,然后就相当于在临上市前的一年多。但是当时又刚好赶上就GPT,就是当时我是因为GPT三的出现,我意识到危险嘛,所以相当于我是在ChatGPT出来之前一直干到了ChatGPT出来之后那一段,相当于我在那家公司从零的做起了那L M的业务。

对,所以那段期间怎么说呢?这个公司的一个工作模式,当时很多人不喜欢,就是说,好像所有的这个 research 或者算法岗位,大家都在公司内部打榜,因为那是一家 To B 的公司,就 B to B 做 AI to B。那 AI to B 的一个经典的问题就是说,你如何去量化用户的收益?嗯,你除了一些比如说这个最终的这个最终的经营指标以外,你其实也需要一些过程指标。

那当时的话,有一个部分团队的任务是说,我把所有用户的需求转换为可量化的benchmark。那这个呢,就是researcher和这个算法岗最喜欢的事情,就是打榜。所以那时候我的主要工作就是打榜。对,然后打榜又很开心,因为当时公司内部的一个激励方案很有趣,就是公司内部有个类似cago那样的一个榜单系统。

嗯,然后呢,你赢的越多,你的奖品是什么呢?你能获得更多的显卡。啊,所以你会进入一种强者恒强的状态,你知道吗?就是,所以我当时一个人能囤好几十张卡,然后我一堆卡的资源闲置,但是我就可以去捣鼓很多这个我想试的东西。嗯,因为总有客户会需要嘛,对吧?所以我可以做很多的实验,然后同时我的算力又是最充裕的,我能 scale up。

所以我在那一年半里头,我一直霸榜着第一名,所以我觉得那段经历特别开心的。你以前上学的时候好像没有这个劲头,是吗?你以前上学的时候是那种特别喜欢比比分数的学霸这种类型吗?好像不是吧?不是,因为我好多课我都没上,所以我特别感谢我的高中。当时在北大附中读书,然后我觉得我特别幸运,就遇见了一群超级开明的老师,就是开明到什么程度,就是有的课不想上,老师说那你就不上了。

后来学校还给了我一个,也不叫一个小顾问,我们有一个计算机社团,就相当于我在学校里头有一个不上课都可以去的办公室,有空调有电脑,让我好好的捣鼓我喜欢的东西,所以我觉得太幸运。你第二段创业终止的那一刻,你在做什么呀?你在想什么呀?我当时的想法是这样,就是。我知道有一个新技术出现,可能要杀死我。那这时候我的选择是什么呢?

当然是选择加入了,对吧?然后,但当时的想法是这样:就是我刚刚经历上一次创业的一个创伤,就是你自己要做垂直整合,真的很痛苦。就是每天醒了之后,我我常说一个比喻,就是每天醒了之后,你都感觉海水在上涨,但是你不知道会涨到什么程度。也许你第二天醒的时候就已经到到到鼻子这儿了,就很恐怖的一个感觉。所以当时我想法还是我喜欢创业的,但是呢,我不想做垂直整合了。

所以当时会有一个比较天然的想法,就是那时候大家会把创业AI创业分为几个layer,就几个层,比如说那时候有模型层,有那时候好像它就基呃infra层就是基础设施层以及应用层,嗯,然后当时我就想,OK,那我面前其实就三条路嘛。那时候其实到了二二年底二三年初,大家看了拆GPT之后,其实国内很多就是基座模型公司已经开始动起来了。

当然我也跟所有人都聊过,但是呢,没人能说服我,就是这个东西到底该怎么办?因为我觉得这个我不再不太再想体验这种特别难受的那个状态,所以我的更多的目光是看向了这个就所谓的基础设施层跟应用层。那这时候其实也有一个问题,就是大家当时一直在说这个事儿,嗯,但是没人知道真正的AI应用岗该长什么样。尤其你想二三年年中的时候,真正有PMF或者说有一定声量的产品,可能就两个,一个ChatGPT,一个。

Character到AI,嗯,对。然后Character到AI这种东西,我非常清晰,我不懂这个东西,因为我用了,我自己用不进去啊。那我就让用户不是不是一个年龄不是用户,那我肯定做不好这样的产品。而ChatGPT的话,这其实是一个天时地利人和的一个状态。就是我至今也觉得,就是ChatGPT其实出来一瞬间,Chatbot的的这个赛场就已经结束了。

所以我明白我想做应用或者做infra层的东西,但是我没想好我要做什么。嗯,对。所以呢,我就看一些机会,同时的话,也就去呃去去去怎么说,看看相关的项目。然后在间隔了一段时间,对吧?对,在间隔待了一段时间,然后就是也算是就是呃,跟更年轻的创业者一起交流,就把我过去的这个比如说悲惨经历跟教训可以可以提前告诉大家。

对,所以今天这节目我也想跟大家分享一些悲惨经历,对吧?对。然后再到后来的话,其实也是当时认识了小红,就我们现在 Manus 的 CEO,嗯,然后他是怎么说服我加入的,或者说为什么我要从第二段创业之后去开始这个事儿?你中间隔了多久?当时就是那一年半的时间吗?呃,在整个了一点半,对,在整个了一点半时间,对。

然后,然后那段时间你就明确不想做大模型,不想去大任何的一个大模型公司。我几乎跟所有的大模型公司聊过,你有喜欢的吗?呃。Google,Google,对,嗯,海内外都聊了是吧?呃,海外聊的是当时海外也没几家,海外也基本都聊了,然后国内的话也都聊了,包括当时那个为什么是Google?呃,你不是要干掉人家的吗?

就是你没干掉他,你才会格外尊敬他。对,然后当时我的那个想法就是,我想。找一款AI产品不是我自己去主导啊,而是一个很空的画布啊,就大概是这样一个感觉,就是因为哦对,其实上一次创业到最后,我其实还学会了一个很重要的事儿,就是我意识到我根本不是做CEO的那块料哦,就是我既不喜欢商业化,我也很讨厌管人哦,对,所以我觉得这是。

交了一个学费,就是我知道我不该做CEO,我应该找一个比我适合做CEO的人。那你觉得你是哪些方面不适合做CEO呢?我觉得完全就是一个情绪上就很抵触。情绪上就很抵触,为什么呀?就是有哪些比较烦你的人性?首先有一点就是说,我与其跟电脑打交道,啊,我很喜欢跟电脑打交道,但我觉得人太复杂了。就是你的组织在随着变大的时候,其实你的发现,你这个复杂度其实是指数级增长的。

我觉得我不是那块料,我搞不定太多,就是人与人之间的更微妙的这些事情。你看起来比小红要异很多。不不不,其实我们公司除了张涛以外,全都是爱人。我是爱人。对我,我只是开朗的内向,你知道吗?就是。我就我在跟你聊,我再跟你聊具体的业务的时候,我能讲很多。但是其实我你是I什么I N T J哦,就不是I N T J,人都烂大街了,大家都差不多啊。

对,所以就是我觉得,首先管人,我觉得我不太行。第二点就是,我有的时候会陷入一种。特别追求正道的思路,什么叫正道?就是说正道对,就是你有一个能够赚钱的方向和一个能够把一个特别有趣的技术走到底的方向。我毫不犹豫的油门踩死往右走,但是我知道这一定是错的啊。所以呢,我需要有一个人能把我给管住啊,就是在我又想发癫的时候给我摁死。

哦,对,所以就是也是经过创业之后,你会充分意识到自己的不足,嗯。对,然后,所以我当时想法就非常清晰,就是我想一不想当CEO,不想当一号位;第二,我想找一个能够探索的画布。注意,我说的是画布,而不是一个已经成型的一个一个产品,然后去迭代它。对,因为我觉得当时所有人不过都是在下注。没有谁说真正有一个非常系统性的systematic一个方法去知道接下来AI产品要做什么?

什么叫所有人都在下注?就是当时大家都在基于自己的一个直觉判断去说我要做一个什么东西,我要做一个什么东西。但其实我已经经历过几次这样的创业,我在想我能不能这回做的正规一点。就是我们能不能像字节跳动一样有一点数据思维?对,然后所以当时我就觉得,我我不应该自己在丛林去一种,就是我因为相信所以去做的的事情,我应该有一个更有一个过程去更多的观察。

那观察用户最好的方法是什么呢?就是有一个初步 PMF,但又非常空的画布来着。所以当时我跟小红,当然因为就是他也是就真格投的嘛,也是像我们这样老一辈创业者,现在都已经是中登的年纪了。所以就是当时他在做一款产品叫 Monica, Monica 现在也有很多人用,也有很多用嘛。也我们现在都在同一个实体下面。

Monica这款产品它其实是一个 Chrome 的插件,嗯,Chrome 插件,我当时觉得这个产品的形态非常戳我,是为什么呢?因为首先它其实没有改变任何用户的习惯,就是你在浏览器中你仍然在使用你所熟悉的 Gmail,你还在看 YouTube,就是它没有因为是 AI 所以侵入你的生活而改变什么,所以用户的原本的轨迹不是被强行改了,你的观测是一个无偏的观测。

第二点是什么?就是当时很多人你要做 AI 的话,你可能都已经要先下注去做一个方向。因为你不能在一个界面中无限的叠加不同的元素,对吧?那样你产品的复杂度会变得很高。像我很喜欢 GetUp 有一句话叫“Everything added dilutes everything else”,就是你每增加一个东西都会稀释所有的价值。

那浏览器插件的绝妙之处是什么?它的功能的分发其实是基于 context。就比如说跟视频理解相关的东西,只会在你看YouTube的时候出现。嗯,然后跟比如自动编写或者文章文章这个改动的这一些功能,只会在比如说Gmail或者Google Docs里出现。所以它其实消解了就是功能增加带来的复杂度爆炸问题。

所以我觉得浏览器插件是一个绝妙的观察用户到底在怎么用AI的一个一个窗口。它甚至不能叫一个产品形态,它是一个空的。Container一个空的画布,所以我觉得这款产品是绝佳的作为进入AI应用时代的门槛。观察到了什么?观察到一些非常有趣的东西,待会儿再讲。为什么做Manus的时候可能都会讲到?好的,对。然后这块就是我觉得这是非常值得做的,但是我其实也没想好,就是其实你有别的插件吗?

嗯。那为什么要跟小红合伙呢?首先就是我很幸运跟他交流之后发现,他太适合当CEO了。怎么说?就是怎么说?就是他擅长所有不擅长的东西。而且,其实如果你反过来说,你再看当今国内外AI创始人一号位的这个整体这个landscape,呃,这个这个这个版图的话,你会发现小红人有一个非常稀缺的特质,什么?他很正常。

他身心健全,没有任何不良嗜好,没有任何极端极端的思想,这不是一个这不是一个正常的指标,这已经很难得了,你知道吗?就是我觉得现在整个这行业有很多人比较偏执或者怎么样,但是讲真,其实就是你没有乔布斯的命,却得了乔布斯的病。你在说你自己吗?呃,对,而且我经过这个惨痛的失败之后,我意识到这一点,但是他们还没有意识到。

对,所以就是我觉得小红身上最可贵的品质就是她特别正常,相信常识是吗?呃,对,还是你会说话,对,相信常识且相信团队。而且就是好多事情的判断,他会更加的怎么说呢?你你既可以说是就是直数据驱动,也可以说是直觉驱动,但是他是一个真正的能把公司从一个阶段持续带到下一个阶段的人。而我可能如果我自己从头做的话,我只会在我喜欢的那一个阶段,很爽。

对,所以我觉得太难得了。哪些细节能让你见他第一次就觉得他很正常?呃,我觉得不是见第一次,你们见了几次啊?其实很多次,就包括后来的话,其实也是一起吃了两三次饭,然后也长谈了很久。对,然后最后他怎么打动我加入呢?还是因为一句话,他说:“Pik,我知道你做过浏览器,你做过搜索引擎,你做过语言模型,你想不想在一个产品里把这三件事都重新做一遍?

”我觉得好呀,这个好听起来也挺吸引人的。嗯,然后当时就加入,当时加入之后也非常清晰的一点就是,这次创业其实我不是来做Monica的。就是Monica是我们大家的一个学费,或者说整个这个公司的一个cash cow,就是它产生现金流。但是我们一定加入,把这个团队团结起来,包括后来张涛啊,还有更多的这个合伙人加入,我们是要一起搞一个全新的事情的。

在你们多次的长谈和聊天中,你觉得哪些细节让你觉得它非常的正常?我觉得还是对比出来的,就是因为同一个阶段,我一定不止跟小红有所接触。对你肯定全见了吗?对,是的。怎么正常呢?我觉得别的创始人都太艺术家了,太艺术家了。是的,是的。你就比较艺术家是吧?你如果这么划分的话,我不敢说艺,我就我不配,我不配,我不配这个词。

对,嗯,太艺术家了。对,别的创始人我觉得太艺术家了。小红非常的现实,嗯,对,就是或者说包括整个现在我们公司的这一个运行,其实我觉得都是很稳健的,嗯,甚至有时候我们内部反思会觉得有点保守,嗯,但这才是一个叫什么?就是更尊重对尊重常识,我觉得你这个词说的很好。你说谁是艺术家?我们可以毙掉啊!太多了,就是我举例子,比如说你知道哪个产品吗?

我知道,对,然后你知道点点了,然后像这个点点,嗯,我见见过他,对,然后像那个,还有那个做那个记的那个,哦,你都见了,我我这大家都会来找我聊一聊,对,然后我我就觉得大家都太太艺术家了,太艺术家了,嗯,对,然后我觉得身心不够健康是吧?就很偏执,你知道吗?就是多少有点抑郁,多少有点抑郁,多少有点抑郁。然后,对,其实小红也有时候会抑郁,但我就一直她就比较emo,有时候是对,对,对,对。

但她不属于抑郁,对吧?她她她她不抑郁,整体是比较阳光。对,而且不会那种深夜发癫,就是那种。现在这些都对于创业者来说,你觉得不是优点了是吗?我觉得不是优点,绝对不是优点。就是哎,这我觉得是很大的一个变化。就是说,以前移动互联网时代,我还挺喜欢这类人的,嗯,因为你的编辑成本很低。就说你可以去,比如说赌一把,搞一个大的,看用户是否你能找到一群跟你共振的人,再逐逐渐去做大。

但其实我们觉得现在AI这个行业,首先,呃,当然就LM或者Inference Cost一直在下降,但其实我们心中隐隐觉得它更像传统的制造业。它一直有一个固定的成本在那儿啊。你如果没有任何的优化的话,其实你随着你用户量的增加,你的成本是线性级去提升的。嗯,所以这整个事儿对经营的操作能力的要求是比上一代移动互联网创业要高很多的。

这个有趣。嗯,我觉得是高很多的。移动互联网更喜欢艺术家。对,移动互联网时代喜欢艺术家,而且其实你能很低成本的获得一批初始的用户。嗯,但是AI我觉得不是,AI不是这样。但是你从一开始就pass的大模型这几家公司是的,你也都聊了。呃,我基本上都聊了,但这个的原因完全因为PTSD啊,对。但是大家会觉得AI时代不一样的是,可能大模型和产品是一体化的,所以说拥有大模型的公司更有可能做出好的产品,就是他们那个沿途下蛋的理论。

嗯,你从一开始就不认可吗?啊,我认可这件事儿,但是我认为有一个时间先后问题,就是我现在的一个观点其实是可能都不用太久吧,也许比如说六个月之后,其实你不用再分所谓的这个模型公司跟应用公司。基本上每一家头部应用公司都有做模型的能力。嗯,其实这个事儿已经被 Cursor

给跳出来了。就是我觉得之前大家还有一种那个呃秘而不谈泾渭分明的这个状态,但你看 Cursor 已经跳出来,他们搞了那个他们新那个模型叫什么来着?

呃,Composer One 嘛,对吧?嗯,其实我觉得首先就是做模型或者说做垂直整合这件事儿。它其实最影响的是你初期的迭代速度,就是我上一次创业最惨痛的一个教训嘛。就你在不确定的时候,你开始做做 bottom bottom up

的这种就自下而上的迭代的话,你会被你的模型迭代所影响。其实这个不仅是创业公司的问题,就是你哪怕你强如 OpenAI,OpenAI 我非常尊敬他们一点,就是他们一直非常尊重这种自下而上的这种模式,所以他们产生很多新的创新。

但如果你首先你一个产品引领的思路来看的话,你某种意义上来说,一你在买模型彩票,因为即使你有一个比较好的一个 Road Map,其实你在最后完成 Posture 那一刻之前,你都不知道这个模型到底能不能就 deliver 就就达到你想象中的这样的一个需求。所以很多时候你是因为有些突破,所以反向在引导产品的的走向。

这个我觉得我之前已经吃过这个亏,这是第一点。第二点就是我刚才讲了,就是模型,你即使能通过很多的,比如说你优化你的pipeline,你增加你的人手,或者让你整个这个这个链条更加的流畅,来增加你的迭代的速度,但其实这个世界上只要有产品经理存在,你一定是追不上产品经理的。脑思维的这个这个活跃度,所以我觉得比较健康的做法应该是,当你的产品已经出具PMF且已经到了一个比较稳定的一个状态下之后,你以你以一种增加稳定性或降本或突破天花板的思路再去做模型,嗯,这是一个先后的问题。

你当过CEO,然后也当过就是旁观CEO的人,你觉得身心健康对于现在AI的Founder来说价值大吗?有意义吗?我觉得非常大,就是因为你很有可能会受挫,或者说你必然受挫,但是身心健康的人是打不死的,就是你能够一次一次的很谦卑的再重新站起来,再去很冷静的看待外界的变化来。回馈到你的一个决策的一个思路上,这其实我觉得,在我加入就是蝴蝶项目,就我们这母公司之后,我们已经看见了无数次这样的事儿,就是大家没有那种就是因为我是一个身心不健康人,或者我有过度的一种执念而选择一种蛮干的一个思路。

我觉得就整体就非常理智。嗯,你们从几月聊到几月份,然后你加入了曼纳斯?哦,其实中间隔了很久,我有点记不清了,但我觉得前前后后应该有四个多月。四个多月,我记得我第一次跟小红见面的时候是在北京环宇汇。下楼的时候,她说她刚跟你在这儿见了,你是在那里答应了她加入Minus。有可能?哎呀,这个这一年过得太快了,好多细节我已经想不起来了。

呃,我最后正式加入应该是二零二四年的三月。哦,对。嗯,年初加入的,所以二三年底开始聊的,对,是的。然后同期你也聊了很多,那个时候出来做应用的,是的,是的,对。也不仅是应用,就是刚才是讲那三层嘛,其实都聊了,嗯,对。大模型公司,你有喜欢的公司吗?呃,大模型的话,啊,肯定都聊了。嗯,对,反正当时的话,其实可能比现在看起来要更欣欣向荣一点。

对,然后当时其实我比较喜欢两家,我不是马后炮,我觉得确实也是当时判断比较好。应该三家吧,我比较喜欢千问、DeepSeek和Gemini。嗯,对,然后DeepSeek当时也是因为很好玩,就是其实很早就跟他们有接触,是因为那时候我之前的一次创业是在做那个。呃,知识图谱构建嘛,且同时我们自己从零搭建整个这个搜索引擎的

infra,所以其实我们有很大的预训练数据集,嗯,所以当时很早就跟 DeepSeek 的朋友认识了,嗯,然后但后来我没有把数据单独卖给他们,我直接把那个我们当时做数据集开源了,对,但是也算是给大家留下一点遗产,对,然后那个千问的话也是,就是因为。

跟他们那个团队的很多人都比较熟,然后当时就觉得千万是做的非常的扎实,而且他是真正第一个让非常宽松的开源的模型,我觉得这个尊敬的程度就是非常的高,而且另外一点就是他让我看到了大厂里头一群年轻人能干出来的事情的一个一个一一个表现,对我觉得非常非常难得,嗯。然后Kimi的话,一方面也是真格投资的嘛,对。然后甚至当时投Kimi的时候,因为我在真格,所以当时交流会比较多。

嗯,对。然后我觉得首先这个公司是比较有品位的,对,品位是的,呃,taste这个还是很重,而且技术品位吗?呃,我觉得就品味这个词,现在大家经常说,我可能会关注一个非常具体的一个指标,也不对不起,不该叫指标,不能这样去炸着。就是说,大家常说呃品味,我觉得该怎么体现出来呢?品味可能体现在你的evaluation或者你内部的benchmark上。

甚至我觉得这可能是创业公司唯呃对不起不是创业公司所有AI公司唯一的护城河,就是因为你自己内部的衡量指标,无论是对于模型的benchmarks还是对于你人的激励,其实决定你这家公司的产品该走的这个方向。嗯,对,所以我觉得这个还是很不错的。那个点觉得我不应该去大模型公司而应该去应用公司的人非常少,应该。

嗯,是,我觉得这就是我刚才说我特别幸运的一个点,就是我提前吃了很多大家后来才吃的亏。嗯嗯嗯,对,他们今天开始吃了没?我觉得很多人已经在吃了,且付出了更惨痛的教训。比如说,我觉得现在其实很多之前讲的一些国内大模型公司。可能从最开始不是什么百魔大战吗?嗯,其实当然那个九十九个都已经先死掉了。嗯,最被大家提起的几家,其实也有一些已经渐渐退出了这一个一个赛道嘛。

嗯,我说这是挺正常的。而且自从其实 DeepSeek 出来之后,我觉得还是对大家产生了很大的客观的冲击。嗯,就是它让一个。模型的保质期变短了特别多,嗯,就是训大模型,我觉得最痛苦的是什么?就是如果说我以前的痛苦是来自于我要做垂直整合,我要快速迭代的话,嗯,现在变成了一种,如果你只做模型,你不是SOTA就没有意义;但一个SOTA模型,你的保质期其实只有一到一个半月。

就是一种非常激烈的不进则退的一个状态,嗯,而且大模型就我刚才讲的,就是以前我们做L P的时候,其实你能有很多不同的,你可以叫赛道吧,嗯,就比如我做信息抽取,你做什么东西,你的所谓的好的这个指标是多元的,嗯,而L M或者说你这种next token prediction范式的。模型它其实统一了各种任务的建模。

嗯,虽然大家也说我要做 coding,我要做多模态怎么样,但是世界上的能够衡量的指标的维度其实非常非常清晰的。嗯,你几乎没有多少腾挪的空间。但做产品的稍微美妙的一点就是,你起码能够自己定义什么是好,所以你起码能在一个错位的赛道上去跟别人竞争,你有更多的发挥的空间。今天追求SOTA还有价值吗?我觉得一定是有价值的。

这个我觉得是,无论是模型公司,还是甚至是做A I公司,我觉得都要追求SOTA。OK,这是一定的,因为还是刚才讲那句话,就是你的evaluation或者说你关注的那些你选择的bench mark决定了你的taste能否落地。你从第一天就pass了这些大模型公司,你觉得他们的未来会怎么样?呃,我觉得其实是这样,就是大模型公司一定最后都会变成同时做模型和同时做应用的公司。

嗯,其实你看美国现在这个版图基本已经是这个这个方向了。Open,我认为它现在更是像两家公司。一个模型公司和一个跟它有强关联但并不绑定的 research lab,嗯,而 Google 的话,始终它就是一个双向都很强的公司。而 Anthropic 它可能之前还一直会比较关注说,它作为一个 B to B

market,比如它做它的这个 Cloud API,但其实 Cloud Code 的的巨大的成功也给了他们很多正向的一个。

一个激励,像他们自从那个 Mike Kriger 就之前的呃,就他们现在的 CPU 加入之后,其实他们对产品的打磨也做得非常好。而且 Mike Kriger 他也不仅是在做,就是大家广义上来说面向用户的产品。他对很多面向开发者的产品的把控也非常好,像比如大家对于像 Cloud Scale 都给出很高的评价,这也是一种产品能力。

嗯,对。但是我觉得这可能就是大家都会走向那条路。反过来说,我觉得如果最后不再分大模型公司跟应用公司的话,那我认为其实做出一款好的应用,且被大家喜欢的应用,其实比做出一款够好的模型难得多。因为训模型这个东西,它的知识的流通在业内是非常非常快速的。嗯,尤其在硅谷,没有经验,你可能一个老公在OpenAI,他的老婆在Google,没有什么秘密,你知道吗?

就是这个对,所以这个这个东西一定会流通的。所以我觉得到最后,其实会变成一个应用之争,然后每个应用背后会绑一些模型。嗯,所以模未来模型公司和应用公司是没有那么泾渭分明的。对,我觉得不会那么泾渭分明。你刚才说你当时还聊了一些海外的公司,包括Google,你还聊哪些公司?当时对他们怎么看?在二三年对吧?二三年对,其实当时的话,几乎所有在做模型的公司我都聊了。

然后当时其实二三年初我也录了一个podcast,当时还是在以真格的那个eer的一个身份去录的啊,就说了一些暴论。那现在看来好像都对,太幸运了。对,然后当时的话,我觉得其实比较看重几点,然后这个都是有史可查,我不是事后诸葛亮。第一个是二三年初我说我我关注long context。哎,当然这个待会儿可能聊的,我觉得这个错了。

对,然后第二点当时比较关注的就是在自然语言和系统的边界,你可以说是 function calling,或者就是说跟 environment 的这个互动,嗯,其实就现在 agent 这些东西,对,这个是我当时比较关注一个点。然后第三点就是这个其实当时那个分享中媒体,但我其实还一直还挺信 scale up 这个事儿的。

因为这也是大家常说的那个,就是 bitter lesson 就苦涩的教训这件事儿,就是人类历史上 AI 的进步基本全是用通用方法加投入更大的算力,而不是增加这个人为的这个专家知识的注入。嗯,对,所以就是当时对于 scaling 这事儿,呃,一方面是很看好,然后很早买了点 AI 的股票,对,然后这是谁的股票?

NVIDIA。对。然后当时我就心里会觉得,就是Google最后一定会很厉害,对。但是它确实用了很久才很厉害。你加入Minus是二四年的三月份,然后到二四年十月份你在做什么?对这个其实也是我忘了,萧红之前有没有跟大家分享过一事儿,就是他为什么叫我加入,且用那句话说服我,就是说要想不想做浏览器。搜索引擎和大语言模型再做一次,因为当时我觉得我们大家整体做了一个错误判断,就是因为当时

Monica 已经有了一定量的用户量,我们会觉得也许我们可能是当前世界上最懂用户怎么在浏览器里用 AI 的团队,那么我们的一个直觉的惯性的外推就是说,我们要不要做一款浏览器?

嗯,这个其实想法是比较比较有数据支撑的,就我刚才讲的,就是你要理性的去看这事儿,因为 Monica 当时已经是资金流是正向的。且增长还不错,但其实有一点很好玩,就是如果你去看 Chrome

的那个插件商店的话,你能看见所有别的产品的一个活跃和下载量,因为它这个是一个很透明的一个生态。然后当时你看整个插件生态里头的头两名分别是 Ad Block,就是去广告的,和 Grammarly,就是帮大家改那个那个语法的。

其实他们做了很多年,对吧?他们产品性绝绝对没有问题,非常 polished 的产品,但他们最后都停留在大概五千万左右这个量级。五千万其实确实是很大的,对于一家创业公司来说。但如果你跟整体 Chrome 这个浏览器的日活的话,它应该 Chrome 的日活我记得能有二十亿吧,如果没有记错,对,因为我也没有准备,可能数据有错。

但我们当时觉得好像我们做到底也只能渗透到比如不到百分之一的 Chrome 用户,因为插件真的是一个就是形态比较高阶的一个一个一个模式,因为好多普通的用户其实甚至不知道 Chrome 能装浏览器插件,所以我们当时第一直觉是,也许我们被插件这个这个东西给给约束住了。而我们当时想的比较天真,那我们想的是,我们能不能跳出插件,而变成一款独立的,就是一个原生的浏览器,在用户的电脑上。

同时,这样的话能做一些别的事情,就比如说我们可以做端测的模型。当然,这个其实就是一个一个坑,待会儿会讲到。嗯。然后我们当时就开始做浏览器,大家都很兴奋。然后从我加入之后,马上就快马加鞭去开始搞,一直其实从四月份我们搞到了大概九月份,我们大家就做事儿还挺快的。我们其实内部已经早就有一个能用的一个浏览器产品,然后这个我们其实内部摸了一圈之后,意识到这事儿有问题。

对,怎么有问题?对这个有问题点非常好玩,就是我们当时做了的。当时张涛加入了吗?加入了,加入了。就那是几月份?二,我是四月份加入。涛哥应该在一两个月之后就加入了。哎,你给大家来介绍一下你们这几个抠方,对吧?因为大家都分不清楚你们这几个人啊。对,我觉得这是一个特别棒的一件事,就是呃,为什么我这些先开个玩笑,就是为什么我觉得不当CEO很好?

因为虽然Manus的宣传片基本是我出镜,为什么是你出镜?因为要说英语,对,然后呢,这时候呢,自然有人有人支持,有人骂,对吧?他们看着新闻片骂,都是这萧红太坏了,对,所以就是感谢萧红帮我挡了很多枪,嗯,然后是这样的,就是整个这个Mans这个团队,或者说蝴蝶项目这家公司,其实我们有六位合伙人。对,我都不知道啊。

对对对,其实主要就是平时在外面可能露脸稍微多一些的是张涛,我们的CPO,他会负责很多的,无论是产品以及其实更多,比如说与外部的对接,包括一些对外的宣讲这些事儿,这是张涛。张涛之前是也是一个非常非常呃senior的连续创业者,他经历了什么豌豆荚、神策,后来光临之外都做过。然后这是他负责产品,对他负责产品以及对外的对外的这些合作。

嗯,然后是啊,肖红Red。和他是我们的CEO,然后还有我们的CTO潘潘,以及我们的一个负责呃我们的CMO啊慧杰,他们三个其实是之前就一直在一起创业,做过两三家公司了。他们其实是Monica的原始的创始人这三位。嗯,对。然后除再之后就是我,还有我们的CEO Cz,他是一直负责就是比如说这个公司运营啊、财务相关的同事。

所以其实我们是有有六位同事是合伙人,对。现在创业公司团队会变得更大,是吗?对,因为它需要能力更复合。呃,我觉得其实是这样的,就是说,首先现在可能有一个。就是外界的一个观点,好像说在AI时代,团队会变得更小。嗯,我们觉得这个东西,首先你不应该作为一个指标,它或者说它应该是一个被动的指标,就是我们绝对不会为了团队规模而进行任何的特殊的优化,我们只会自然而然的去观察团队规模的变化。

但我觉得确实如你所说,有一点就是现在你很难去分清各个能力项,因为你很难做到完全正交。像比如说我们做AI这个行业的话,其实你的research跟engineering是很深的耦合的。而产品,你又在同时引导你到底这个这个系统架构该怎么做?嗯,所以确实就是我们这六个人基本全都是连续创业者,而且之间大家可能都扮演过不止一个岗位,对,所以我觉得这也是大家合作比较好的一个点。

但与此同时,你又很难得能找到一些就大家在自己领域做的很深,却又能听得进去别人话的人。就是我说,我们是一个非常难得的团队,因为我们六个人的都是身心健康,然后无不良嗜好,且这个这个观念不极端。你这样的不良嗜好都是什么样的不良嗜好?我们开玩笑啦啊!至少我们啊,对烟酒我们都不太沾的。你们的决策机制是什么样的?

呃,我觉得这是我们一直在持续改进的一个事儿。就是我觉得创业公司其实,在不同阶段或者说你在解决不同的事儿的时候,你需要不同的决策模式。我们认为,就虽然我们是连续创业者,但其实我们也都不成熟。最近在逐渐走向一个更理智的一个方式。我们可能这样总结,就是说,你要把你的管理分成几种不同的类型,一种是,呃。专制的,或者有英文有个词叫

B D F L,就是 Benevolent Dictator for Life,就是仁慈的终身独裁者。

这种叫集权式的,还有一种就是民主式的。我们觉得,如果你把你整个决策分为三个阶段的话,就是可能叫 G P A,G 就是 Goal,你在定目标,然后 P 就是你要定优先级 Priority,A 就是 Alternatives,Alternatives 就有不同的选项。在这决定这三个事儿的时候,你要用不同的模式。

做你在定这个goal的时候,你应该是一个比较专制的模式,嗯,就相当于是,也许是比如Red作为CEO,他应该就把这个大家的这个目标给定死。而在决定 priority 的时候,应该是一个专制加民主的一个决策形式。就比如可以,呃,首先有一个人能拍板,但是大家能充分发挥自己的这个意见,因为这块会涉及更多不同的这个专业 expertise 这些东西。

而在大家提供方案,就那 alternatives 的时候,是一个充分民主的,因为在这个阶段,也许我们觉得就是可选方案的数量,甚至比质量要更重要。因为很多时候,如果你没有足够多的数量的话,你的决策的空间其实一直是非最优的。嗯,就好比你训练了一个模型,但你的 action space 本身就有问题,那你挑什么呢?

对吧?所以我觉得这是一个混合的一个模式。当然,我觉得我们还都非常的业余,最近也在不断学习这些事儿。有什么样的是小红会拍的吗?有什么事情是他个人会拍的吗?呃,会的,我觉得就是小红还是作为产品方面的最终的决策者。嗯,我们觉得这是非常重要的一点,就是我们包括我自己都比较相信的一件事,就是与其悬而未决,不如赶紧试试。

因为就是好多时候我们在做一个新的领域的时候,其实第一,你过往经验不一定有用;第二点就是你现在想更多,其实你没有额外的信息的输入,对吧?你仍然是基于你模型内部的呃参数化知识,没有做rag,对吧?你也没有一个检验的结果,那你在想太多,你不如先把这事干了,拿到你的reward再去做。所以这个一直是我们的核心的一个指导的一个思想。

所以他做CEO和你做CEO的区别,可能是你可能是技术驱动,他可能是产品驱动的。对,这件会导致你们公司的基因是一个产品驱动的基因。是的,是的。但是我觉得小红,我非常尊敬他的点就是,他也充分尊重我。就比如说,对于一些技术方面的决策,我也是可以做技术领域的BDFL,就是。我是可以当技术方面的独裁者,这是也是可以的。

嗯,所以整整体是自上而下还是自下而上?啊,我觉得我们在逐渐从一个自上而下的体系,尽量去变成自下而上。因为随着团队的扩张和这个团队成员的质量的不断提升,我们觉得自下而上会有更大的一个动力。像之前的话,比如说我们在一个纯粹的快节奏的过程中,你可能自上而下是一个更稳健的一个做法。嗯,但现在我们在逐渐的变得更成熟。

我们刚才在聊四月到十月份你在做什么?哦,对,对不起,我都都已经聊聊聊聊远了。当时我们做了其实很多事情,但是呢,其实围绕的一个母题就是如何做一款AI native的浏览器,就是所谓的AI原生浏览器。对,当时做出来产品的形态其实跟现在的这个ChatGPT Atlas还有像那个DIA已经很像了。嗯,当时的我们想的这个切入点有几个,一个就是说我们要训练一个端侧的一个模型。

来让一些操作能够在用户的电脑上去完成,既不产生 API 消耗,同时呢,也是充分尊重用户的隐私。这里就埋了第一个很傻的坑,就是你拜托你做的是一款浏览器,浏览器本身就是联网的,你为什么要追求一个一个一个一个离线端测运行?现在想起来可能有点傻。第二点就是用户其实大部分时候不会关注你到底是离线的还是。这样的,他们要出最好的效果。

嗯,而当时的话,你其实,在电脑上,比如即使你只做苹果这个 Apple Silicon 芯片,你其实也就跑一个三 B 级的模型,就已经就已经差不多是极限了。那用户会拿你跟云端的旗舰模型去对比,你的效果一定会差一些。这是我们想的第一点,现在觉得很可笑。第二点,其实至今有很多人在做的事情,就是想让 AI 接管用户的浏览器来完成一些自动化的工作流。

这个事我们当时也做了,但是这就我刚才讲了,为什么不对劲?我可以展开讲一下,它是我们觉得有几点吧,嗯,可以细数一下。第一点就是说,如果你让AI接管用户的电脑的话,你会发现一种很奇怪的使用体验,就比如说我让AI去帮我在一个网页上完成填表。那这个时候,比如 AI

当它填了一个一个字段之后,我一滚屏幕,比如我想看看下面,嗯,我其实打破了 AI 的的 observation,就是就呃,这可能待会再解释吧,就是 Agent 这工作的一个流程。

那这时候 Agent 可能会,他把这网页又拉了回来,嗯,那这个体验很奇怪,就好比你有一个特别聪明的实习生,但你好像非要把你跟这个实习生一起共用一个电脑。这个就体验就很怪,就是两个人在一起抢一个系统,而实际上我们现在用的所有的操作系统和软件,本质上来说还是为一个人同时使用设计的,所以这个体验就不好。第二点,我们发现什么样的任务真正是有价值的?

因为包括现在也有很多人在做所谓这个 GUI agent,就是用户界面自动控制的 agent。嗯,你会发现,如果你让他去完成一些你通过简单几次点击就能完成的任务的话,你觉得是很亏的,因为你的迅速的决策其实比 AI 还要快。而你即使让他,比如很简单的帮我点一个外卖,他可能每一两步之间每两个呃两步之间的推理可能也会五秒十秒这样的一个时间。

当然现在会更快,但你会觉得这好像没有产生多大的价值,对吧?我干更快,这是我们常见的一个想法。嗯,那AI真正有价值的应该是那种长任务,就long horizon task,就是它它的范围很广,它也许超过了我的能力,或者说它要运行很长时间。且运行很长时间或者多步几乎是一个必然的事儿,因为这种任务我才不愿意做,我才想交给AI去做。

但这个时候就会有一个问题,因为你做的是一款原生的AI浏览器,那这个时候AI其实是在你的电脑上运行。虽然我不说模型在你电脑,但是它在持续操作你的电脑,那就很尴尬。我不能把我的电脑盖上,嗯,我电脑盖上之后,我的电脑就休眠了,就卡死了。那怎么样?在AI在持续进行长时任务时候,我还要一直盯着他们,保证我电脑不睡眠吗?

我自己又不好干别的,嗯,所以我觉得这两种体验我们用上都觉得非常的奇怪。当然,这只是一个模模糊糊觉得奇怪的一个点。其实更大的一个问题是我们觉得团队没能回答一个核心拷问,就是到底做了这样一款原生的AI浏览器之后,有什么是我们本来的Chrome加Monica做不到的吗?嗯,后来想想好像没还,然后我们就开始逐渐变得理智。

就我觉得这个过程也也也也很重要,就是当你做完一个产品之后,你会站在一个想说服自己的立场上。即使我们都是这个这个中登连续创业者,大家还是会有这样惯性,就是我刚做完一个东西,我起码自己还是。偏,偏心于自己一点的。但当你逐渐发现更多这些问题暴露出来之后,你会更趋向于一个冷静的判断。然后我们越想觉得这事儿不对,就是人类历史上浏览器的迁移其实有几次,好像也就两次吧。

一次是从网景就 Netscape 到 IE。还有一次是从 IE 到 Chrome,这两次变革的根本原因其实还是 distribute,呃,就你的渠道分发能力所决定的,对吧?IE 是通过预装,而Chrome它可能稍微复杂一点,就是一方面当时谷歌已经成为事实上大家的首页,嗯,且同时IE预见了一些非常严重的技术问题,包括安全问题,这是一个历史机遇。

但是呢,如果我们现在在一个Chrome运行已经很好,且有Monica这样优秀的插件在的一个生态里头,用户有多大的动力会愿意因为AI而把自己浏览器换成一个新的呢?所以当时我们就就开始思考这个问题,但是心里还是没有最终下决定要怎么办。直到又是后来,这个老天帮忙,我们有一天上网看那个推特,发现我们很尊敬的一家美国创业公司叫做The

Browser Company,嗯,他做的一款浏览器可能很多朋友用过,叫做Arc。

Arc是一款主打设计,但是后来也会有一些主打设计感,以及后来也有一些AI功能的一个浏览器,它很受一些这个小众的极客的喜欢。比如他率先做了那种就是竖排的那个那个Tab边栏,然后呢,他突然那个创始人Josh Miller说:“我决定discontinue Arc了,就是我不做Arc了。”这是一个很很大的一个决定。

然后他说的原因一下就跟我们一下就共鸣了。他说:“我做Arc这么久,我甚至无法说服我的亲戚朋友从Chrome换成Arc。”所以我们觉得,好吧,他已经把我们心里的担忧黑纸白字的写出来了。我们就觉得,可能真的浏览器不适合创业公司去做颠覆。你做了两遍浏览器,对吧?对。这是我的第二遍浏览器,嗯,然后又得到了相同的结论。

当然,可能之前我没有这么系统性的想过这个问题,因为那时候还是像我刚才讲的,凭爱好在往前冲的这样一个状态。而这次我们其实很理智的想了一件。是觉得这个不太对,嗯,对,但是也是比较幸运,当时看到一些别的,就是一些苗头,对,嗯,几月份停的这个项目?当时是这样,就是我们从我加入二零二四年的四月,浏览器其实到八月就可用了,但是八月、九月,甚至一直快到十月的时候,其实心里还是有些波动,嗯,所以真正停了,就算是九月底吧,应该是。

小红说,她当时就觉得浏览器有点不对,但是不敢跟团队说,原因是因为你们都是被他用浏览器忽悠进团队的,所以觉得特别是你吧,嗯嗯,其实我觉得我跟张涛吧,应该说啊,对你和张涛,对对对,但肯定是这样,就是这也是小红比较好的一点,我就说就是他非常会考虑大家的一个一个感受,而不是以艺术家的方式去解决一些问题,对。

但是那段时间其实反过来看,我们觉得特别宝贵,嗯,就是大家在一个很自然而然的形成共识的过程中。逐渐逐渐放下了浏览器这件事儿,处于一种几乎无所事事的状态。当一群不太笨的人无所事事的时候,就会产生很多很好的想法。所以你们是你们是怎么达成这个要放弃浏览器的共识的呀?是他来找你说的吗?呃,其实每个人心里都会提前感觉到有些不对。

我觉得一个最典型的一个点就是,当你一款产品你觉得已经打磨好之后。你突然觉得不是特别酷,嗯,这个产品就,如果我按今天的话,我可以断言说,如果一个产品做完你觉得不太酷,就别发。你都觉得不酷,没人会觉得酷。不是特别酷,这个表达很艺术家啊。对,这是非常艺术家的一件事,因为我此刻站在用户的立场上。就是如果你本该最喜欢这个产品的人,你都不觉得喜欢,那你怎么能奢望用户会喜欢你呢?

嗯,对吧?我不是以一个决策者的角度在说这件事,我是在站在用户的的身份去想。嗯,在一个新的时代把上一个时代产品重新做一遍,你觉得是一个好的创业思路吗?呃。我觉得这个话不能非常一概而论的去判断。嗯,我觉得首先我有一句特别喜欢的一个名言,叫做 For every complex problem, there's an answer that is simple, clear, and wrong。

就是说,对于任何一个复杂问题,总能有一个简单清晰但错误的回答。我觉得我们很多时候都在过度总结一些事情。对,所以我觉得这件事我不能二元的直接就去切分它。但我觉得这确实是值得警醒的,因为很多时候大家选择这种做法是基于一种思维的惰性。我觉得。就是你在参考过去一个时代的成功的因素,并想用一种新的技术去把它再做一遍,但其实你你要考虑到环境的一个外部环境的一个变化,嗯,所以我觉得这不能二元的去去去切分,嗯,你们放下了AI浏览器的这个产品啊,但是其他团队还有在探索的,嗯,嗯,你你觉得AI浏览器的未来会怎么样?

呃,我觉得我不能替别的浏览器做主,而且而且我不是说我因为我们放弃这事儿就一定不对,嗯,是因为我们团队自己达成了共识,是我们可能做这个东西的收益不是特别的明显,因为你想,如果我们选择了另一种心态,就是说。他好吧,这个产品上不是特别酷,但既然已经做完了,我们就发出来看看。但这时候会把你带入到一个比较不好的漩涡中,就是当你发了一款产品之后,一个负责任的团队会持续维护它。

嗯,但这会带来很大的机会成本,就是我们可能因为要不断进入一种自证的循环中,去错失明明更有价值的新的机会。嗯,对。而如果有一个团队现在已经把浏览器AI浏览器,我说做到一个他们已经比较满意的一个程度的话,那我觉得你进入一个自证的循环应该是对的,因为你可能今天是一款所谓的AI浏览器,但你沿着你自己选择这条路,你也许会发展出一个完全不一样的一个产品形态,没人知道会怎么样。

对,所以我觉得我不能替别人做这个决定。你看,小红说服你加入说的是,嗯,在一个产品里把浏览器、搜索引擎和大语言模型全部重做一次。然后到了二十四年的九月、十月,你们决定放弃浏览器这个项目,你当时心里有波动吗?你的真实想法是啥?你会觉得被他骗了吗?啊,我觉得其实不会。就我刚才讲到一点,就是他只是最后用这一句话把我说服我加入,嗯,但我肯定不会只因为一句话就被说服,对吧?

所以我觉得我非常呃珍惜的一段,还是首先我们通过莫妮卡,真正的拿到了一张理智的AI应用的船票。这是非常重要一点,就是 Monika,我觉得这个产品的意义是非常非常大的。第一,它是一个正向现金流的产品,这个词我们可能会说很多很多遍。正向现金流,对一个团队,如果有一个正向现金流的产品,你在做第二个曲线的决策的时候,你会变得非常的理智,就是因而或者说你既大胆也理智。

我们之所以后面敢比如豪赌很多的东西,是因为我们知道 Monika 一直在帮我们赚钱。所以我们会一个非常客观又大胆的方式去做决策。第二点就是 Monica 真的让我们知道用户在如何用 AI,让我们理解了 context 的重要性。嗯,就或者说 Monica 这款产品其实跟 Chatbot 最大的区别是什么?

就是如果你在用 Chatbot 的话,你一定要做的一件事是把你要你要看的网页的内容,比如复制粘贴进 Chatbot 的的的的那个对话框中,而 Monica 它本身就是一个在被动呃对不起主动的去观测你的 context,嗯,对吧?你只要在用浏览器浏览器插件就在看着。它其实就把 context 的传递变得非常的通畅,这其实给了我们很大的启发,以及更具体就是我们知道一些用户的这个整体的行为习惯。

当然,我们会非常尊重用户隐私,我们不会去窥探你具体的这个 session。但是,你其实通过一些宏观的这个脱敏的统计数据,能看出很多 pattern,嗯嗯,很多模式。对不起。为什么这些产品都是 M 开头啊?还包括你之前的公司?呃,对,这个我觉得是很好玩儿,就是呃,我第一个产品叫猛犸浏览器,Memes

M 开头;第二款产品叫 Maggie M 开头;然后 Monica M 开头,Macy 是 M 开头。

对,然后我觉得这完全就是一个一个巧合,对,可能 M 开头的产品运气都不会太差。对,而 Manus 可能有一点私心,因为名字是我起的。怎么取的这名字?哦,这个名字其实当时我们纠结过很多名字,但是后来是真正让我们想通这件事儿的一个点,是我们想明白了自己该做什么。嗯,就是当时的话,其实做浏览器,人们你已经依稀有一个感觉,就是模型在解决的是智力,但是再强的智能,你也不能把环境给内化掉。

嗯,所以你一定是需要一个手来去触及到现实世界中,否则你再强的思维,你也只是一个。理论物理学家,或者说,甚至你可以说是一个缸中之脑。嗯,所以我们想做的是让智能真正真正去触及现实世界。所以让我想到的其实是MIT的校训,叫“Minds at Manas”。是一个拉丁语翻译成中文,应该叫心与手,或者叫心手合一。

我们觉得别人都已经在心或者说心智这件事上做了很远的探索,所以基度摩天公司的使命如此,而我们要做的其实是那个手。所以 Manus 就是拉丁语的手的意思。说说你们在那段闲散的无所事事的时间里,怎么产生 minus 这个 idea 吧?对,这个其实是一个,这是到十月对吧?呃,对,其实是一个渐进的过程。然后我觉得又一次是上天赏饭吃,就是当时大家就是还在正常的运营 Monica 吗?

同时也会做一些别的实验。但是当时我们会发现,那个阶段下已经有一些 AI 产品受欢迎,尤其是 coding 领域。那时候像那个 Cursor、WinSurf,包括后来的 Devon,其实有很多用户。然后我们作为工程师,我们肯定会用嘛,对吧?嗯。然后我们发现,其实公司里和很多非工程师都在用 Cursor。

这个就让我们很意外,因为 Cursor 它的产品形态仍然是一个 IDE,就是集成式开发环境,就是写代码的人才用的一个东西。嗯,让我们发现,比如公司的运营同事,哎,他居然在用 Cursor 去写博客。嗯,我们的数据分析分析同事在用 Cursor 进行数据分析和可视化。然后这个就让我们非常意外,就是因为它本来是一个最专业的产品形态,却有很多它非原始设定的目标用户群在用。

然后我们就会去站在他们身后去观察他们,你们到底在怎么用Cursor?很好玩,就是因为左边都是代码,右边是他的那个那个跟AI聊天的窗口嘛。很多这些同事他们也不会写代码,他们根本不看左边的东西,他们就是在不断的跟AI去交流,让他去把一个事情完成。AI通过编程的方式,以编程或者代码为媒介去完成一些非编码任务。

嗯,那我们觉得这个其实是非常重要的一点,就是让我们意识到,其实编程不是一个垂直能力。编程其实是一个通用能力,它是解决通用任务的一个媒介。那这时候我们要想的就是,Cursor这个形态其实对他们来说不是最优的。有几点,一个是我们刚刚在做那个浏览器这个尝试的时候学到的,就是说它不应该跑在你的电脑上。要不然它不能解放你的在长车任务中的注意力问题,对吧?

其实老说 attention is all you need,我们希望解脱用户的 attention,让模型能在呃,对不起,让 agent 在云端去运行,去异步的去执行。有异步之后,其实能还带来另外一件事,就是并发。嗯,就是如果你能让很多不同的任务在同时去跑的话,这才是真正的成倍提升你的效率。所以这是第一点,我们认为 Cursor 这种产品,它应该换一种产产品形态,跑在云上。

第二点就是代码这件事,应该作为一个工具,而不是它一个主要的呈现,因为对于很多人来说,看见代码是有一点天然的紧张感的。对吧?尤其它跑在你的电脑上,Cursor会经常问你一些权限,就是说,我觉得我想安装这个软件,我能不能把你把这个文件删掉?其实这个对于很多用户来说,你看不懂技术名词之后,你唯一的选择就是好接受,接受,接受。

嗯,那这个很恐怖。我们有一个朋友,他当时就用Cursor,他也不懂技术,就瞎用,结果Cursor把他的网卡驱动给卸了,导致电脑上不了网。对,所以我们觉得。不行,应该就是用同样的技术,但把技术复杂度包装起来。嗯。然后第三点就是这个产品面向的人是谁?其实不应该是专业的工程师。专业工程师的这个领域的卷度已经几乎饱和,它是一个绝对的主航道。

所以我们应该面向的用户,按我们的话说叫prosumer,或者说所有的脑力工作者,但你却不是程序员。因此,我们就觉得应该改变一种产品形态。然后很幸运的是,当时在浏览器中已经做了很多的技术积累,比如说我们对 Chromium 内核非常了解,然后我们自己也做了整套这 Agent Tech 的这个这个调度系统。

那好,对我们来说,好像这个事儿也没有那么难。我们要做的就是把整体 Edge 浏览器这个东西。搬到云上,所以我们当时内部立了一个项,然后也是我瞎拍脑袋起了一个项目代码叫 Air B N B,是什么意思呢?叫 Browser in Browser in the Air,就是浏览器里运行里面运行的浏览器,其实跑在云上。

嗯,对,所以就是也比较幸运,就是我们并没有浪费太多当时做浏览器期间的技术积累,所以当时从十月九月底十月开始正式搞,其实也就六个月就把 Manus 做出来了。而且对,实际上 Manus 不是三月做完的,Manus 其实一月就做完了。对,从几月开始搞?我们从九月底开始开始搞,然后其实到二五年的一月中,其实 Manus 基本已经做完了。

但当时我是决定说,我们不该马上就发。为什么呀?因为是这样,就是当时我们能拿到最好的模型是 Claude 三点五 Sonnet V two,嗯啊,就是 Claude 三点五的第二次迭代,它初步具备了一些 Agentic 能力。但是它其实会有一些问题,比如说,大家可能从技术角度来讲吧,就是首先它缺乏一个真正这个这个 reasoning 能力,然后另外一点就是,我当时也听到了些 rumor。

就是他们应该在两个月后会有一次模型发布,当然我也不知道最后 Core 三点七会有多好,但是我觉得我们最好能把我们发布的时间点跟下一次模型迭代对齐,这样的话其实我们的产品发布的一瞬间其实能享受到最大的一个代际的提升,模型的溢出,模型的溢出,对,所以就是我们应该再多花一个半月的时间去抛的时呃去打磨这款产品,嗯,然后跟下一次模型的迭代对齐再一起发布。

那你们从放弃浏览器那个项目到想出 minus idea 中间很短的时间?呃,其实你可以说短也不短。我觉得当时真正意义上可以堪称无所事事的时间有两周半,这么短?那很短啊!是啊,是啊,呃,其实那段时间不能无所事事,就是我们都在很积极的做很多不同的实验。那那时候焦虑吗?我我不焦虑,一点儿不焦虑。这就是为什么我们说有一款正向现金流的产品很重要。

当时我们的想法就是,大家想想吧,虽然可能烧了一些钱,烧了多少钱做那个浏览器啊?浏览器其实还好,因为我们当时投入的人力可能也就十几个人,嗯,对。然后除了人力以外,其实没有太多别的成本。嗯,Monica当时能给你赚多少钱?Monica其实,在Manus上线之后,我们的投入可能少了一些,但是现在可能又又抓起来了。

但当时Monica已经有接近十二个million,就一千二百万美金那样。而且它是一个盈利的产品,嗯,但现在跟 Manus 相比,一千二百万美金 ARR 不算什么,但是那个时候做一款 AR 产品来说,我觉得是很棒的一个成绩了。这是外部 ARR 吗?呃,当然不是外部,我们非常看重这点,就是我们一直在强调什么是 ARR,ARR 是 MR 乘以十二,MR 是什么东西?

你不能把你你一个月内获得的年复算在当月之内,你必须得除到每一个月。然后,所以我们内部看 AR 或者 MR,我们就一个口径。就是你看你 Stripe 上面给你的 MRR 数据,以及你移动端的 MRR 数据,要不然的话你有太多种方法去把这个 MRR 这个数字造得很大,但这个就是你自己骗自己。然后像刚才我说,就是这也是一种 benchmark 啊,对吧?

就是对于产品来说,这可能是你要优化的一个指标;对于模型来说,你要选一些 benchmark 作为你优化的方向。这两个都会共同决定你的 taste。所以我觉得这个是非常重要的点。我们非常抵制外 B A R 这个事儿。Minus 有多少 A R

现在?那现在一个亿。已经超过了一亿美金,然后是这样,就是我们之前的话还有一种比较复合的收费模式,就是说你除了订阅以外,你还会有 top up,就是你可以额外的去增加一些单次的充值。

但是我们觉得这样的话,其实给用户确实有很大的灵活度,但其实整也给用户造成了很多困扰,所以我们现在在不断去简化这些定价这个方案。所以目前的话,我们基本就是你可以很简单的理解为,你有一个免费的方案,以及一个你可以自由选择订阅金额的一个一个方案,默认是四十美金一个月。你从三月到九月加入这家公司以后,这半年你对他的感受有什么变化吗?

呃,我觉得有一些变化吧。首先就是他跟我之前所在的创业模式特别不一样,嗯,就之前的可能是一种非常。这叫非常的,就是较为慢节奏且谨慎的一个状态。因为一旦你要做一些技术层面的bet,呃,就就技术层面的决定或者说赌注的话,你会比较慎重。但是如果你是一家完全以产品驱动的话,你会发现整体的节奏会快特别多。甚至一开始说实话,我是有些不适应的,就是我会觉得好多事儿为什么这么的草率?

为什么产品会更快啊?产品一定更快,因为产品的话,你的。迭代的成本首先会更低一点,因为刚才讲你没,首先你没有垂直整合模型这个问题嘛。嗯。第二点就是你如果一切都以敏捷开发的话,甚至很多时候你也说我先发了,再看看有没有什么问题,我再修。嗯。但是你知道,如果你自己训过模型,你知道在进行数据清洗的时候,那个代码你最好别让AI写,因为你写好的一个数据,你摁下回车之后,你可能会有一个几十万美金的training

run,你的心理压力程度是不一样的。

嗯。就是经常你要做技术或者模型层面的工作时候,你每你很多做的事情是有后效性的。就是你做了这件事儿,你做完之后很难被轻易的纠正,或者说说它就会在历史长河中留下一些问题。但产品的话,你的掉头会非常快。所以我觉得就是这个团队很好的践行了这一点,然后我可能花了一两个月时间才逐渐适应。很多研究员或者技术风格的人不不喜欢这种方式,他就会觉得他的技术文化比较差,他觉得太快了,他觉得没有真正的技术 bet。

对你来说没有这种问题吗?我觉得是这样,就是技术 bet 这个东西是听起来非常好的一件事儿。如果你是家硬科技公司,你该做这个 bet,因为这可能是你最终的差异化所在。但首先,如果你是一家产品公司。那么你就不该有 bet 这个概念,或者说你会进行一些轻量级的可逆的 bet。大家不是经常说什么双向门决策、单向门决策吗?

如果你做一家产品公司,你还在天天想着你要不要不要 bet 什么东西,那我觉得你们是一个处于一个比较拧巴的一个状态。哦,对,这个还是要要调整一下。所以你们没有 bet?啊,我其实这么说吧,就是我们所有的 bet 都不会有那么重的 bet,没有技术 bet。呃,技术 bet 也有,但是所有的技术 bet 都不会是那种,比如说我需要两个月的时间去看到下一个预训练 checkpoint 之后。

我在决定怎么样,就是叫什么这个皇国兴衰在此一役这种事儿不会有,对像比如说一些模型公司的话,我觉得你还是要有一些 bet 的,这就是我觉得两种 mindset 的不同。那你们的 bet 是什么呢?产品形态?呃,一个产品形态,其实你可以说一开始不训模型这件事也是一个

bet,嗯,因为那时候我们开始做这个决定,可能现在大家逐渐,也许是在我到处游说之下,大家接受了这件事儿,但是那个时候其实很多人还是不太看好所谓的 context engineering 这件事的,尤其是我们当时开始做。

呃,对“壳”这个词,其实我挺喜欢的。嗯,因为“壳”这个词,它严格意义上来说,你可以从操作系统概念叫“shell”,shell可不是一个低技术门槛的事儿。而且“壳”跟“壳”也有高低。这我可以举一个比喻,就是如果Monica,它明显是一个套壳,它其实是像生鱼片儿。哼,对,就是说,它生鱼片的好坏基本完全取决于原材料,就是你你海里捞出那个鱼怎么样啊?

你几乎是一个没太加工的一个状态就给用户,对,所以你的价值增加是很浅的。但是像 Manus 这种东西,它仍然是一个壳。但是呢,它不是生鱼片,它也许是什么水煮鱼或者什么,因为我海鲜过敏,我没有吃过,这可能不知道它是不是很复杂的一个东西,以什么四川水煮鱼这种东西。Agent 和 Chatbot 最大区别是什么?

就是 Chatbot 这整个系统里只有两个元素:人、用户,嗯,以及模型,嗯,你们俩之间以往复的形式去交互。但其实 Agent 有一个第三个元素是环境,或者叫 runtime。这个东西其实很重的一个事儿,所以你 agent 这个这个壳可能跟拆包相比,完全就不是一个厚度的壳,它是地壳一样厚的一个壳。所以 Manas 做出来最难的是什么呀?

Manas 我觉得有几个非常难的点,第一个就是你启动越早,你越难。首先,你能相信 Manus 这个东西做能够做出来,这个是我认为第一个很难的事情。第一个 idea 是什么呀?第一个 idea 其实就是从浏览器的这个自动化放上云端去,这是你想的吗?呃,这个我觉得是大家都会看到的一个一个点,就是我刚才讲的,就大家一起商量。

但是我觉得我们看到 Cursor 之后,其实 Cursor 帮我们把很多事情理清了,所以我们一直都非常尊重且欣赏 Cursor 这个公司,它给我们很多的

idea。然后我觉得这个就是第一个点,就是其实好多人说造出原子弹没那么难,但制造原子弹能被造出来是是最难的。而当时我们相当于我们定义了所谓“通用agent”这个词,而在这个时候我们觉得,首先我们能够相信Manus能造出来,这就是一个bet,嗯,对,因为他要我们有没有举公司之力吧?

当时也没有那么多人在这个项目。那时候非常少,我们一开始从五个人开始做实验,然后每遇见一点好的这个这个苗头,我们就会从 Monica 那边调动更多的同学进来。所以 Mon Monica 当时有多少人运营?Monica 当时团队应该有几十个人了,几十个。然后你这边五个,对,大概一共就是这个架构,对吧?对。

而且当时我们还分两边,就是我跟涛哥我们在北京,然后小红就是 Monica 团队主要在武汉。对,所以就是当时北京这边基本就是你可以理解成。创新业务事业部的这样的一个寻找第二曲线,对,寻找第二曲线,对,所以就是一个渐进加码的过程。所以你看,这也是一个比较冷理智的一个做法,对吧?就没有那种就是啊,旧的我不做了,全都去搞新的,对,逐步去做。

我觉得这是第一个 bet,就是说。Manus这种产品形态的东西是能够被制造的,嗯,这是第一个点。然后第二点,其实开始做之后,我们也有确实犹豫过,就是要不要开始去模型,因为当时你能拿到的基座模型用起来真的是很难受的,就是Cloud三点五,Sonic V二。呃,也许算是一个里程碑吧,但是其实你按今天的眼光看,它的稳定性、可靠性和它的泛化性其实还差非常非常多。

嗯,而且直到今天,其实很多模型都没有解决的一个问题就是,呃,怎么说呢?现在大部分模型,我认为仍然是为 chatbot 场景而进行后训练的。嗯,这还存在一个 alignment 问题,待会儿可能会进一步去去讲这个问题。嗯,所以当时的遇见了一个客观的挑战,就是我们要不要通过进行自己做模型这件事儿来弥补这个模型的不足?

但是我是觉得我们又是在一个技术快速上升的一个阶段,嗯,因为你刚刚看到 Claude 3.5 V1 跟 V2 之间的进步有多大,所以我觉得我不该 bet 这件,不不该 bet 在这个方向上,而应该 bet 另外一件事儿,是一个很轻量的 bet,就是那事儿没有 context engineering

这个词,嗯,我们应该充分相信做 agent 框架是能够带来很大的提升的,嗯,对,这是第二个当时做的 bet,然后其实第三个 bet 是什么呢?

就是我们已经看见 Cursor 获得了很大的成功。其实很多人其实心里也会有一种想法,就说我们是不是该做和 Cursor 类似的事儿?嗯,对。但这个东西就是我们觉得,呃,做中国版

Cursor。呃,很多人可能现在也在做这个这个事情嘛,但是这当时就至少我心里还是比较坚持的,因为可能一直以来我创业获得的正反馈都来自于创新,嗯,所以我觉得这还是挺开心的事儿,就是我们应该去做一些有差异化的事情,而服务好那些prosumer,而不是跟他们在一起去卷。

对,反正这是当时做的三个判断吧,然后比较幸运,好像都对。这里面判断好像很多都是我不做什么。对,是的,我觉得不做思考很长时间,决定我不做什么。啊,我觉得不做什么真的特别重要,因为你说AI,我觉得最大的一点就是它让创业公司的产能变得很大。嗯,所以好像以前,比如说我们之前移动互联网那创业的时间,可能大家没有那种我不做什么的自由吧,就是我在做某一个领域,我要做一个新的领域或者业务的时候。

我受很多的约束,所以外部的因素会阻止你一些过于天马行空的想法。嗯,但AI时代,大家好像眼中的机会很多,AI又充分解放了生产力,所以我觉得每天都要回答就是不做什么。就Manus到现在,我觉得都是一款相对克制的产品。嗯,然后像有一些别的Agent公司,他可能会觉得我增加很多不同的tool,就是呃,给AI给Agent增加很多不同的工具,而我们每个月都在想我能删掉什么。

那所以就是仍然是不做什么是我们始终要想的一个命题,即使是通用agent。Minus是不是一个很重要的点?是在那个时候没有做一个中国版的谁谁谁?嗯,Minus那时候是一个没有一个对标的是的。我觉得至少我自己的几次创业,我从来没有想过对标这个。为什么你们要做一个通用的 agent?嗯,对,这也是一个特别好的问题。

就是呃,按照传统的创业的理念,大家可能应该是这样:选中一个 niche market,或者找进一个垂直领域扎进去做深。嗯,这可能是更正常的一个做法。但实际上,我是有几个不同角度的观察,既有技术也有产品形形态的思考。首先一点是技术层面,嗯,就是我上一次创业其实就经历了一种专有模型被一个大一统模型吃掉的这样的一个体验,嗯。

所以现在这套技术体系之下,即使你在做一个垂直的 agent,你背后用的是什么,无非还是通用基座。你可以做一些 specialization,但是你可能会遇见模型探索这些事儿,待会儿可以再讲。嗯。另外一方面。Manus本质上是什么?它其实是一个通用的模型加上一个计算机,因为每一个Manus的session就每个绘画背后都会有一个单独隔离的虚拟机沙盒。

虚拟机这个东西学名叫做图灵机,嗯,不是有一次叫图灵完备嘛?就是理论上来说,它是能够去模拟或者运行任何算法的。首先,这样我们就看到 Manus 底层的两个技术供给其实是通用的。那么走垂直其实是在上面加约束,这是第一个技术判断。第二点就是,我们一开始就像做 Monica 一样,我们好像没有做特别大的使用场景上的 bet,嗯,而是一种类似于达尔文的心态在观察。

就说,我如果我给用户提供的是一套通用的技术架构的话,嗯,我获得的优势是什么?就是用户可以按他的想象力。去使用这个产品,同时我们作为创建这个产品的人,我们的使命是通过观察用户的整体的collective的集体的一个一个行为模式,嗯,去捕获到头部的场景,再让我们的产品团队去做最后一公里的优化。就像我们一开始,其实

Manus 拿出来之后,我们其实,在宣传中和我们所有的这个这个网页的这个这个 case 中,都是天南海北的,什么类型的东西都有。

嗯,我们不要把用户先提前做一个引导,让他用什么。逐渐逐渐,我们发现好像用户很喜欢做 slides,做那个做 PPT,用户很喜欢做网页,用户现在做批量的文件处理。然后我们发现哦,那这些可能是值得我们的产品团队介入去做一些定向优化的。所以 Manus 是一个完全由用户所塑造的一个产品,且同时又保留了极强的通用能力。

而通用能力的话,就带来我说这个产品方面的第二个点,就是说。我认为很多能力最后会收敛。比如说,当时的话,deep research就深度研究这个领域,可能还是比较新的一个概念。嗯,但实际上你看,现在所有不同产品的深度研究的能力基本比较收敛了。尤其像比如 Gemini 也有 deep research, OpenAI 也有 deep research,但这个当然确实还会有些差异。

但这个能力已经逐渐的所有产品中都具备了。那这就让我想起以前做搜索引擎的时候一个体验,就是。或者这么说,你为什么用 Google 而不是用必应?如果你每天只查那些最头部的 query,呃,最头部的那些查询词的话,你发现你几乎用哪一个主流的搜索引擎,它的第一页结果都是质量接近的。嗯,那为什么还得用 Google 呢?

因为 Google 永远能在你的长尾 query 中给你惊喜。那这样解决的一个问题是什么?就说,如果你你能够让这些长尾用户获得满意,他其实能够更容易的获得我们叫做 aha moment,就好像这个东西只有在这儿才能被解决。我举一个例子,其实当时有一个分子生物学家,他用 Mendes 就他觉得非常的惊喜,是什么呢?

他想用 Deep Research 这个功能,但是他的这个实验仪器导出的是一个非常小众的一个数据格式。他用别的产品是做不了这件事儿的,而他把这个文件上传给 Manas 之后,Manas 说:“哦,这是一个很奇怪的文件格式,我先去研究一下。”研究好之后,Manas 自己去 Git Hub 去下载了一个开源项目来解析了这个数据格式,然后再继续去完成分析。

所以就是这种长尾的没有人会专门为他做的场景,有一款通用产品能够解决,这个用户会获得极大的一个满足。而且这些长尾不等于低频,因为这是这个人他每天的工作呀,所以对于单个人来说,这是一个 recurring 的持续的一个一个任务。嗯,这是产产品层面的第二点,产品层面第三点其实也解决了一个频次问题。就好比你如果要做一个垂直的 agent,你在用户心中你建立心智其实比较难的。

讲真,比如说如果你的 to B 还好,因为 to B 可能是很多人每天的事情,但是就像你在每一个。Hacker上都会遇见一个团队要做一个旅行规划Agent一样,旅行规划这东西其实对于普通老百姓来说,可能一年就两三次、三四次,频次太低。对你让用户记住你是很难很难的一个事情。对,而如果你做一个通用的一个产品的话,其实你有更大的概率来服务用户的方方面面。

这样的话,你能够有更好的一个频次。但同时,你要做通用的 agent,你也有不同的技术方案的选择。比如说,有一些产品它可能也追求通用,但实际上它可能只是把不同的功能放在了同一个界面下。嗯,它本质是多个产品,只不过共享一个域名而已。而 Manus 我们会非常非常坚持的一件事就是说, Manus 是一个单独的 Unified 一个统一的 agent 框架。

所以,用户在 Manus 中进行不同任务的时候。它的上下文,它的记忆是可以自由流转的,所以我们能做到的事情就是跟垂直的功能相比,我们永远能多做一步。我举一个例子,就是世界上其实有很多能做网页的。AI的agent或者说website builder就是网页构建器,但实际上其实对于AI来说,做一个好看的网页没有那么难,真正难的是如何让这个网页它的内容言而有物。

那这样的其实Manas它可以同时先完成deep

research,然后再基于获得的research去做出一个网页。然后与此同时,这个网页还有真正的实际的后台,有数据库。用户,呃,这个如果这个用户把他网页分享到这个互联网上,嗯,有更多别人在用他这个网页的话,Manus才能再继续在一个session内帮你去分析这个网页的流量,甚至能帮你做出一个slide,做出一个PPT,再给你发邮件发给你的潜在的投资人。

所以,其实Manus能够做到的是所有的这个垂直因垂直场景之后,再多加一步,且能产生一个内部的网络效应。所以,我觉得这是通用所带来的很重要的一个点。它的边界会在哪里?我觉得它的边界其实取决于几个不同的维度。首先就是刚才讲到,就是 Agent 这个系统中,它分为三个元素:用户、环境和模型。嗯,其实这三个东西都有边界。

首先,我先不说用户,用户边界最有趣的,就是第一点是环境。环境我觉得是 agent 最重要的一个东西,因为环境里头其实决定了 agent 跟外界所能接触的这个边界。比如现在 Manas 选择了一个最为通用的环境,就是一台虚拟机,一台 Ubuntu 系统。但这个话我们现在在做很多的投入,我们有一个内部的一个虚拟化团队。

嗯,这个可能有些朋友有误区,就是好像 Manas 给每一个用户分配一台电脑,其实不是的哦。每一个 Manas 虚拟化背后是一个独立的一次性的沙盒,所以其实我们的这个 Sandbox Scaling 是非常大的,甚至于有时候我们内部开玩笑说, Manas 其实是一款个人云计算产品。因为你真的是让不会编程的人也能去操作云计算,并享受云计算带来的这个算力,并用在日常生活中。

但这块其实会有很多的边界要解决,比如说如何 scale 的更多的沙盒。嗯,这个其实我们最近也不是最近了吧?几个月前我们推出一个功能叫 Wide Research。就是它不是深度研究,而是广域研究。比如说,你在别的AI中去尝试完成这样一个任务,比如说,呃,帮我去找一找YC过去一一批中所有AI营销公司的CEO,并把他的email找到发给我。

你发现你给Manustry的任何AI,他们都会失败,因为既受于受限于context window。也受限于模型本身那些懒惰啊,这些问题可能待会儿会聊到。他们可能在找,比如十个、十五个CEO之后,质量会急剧下降,然后模型会会放弃。嗯,但是因为我们能够去不断scale out,就是不仅是是是是scale up,而是scale out。

这样的话,Manus其实能说哦,这个任务很难,我可能要找一百多个。那我现在能启动一百多个 sandbox,然后去并行去完成这件事,最后再进行汇总。所以,其实我们在这个虚拟化这块边界其实扩宽,这是第一层。同时,我们也在不断的去增加能够使用的虚拟机的形态。比如一开始我们只是有一个基于 Linux

内核的一个虚拟机,但是我们就没有选择像用 Docker 这样的一种就 container 就容器技术,因为容器技术它其实基于 Linux kernel 的一个 cgroup 的技术。

我们认为,如果你选择这条路,它确实更简单。但是呢,它会绑定于 Linux 系统,而很多其实专业的软件只在 Windows 生态里有。所以,其实我们有选择力比较重的一条路,就是我们其实基于 Firecracker,它一个轻量级,但是是全虚拟化去做。所以,现在 Manas 其实同时还能用 Windows。

所以这块也是我们在不断推的一个边界。嗯,与此同时,就是除了 function calling 这一种形式,就是模型跟外界沟通可能常见的方式,calling 叫工具调用。但实际上,如果你给了模型一个完整的虚拟机的话,其实虚拟机内的预装软件也是很有趣的一件事儿。就好比如果你呃 Windows 系统自带了很多专业软件的话,那其实你的可选的范围,你的动作空间又会变得更广。

所以实际上我们还自己,你可以说我们在维护一个专门为 Agent 设计的 Linux 发行版本,里头内部有很多只有 Manas 才知道怎么用的一些工具,来完成一些事情。这是我们在这个环境这方面在探索的东西。在模型方面,其实这时候也可以讲一讲,就是其实我们虽然不自己去模型,但我们一直在作为无形的大手在干预着这个事儿。

嗯,这个很好玩,就因为当你有足够的影响力之后,其实你的一些需求其实是能够影响模型的发展的。这也是我们最近获得非常大正反馈的一件事儿,就是因为Manus的token消耗量巨大,所以我们自然是几乎所有模型厂商的头几名的这个的客户。所以,我们跟比如说跟 Google 地脉都有很深的合作。你们突破销量有多大?

呃,这个数据我可能不太好透露,但可以讲的一点就是。我们在各个模型厂商基本应该都是 top 二到 top 五的消耗量,全球范围内。你们怎么 cover 这个成本?这就是为什么要做一款能够赚钱的产品,用户的钱变成了 token 的消耗量。这个你们现在就可以 cover 吗?啊,我们现在几乎能 cover,而且这个在优化的曲线其实非常快。

其实今年三月发布的时候,我们确实是 negative,呃,就是负负的利润,但是现在我们很快就要打平,甚至打正了。这么快就打中了?是的,这我觉得就是技术演进带来一点。同时,你也不能就是被动的接受这,你一定要去影响模型厂商的决策。这就回到我刚才要讲的这个事儿。这个脱困消耗量大概是差bot的多少倍啊?呃,这个拆报的你看怎么算?

我可以给你一个这样的一个对比,就是因为以前我们做过 Monica,大家在做拆报的你一定会进行一个估价嘛。估价就是你得基于 input token 跟 output token 的成本去计算,这两个差很多的。因为对于 transformer 结构来说,你的 input 其实是 prefilling,这是可以并行计算的,它是一个 compute bound 的。

但是你在输出 token,它是 decoding,这是是这个 bandwidth 去 bound 的,它的定价是不一样的。一般来说,你的 output token 会比 input token 贵很多。所以在差报进行这个价格的估算,一般按三比一,就是三是 input,一是 output。但其实,在

minus 这样的 A 矩中,input 跟 output 的比例是一百比一到一千比一,根据你的 task tax type 去去对比。

所以其实你可以想象一下,output 的长度如果差不多的话,那 input 的长度就是你能估出来的一个对,所以你可以说是一个几十倍甚至上百倍的一个文本消耗量的差距。而且我们其实一直比较贯彻的一点就是,我们不会为了成本或者速度去缩减 token 的消耗量,我们一定是以质量为先的。所以,甚至我们以消耗更多的 token 为荣。

涛哥有一个梦想,就是他想造一个七乘二十四小时烧 token 的机器。对,所以这是我们讲,就是消耗很多token之后,你会获得很大的影响力。嗯,同时因为就包括我在那团队,其实很多人以前都是做过模型的。嗯,对,就是我们知道这个东西该怎么改进,但我们自己不弄。我们把这个东西能不能外包出去呢?就比如说,我们跟Google DeepMind有很深的合作,我们就可以直接提需求。

不仅提需求,我们会帮他们构建evaluation,甚至包括一些功能。比如说,我记得是两个月前吧,那个Gemini新出了一个叫做可控的parallel function calling,那一个定义和这proposal和它的实现schema是我写的。所以就是我们能够让他去帮我们实现一些东西,这里其实其实有很多要去探索的东西。

比如说,我刚才提到了一嘴,就是我认为现在大部分的模型仍然是为拆包去做的。Lin,这是一个很有趣的一个观察。大家知道,其实从 GPT 三到 Instruct GPT,它发生了一个很大的变化,不是在基座,而是在于你的后训练是怎么去让决定这个模型的输出的。风格或者说形态的,比如说,如果你用最早的 GPT 三的 API,你问他说北京天气如何,他其实不是回答你,而是他在尝试补全甚至复读。

嗯,就是里面的北京天气怎么样,他会说,呃,东京天气怎么样,纽约天气怎么样,他其实是在模仿你的这样的一个 pattern,但不再回答你。而 Instruct GPT 或和后来 Chat GPT,它其实通过后训练所实现的是让模型知道我应该去回答这个问题。嗯,但这里你看存在拆报的会存在一个天然的问题,叫做无论用户的问题有多么的复杂。

他都会倾向于在一轮回答中回答完毕,但这个其实跟 agent 一个基础假设是不一样的。agent 基础假设其实就是圣羽的那篇 paper react。我每次都跟别人讲,都是这个,我觉得这个抽象非常好,就是 agent 做的事情就是在一个一个循环中。基于用户的输入或者来自环境的一个观察,叫做 observation,去在你的动作空间中选择最有可能的下一个 action,去选择下一个动作。

所以很明显,对于 agent 来说,接到用户的一个复杂输入之后,它正确的做法不是急于在一轮内回答全部,而是很有耐心的逐步尝试,且基于上一步的观测去调整自己的方案,去预测下一步。所以,如果你仔细去想的话,其实 agent 的工况跟 chatbot 是不 aligned,而这里头会带来很多细节问题,比如说很多现在的模型会有一个耐心问题。

嗯,对,就是为什么会说模型,比如就是回答问题,尤其你强行用Chat模型完成长链路的Long Horizon的这个Agent任务之后,你发现模型干的事儿的质量越来越低,越来越低,越来越低。一定程度上来说,就是它缺乏这样一个真正在现实的Agent Trajectory,就是Agent轨迹中进行训练的过程。

或者说它的 data mixture,就是它的训练用的这个数据混合中是有 agent 这样 agent 这样的 task,但实际上它被 dominated,它它的 data mixture 其实还是为插爆而设计的数据。模型的学习能力是极强的,你数据的 distribution 其实会影响模型的一个风格。

就比如说模型在输出到一定长度,或者说看见它的输入的 token 长度到某一范围之内,它会感受到一种无形的叫做 context pressure,就是上下文压力。它会影响你输出下一个 token 为 EOS 的概率,EOS 就叫 end of sequence token,就是模型当它认为该输出这个 token 的时候,其实整个这个任务就结束了。

嗯,其实模型是能感觉到这种压力的,所以这块其实是一个很不好的事情。它让我们用拆爆的模型为拆爆设计的模型在 agent 任务中工作的时候,它会非常的着急。嗯,一个常见的现象就是。你会发现,他到后面开始疯狂用 bullet point 就写那个很总结,是一个一个关键点,一个关键点,一个关键点,写短写短,对,这是一个很常见的一个事儿。

另外一点就是,这些模型它其实没有为现代 context engineering 做过一些。专门的训练,嗯,我举个例子,就刚才我提了一嘴,说二三年初我就一直到处忽悠 long context,但我现在有新的想法,我现在有一个暴论,我觉得两百 K 以上的 context

就不重要了。为什么呢?因为比起更长的 context,我觉得更重要的应该是让模型具备 compression awareness,就是说对压缩这件事的呃的意识,对压缩这件事的意识。

对这个怎么解释呢?就是。如果你让你的 context 你的上下文长度无限单调递增的话,即使有 KV cache 存在,它是能让你的 latent 你的延迟和成本较低,但其实它仍然是即使你有一些这个这个 efficient efficient attention,你也是一个增长的过程,但这是不值得的。

其实更重要的应该是什么?让模型知道说,我现在 context 已经很长了,我看我能不能把我一些 context 中的信息去

offload,就是把它外化到比如说文件系统中,就相当于我有一部分记忆,就像人一样。我这个东西不用脑子里一直装着,人的记性挺差的,就是我的工作内存很差。但是我会知道这个事儿,我可以整理成一个文档,嗯,放在我的Notion里头,嗯,我下次我知道我该什么时候去拿回来,或者说我知道我过去做了很多的事情。

但是其实有一段东西它不重要,它只是一个过程。那这时候我可以进行一个压缩,叫做compaction,或者叫compression,就是说我把我中间的一段历史变成一个很紧凑的表达。嗯,但是模型要能够明白说这段东西不是凭空消失了,它是被压缩了,而让模型意识到被压缩这件事是需要专门训练的。这个是未拆包训练的模型,其实没有很好的一个训练过的点。

另外,其实还有刚才讲到的,就是呃,像 Claude 三点五 V2 的时候,它还没有很强的这个 reasoning 能力。但 reasoning 这个词是非常大的。一个最怎么说呢?最表面的 reasoning 现象可能是像 O 系列这种 reasoning model,就是说当用户问一个问题之后,他在输出最终答案之前会有很长的这个 internal 的 long C U T,就是内部的长思维链。

但这个东西你如果盲目的用于 agent 里面,你会发现一些问题,比如说你会发现它的 instruction following 能力,就是它遵循指令的能力其实下降的。另外一点就是,它其实出现幻觉和幻觉攻击调用的概率是提升的。所以,如果你直接把一个为了就是解决,比如说竞赛编程或者数学而设计的 reasoning model 平移到 agent 场景下之后,你会发现其实它的效果是下降的。

那这时候我们应该去改变这块的训练的模式,比如说你可能更关注一种叫 interleaved thinking,就是交错式思考。刚才讲到就是按照顺雨的 react 来说,就是你获得一个 observation 之后,你不要立即着急去预测下一个 action,嗯,而是在这块进行一个中间,但是且相对较为短暂的 reasoning,嗯,去想想哦,我之前做了这些事情。

那下一步我该做什么?嗯,我该做这个是类似这样的一个结构,而不是说像,比如说你让O系列模型去解决一个数学题那样,就是你用户给了很短的一个问题,它哗就想了几千个token全在脑内,这是不对的,这是会在AIGC场景下产生一些负面效果的。但是比较不幸的就是这个事儿其实可能说起来简单,但是大家做的说实话都不是特别好。

就是目前你说模型公司做的不好,做的不是特别好,对,这时候还有很大的改进空间吧?应该是对,所以我也很期待,就是这个有接下来的这个进展。对,然后比较幸运的就是,因为我们影响力会比较大嘛,所以就是我可以天天给这个模型公司洗脑,这个很重要,这个很重要,这个很重要。然后他们也确实很积极,就在改进这些事儿。所以其实包括那个《战战三》出来之后,我们也很兴奋嘛,对吧?

就是他们能以非常快的节奏去把我们之前遇见的一些问题实实在在的变成模型,嗯,而又很开心的是,头部旗舰模型的成果。会逐渐影响所有开源的模型,大家也会跟进。所以,就是我很开心的一点,就是好像全世界都在帮我们一起去模型,但就我们却没有自己掏出很多钱去。砸进去,而是说我们让用户使用了一个很好的产品,用户付了我们的钱,我们为用户创造了价值,同时我们因通过这个获得了影响力,来影响别人,来帮我们训练很好的模型。

这样它其实节省了很多我们内部的这个research的带宽,我们可以真正去投入一些非共识或者小众的事情去做。你们沟通最多的模型厂商是谁啊?呃,这个其实都是非常非常均匀的,因为我觉得现在不同的模型厂商之间其实是比较分化的。呃,我不是说他们他们这个这个叫什么这个技术路线分化,应该说他们关注的点是很分化的。

嗯,这可能也是有被动被动的选择。就比如说你要讨论真正的这个 agent coding,我不是说竞赛编程,就是那种偏现实工程的多轮的编程,那确实 OpenAI 还是最好的。包括那个其实 Open 4.5,我觉得可能很多人对它有点低估了。这个我觉得是一个非常大的一个演进,所以就是 Anthropic,他们在 coding 方面是非常领先的。

嗯,然后呢,像 Gemini,很明显它的多模态领域,尤其是多模态的理解,就是多模态输入方面,是非常非常非常强的,是一个断层级别的强。而且 Google 又有一些比较独有的资源,比如说。呃,通过 Gemini 可能是你唯一的能够使用到 Google 的索引的方式。与此同时,如果你想让 Agent 具备,比如说视频理解能力,尤其是 YouTube 的视频的理解的能力的话,那你一定要选择 Gemini。

嗯,而 OpenAI 的话,它在这个 reasoning 或者说这种偏纯推理方面的 reasoning 的投入是非常大的,它是有比较强的一个领先。而有的时候你要刷榜的话,其实 Open 的模型是一个很好的选择。嗯,对。然后其实别的这些像什么 Grok 啊,还有一些开源模型,其实都各有特色。所以我觉得现在对我们做应用的人来说,真是很幸福的一个一个时间点。

谁对你们的反馈改进的最多?呃,我觉得看效率吧。其实目前其实头部的几家,我感觉像 Google 跟就是 DeepMind 跟 Anthropic,其实大家的响应都会非常快。当然就是因为我们不同的场景会使用不同的模型,所以大家就是在解决的问题的效率,其实客观程度上来说也受限于这个问题的难度。嗯,对。你教会了他们,他们可以反过来抄你们的产品,但是你们没有那么快能抄他们的模型,怎么办呢?

你们的壁垒是什么?对,我觉得就是快。首先有一点就是你会发现,啊,比如说一些模型公司,他们偶尔会发布一些 research blog。你会,我们读到这些 blog 的时候呢,心里也是,呃,又开心又无语,因为基本就是我们之前在讲的这个东西,比如他们直接就写成了一个 blog 出来,比如说什么

thinking two 啊,也是我们上线一个月之后他们写了一篇 blog,像最近那个就是什么用代码方式调用 MCP,什么 progressively 什么那个 disclosure 这些东西,也是我们都一直在就就在的东西。

但我觉得这个是没有关系的,因为这个就是一个竞合关系,而对我们来说真正的优势是什么?有两点,第一点,因为我们对于不同的场景使用不同的模型。所以没有关系,我们永远能够为用户提升提提供所有人中最好的一个体验,这是第一点。第二点是什么呢?就是他们的速度一旦是垂直整合,其实你一定是没有我们快的,因为产品方面的这个迭代还是太快了。

他们成分化的,你们成成综合的,对,是的,所以刚好反过来了。这很有意思,这个很反直觉。是的,是的。如果都直觉的事儿,我觉得也轮不到我们做。为什么会这样?为什么会一个应用公司开始做一个综合的事情,而有模型的公司变成垂直整合?他们越走越越窄,我觉得这就是这个公司一开始的根儿是什么?嗯,其实我觉得我们可以拿欧派作为一个案例吧。

就是我刚才一直在讲,我非常尊重欧派,他是一个真正怎么说呢?很尊重 bottom up 的这一个模式的人。有很多朋友在欧派,就是他是真的能够通过一小群人的一个创新,逐渐逐渐往上走,变成一个产品。嗯,但实际上我认为这就是我刚才讲那个叫买模型彩票这件事儿。嗯,你的实现的方式是基于一个突破来做一个场景。但是对于我们来说,我们是所有外部的创新,对我们都是一种养料,都是一种供给。

那我们就不用做选择,我们不用买这个模型大乐透。对,就作为应用公司来说,其实跟模型公司相比,我觉得还有另外一个优势,就是大家常常常觉得就好像智能的提升好像不需要用户,这个至少从今年年初,比如 DeepSeek R1 出来之前,其实 DeepSeek 没有很多的用户,对吧?但是你其实通过比如这 RLVR 这些方式,你其实能获得一些提升。

但我觉得对于 Agent 这种特别长链路跟环境强相关的场景下,其实用户是非常关键的。但是用户的使用轨迹以及 feedback 是留存于应用层,而不是流动到。模型层的,嗯,所以其实现在应用公司有非常独特的数据飞轮,这就是为什么像 Windsurf 和 Cursor,他们可以一个较低的成本,在一个预训练基座之上去开发出一个基本是 frontier level,但是成本很低且专门适配自己的模型。

对,所以我觉得这是未来可能半年的一个很重要的一个一个变化,大家会看见更多的应用层公司在利用自己的数据飞轮,变成以以模型的形式来体现出产品可以持续迭代这件事。你们的用户画像是什么样的?我们用户画像是这样,就是我刚才讲了一个最笼统的定义,叫做。consumer,那可以切几个比较常见的画像来讲,比如说第一类,我们叫做在互联网公司或者技术公司里,但不是程序员的人,比如说广义来说的就是白领或者说远程工作者。

第二类是我们叫做freelancer或者solo entrepreneur,就是美国其实有很多那种就是独立自己去自负盈亏,你可能在做外包,你可能在做这个这个这个自己有一个很小的一个一个生意,这些人他们是一类用户。然后第三类比较大的用户就是所谓的金融和consulting,就咨询行业的这些人。我觉得他们都有一个比较大的共性,就是有比较强的自驱力,且与此同时,他们的任务是高价值的。

嗯,这个是很好玩的。然后我们发现,其实做 agent 就很很有意思的一点,就是它不是在做工具,至少对于我们来说,如果你做了一款通用的 agent 的话,不是在做工具,你不是在做工具,你其实在做一个类似于人的东西。嗯,如果你你做的是一个垂直 agent,你可能还是在做一种新的工具;但如果你在做一个通用

agent,你其实在做一个人,做一个垂直工具,比如说,嗯,汽车公司就做的是司机啊,像 Lovar 就做的是设计师,对,但是它其实是设计师用的一个工具,而 Manus 作为一个通用 agent,我甚至可以用 Lovar。

嗯,因为Manus的抽象层级是什么?就是我们在设计说让Agent能使用哪些工具,或者你跟外部交互的边界是什么的时候,我们一直是这样一个类比:,就说,我是一个人,一个普普通通的人,我能做很多事儿,是因为我有一个电脑。我跟电脑之间的 interface 就是界面是什么?我的手右手能够用鼠标,我的左手能够用键盘,我眼睛能看见屏幕上的内容,我的耳朵能听见它的声音,没了。

嗯,就是一个远程工作者用这样简单的标准的接口,其实就能完成几乎无穷无尽的种类的的任务。所以最近我们也看到一个比较欣喜这个结果,就是 Scale AI 最近发布了一个新的一个 benchmark 叫 RLI,叫 Remote Labor Index,叫远程劳动力指标。这个 benchmark 的理由当然啦,Manus 又是 SOTA 嘛,肯定第一名。

然后我们战胜了像那个 Cloud 呀、这个 Gemini 这所有这些竞争对手。但为什么我们就是非常看重这一个 benchmark?因为它的评判标准是非常有意思的。它的评判标准说,这个 AI 系统它完成的工作能否让一个现实的客户愿意为之付款,且无法区分是人类还是一个 AI 去完成的。然后这个当然就虽然我们现在是 SOTA,但实际上我们完成率只有百分之二点五。

所以其实离百分百还有很远的一个距离,但这块其实这个 benchmark 我们看中它原因就是它完美契合了我们想象的这一点,就是对于通用 agent 的衡量指标,就是它能完成多少。远程工作者能够完成的事儿,因为这个解读空间就很大嘛。就是我现在可能虽然只有百分之二点五在 benchmark 上,但是那是不是说我们也许能够是能够去让全世界百分之二点五的 GDP G GDP 获得加速呢?

对吧?所以这是一个很好的一个梦想。而且大家都知道,就是进展仍然是存在。虽然很多人说 AI 的进展速度好像变慢了,但实际上我觉得 evaluation 是最重要的事儿,因为它能指引我们去的方向,还是既是 taste 也是方向嘛。所以我觉得也许到了二六年,我们乐观一点,可能二点五我们能刷到这个。二十三十,对吧?

那这样的话,其实就能占相当大的一个经济生产的一个规模了。你们现在数据飞轮是什么样的?数据飞轮是这样,就是。可以跟 Chatbot 相比,我觉得有讲几个非常好好玩的点。嗯,就是如果你在用 Chatbot 的话,当 AI 输出了你不满意的东西的时候,你的第一反应可能有两种:第一种是简单点那个重试键

Retry,它就重新再输出一个,你就相对再再 roll 一次,看会不会好一点;或者说你就直接去改你输入的那个那个原始 prompt。

嗯,但我们发现在 Agent 场景下,用户他会这样,就是他会教这个 Agent。我举一个例子,比如说,呃,我让经常让 Manus 帮我去筛简历。然后呢,他筛出这个标准呢,跟我就我想要的不太一样,我就跟 Manus 说,哎呀,你这不对啊,你这个我喜欢是这种,你要注意下次是不是给我 Excel 或者怎么样呢?

其实我在一直在教 Agent,这是教,这是第一种。嗯,第二种是什么呢?就是如果有一些任务,即使不涉及我的个人偏好,但 Agent 很有可能就是做不对。那这时候呢,我会去 fix 它,我会帮他修。嗯,比如说我跟 Manus

说,你这个不对,我已经帮你把这个这个文件改成了正确的这个格式。而获得这两个数据其实是非常非常困难的一些在拆报的时代,嗯,而当你有很大的用户量之后,其实你能够进行一件事儿,就是你可以说大一点,叫做基于 collective feedback 做到一种在线学习。

但是我我很不喜欢在线学习这个字,待会儿说。但是呢,它其实能达到的一点就是,我们即使不碰模型,其实也能够获得一种叫做 self evolving 的一个能力。当然,它是 parameter free,就是不涉及参数化。但是通有更多的用户使用之后,我们能够能够将更多的通用的、公用的这个 failure

pattern,就是失败模式,以及用户共识性的东西,变成系统原生的一部分,就变成这种整体上来说,用的人越多,我的失败率越低,我完成同样任务的轮次开销越小,这是第一种数据飞轮。

第二种是什么?第二种就是说,我们仍然会拿用户最朴素的反馈,就比如打一星到五星,作为一个指导,因为这个东西能回到什么?就是我们刚才讲的 evaluation 很重要。但实际上, agent 的自动化 evaluation 我认为现在还是非常就是亟待改善的。因为即使你有一些这个自动化的 auto

verifiable 的 benchmark,比如我们一开始就会很关注该啊、 sweepbench 这这些东西,但实际上我们发现真正上线之后。

我们的在这方面表现好的架构和模型,其实用户的真实评分不一定高。嗯,因为用户关注点跟你这些理想化的标准还是挺不一样的。举例子,比如说用户更关注的是你做上这个 size,你的长宽比是否超过了这个十六比九?你这个网站是否是属于比较易用且好看的?刚讲十六比九的,你还能可以自动 verify 吗?对吧?但什么叫网站好用、可易且易用?

这东西你很难通过一个完全自动的 reward model 去实现。所以,我们非常依赖于用户给的这个直接的反馈,且有一个固定的一个团队就做 evaluation。而且是主观

evaluation,对,所以这块是真正能够通过用户的反馈来指导我们迭代的一个一个方式。这是多少人团队?我们是这样,就是我们有一个专门的 evaluation 团队, evaluation 团队现在不到十个人,但是他们会同时负责这个系统的搭建。

我们内部有很完善的 evaluation 体系以及自动化,且同时我们从产品团队会有一些比较 junior 的同事,其实专门就是负责主观

evaluation,所以是技术和产品团队一个交集。加上大概有十多个人,加上不断轮转的很多实习生。你们现在关核心关注的几个指标或者什么呢?呃,我就有几个,第一个就是说,我们从 interface 就还是刚才讲这个界面角度来说,接口层面呢,他说你可以抽象成几个不同的维度。

嗯,首先我一直在说 coding,coding 一定是非常重要的点。就虽然 Manus 不是一个 coding agent,但其实 coding 是 Manus 的一个灵魂。所以,我们当然对 Sweepbench 还是非常关注的,但是 Sweepbench

就快被刷爆了。然后,这是编程是一个维度。第二点就是 Manus 虽然没有直接进行 computer use,就是说我们不是通过 GUI 去完成很多。

但实际上我们用了很多的 browser 的 use,嗯,所以这块我们也会很关注这种就是 G Y 的理解能力,这是一个维度。但是这也就是所谓的多模态输入的一部分。第三类是什么?就是广义的突靠能力。突靠能力是怎么说?大家非常关注。但实际上,到了 Manas 这个复杂度的并不多,因为 Manas 的这个复杂度非常高的,它有多种不同的 action space。

它不仅有原生这种 function calling 的这个 function,包括其实你在使用这个我们自己自定义的这版 Linux 发行版本的时候,它其实有很多命令行工具,它不是以模型原生的这种 schema 去去存在的,而是存在于系统中,就让模型能够基于一些使用文档来学会使用特定软件的这个能力,这是非常关键的。

所以,我们从模型的原子能力情况下,我们会关最关注这三点。但其实还有一些非常难量化的东西,就是我们刚才讲的,比如说美学性。和对错误的自我意识,嗯,这个错误自我意识其实我觉得也是很重要的,就是,嗯,它有低就是低维度和高维度两种。低维度一种就是说你在看很多benchmark的时候,你能看见的是,无论你是pass

at one还是pass at k,你看到的其实都是模型在one shot的过程中去完成的一个状态,嗯。

那很多时候,有的时候模型需要自我意识到这个错误该怎么修复,当然这是最理想的。嗯,更常见一种情况是用户先发现了一个错误并指正它,而如果你是经常用AI coding的时候,你可能会有一个很沮丧的体验,就是无论是Cloud Code还是Codex?你发现一个问题,你让AI修,AI说太棒了,我已经完美修复了这个bug。

其实不仅没修好,还引入另一个bug。嗯,对这个指标是很难去追踪的,因为它可能中间涉及真人的一个一个feedback,这是低维度。更高维度的一种怎么说?这种错误是指他做出了一个能用的东西,但是呢,他无法去很好的去把这个东西推到下一个level,就是从可用到好用的这种错误。我我们还是愿意把它定位定义为一种错误,因为我们觉得是能够解决的。

比如说,Manus跟很多别的这种 coding agent,即使都能做网页,Manus 能再往前再往前做一步,就基于我们的通用能力,Manus 每做完一个网页,它可以选择说我自己用我的浏览器去把这个网页玩一圈,嗯,然后看看我再看看我数据库里的记录是否都对上了。所以这个我觉得是能够去弥合这一个错误的一个途径。

刚才有一些表达,比如说模型的懒惰,嗯,模型比较没有耐心。呃,模型感到压力,模型比较着急,还有包括杨智林以前说长文本影响智商,模型的状态好像跟人还比较像,这是为什么呀?呃,我觉得我们只是在用人习惯的词来描述这个。我觉得模型跟人一点都不像,或者说。强行把模型或者 agent 与人与人的常用的思维体系去对齐,这事儿是不对的。

你刚才不是说你们做的是一个人吗?啊,对。但是我们是做的是完能完成人做的事情的一种系统。但你不该与人的这个,比如分工或者特化去要求模型。这我举一个更具体的例子,就比如说,呃,很多做 agent 的公司或者一些呃开发者,他们有一种惯性思维,就是说我要让我的 agent multi agent 系统中分为设计师 designer、什么 programmer、 manager 这些东西。

就是你在给模型增加很多不同的这个角色,我们觉得这个其实不太对,因为回想一下,为什么人类社会会有这个问题呢?是因为很可惜,我们每个人都不太全能。所以你在一个组织架构下,你必须要有这样的一个分工。但其实我们在组织架构下,又有多少的信,就信息在我们通信之间损失了呢?又有多少在合作中增加了很多的摩擦呢?实际上,模型是比人更加全能的一个东西。

所以你应该充分利用模型的优势,而不要生搬硬套人带来这套约束。我是想表达是这个意思。那模型应该怎么分类啊?Agent应该怎么分类啊?嗯,Agent分类这个话题,我觉得。你只能从输入和输出角度来看,你觉得不用分类?我觉得不用分类,所以你们做的是通用 agent 啊?不是不是不是,我我就是吹,我想说的就是输入输出的意思是什么?

就是通用 agent 是把更多输入的责任交给了用户。嗯,对。然后呢,你做垂直 agent,其实在输入这侧你会做很多比我们要多的事情。就比如说,如果你要做一个垂直领域,你输入的数据可能就来自于一个用户不太可能自主产生的,或者说自主提供的一个过程。就它一定得深入,就结合到某一个已经在运行的业务系统来获得这个输入,同时它的输出也不是以一个标准化的形式去给出的,可能它是无缝就传递给了另外一个系统中。

所以我觉得它一定输入输出有有跟通用agent有不同,它且决定了哪一个是哪一种vertical agent。但是这样中间的技术方案,我相信会是趋同的。你们为什么做通用agent而不是做一个agent OS?我觉得首先作为一个有职业素养的程序员,我们会尽量回避OS这个词。为什么?这是一个圣杯,我不配。对,这是第一点。

然后第二点就是,我们觉得OS这个东西,其实你如果严格定义来说,它是一个中间层。当然,你也可以说Agent是很多东西的中间层嘛。但实际上,我认为现在Agent还没有到这一步,就是用户的文件,嗯,用户的。软件其实不在你这儿,这是一个客观的现象,对吧?所以在你没有获得这些东西之前,你不要称自己为一个一个OS。

谁适合做这个?会有这个生态位吗?我觉得是这样,就是说,比如我们跟微软有很深的合作,嗯,就是像前任Ignite大会上大家看到,就是就是Manus跟Windows都会有直接的合作。像比如说你以后在Windows右键菜单里就可以用Manus。我认为不是说有谁做了一款。开天辟地的Agent OS,而是现在所有的操作系统都会逐渐具备Agent能力。

嗯,且很开心的一点就是,我们发现现有的操作系统厂商在以一个相当开放的心态在做这件事儿。比如说,接下来大家可以关注那个Microsoft Agent三六五。对你也可以看到 Manase 也在里面,对,所以我觉得这个东西就像我们之前做浏览器一样,我更相信的不是突然出现了一个全新的 Agentic Browser,而是所有的 Browser 都在变得 Agentic。

你觉得 Agent 最后的生态会是什么样的一个格局?Agent 最后的生态是吧?嗯,我觉得是这样,就是可能垂直领域的 Agent 最后应该是一个百花齐放的一个状态。嗯,当然,也许还是 To B 方面会多一些。to

B的垂直agent都会多一些,会多一些哦?为什么呀?为什么?我指的是海外市场。OK,对,因为首先有一点就是,目前因为我们现在只做海外嘛,嗯,我们觉得可能尤其就我不敢说海外这么大词,就说美国市场吧。

嗯,美国市场我感觉现在大半创业者都在想一件事,就是我要做一家给另外一家创业公司在使用的产品,并卖给另外一家公司。就是我觉得很多美国创业者已经失去了做to C的勇气和心气儿。你说美国华人创业者还是美国所有所有甚至华人好一点的啊?华人还有梦,对我觉得像我们就是比较比较勇这种,我们还敢做这个事儿。为什么呀?

为什么丧失了这种哦?不过过去十年美国嗯,to b确实更好一些。对,我觉得其实与其说丧失,应该说他们这边的环境更形成了这样一种正反馈。嗯,就他们的退出机制非常好,很成熟。卖公司吗?对,你可以卖公司,或者说你自己做to b,你有一个稳定的一个收入,你自己独立上市、独立发展都没有问题。所以就是,这是他们这种成功的路径决定了美国资本市场的一个倾向,嗯,对吧?

所以就是在美国这种像我们这种跳出来做to C,那确实是一个一个很异类的一个东西。当然,这也就会有有人愿意下大注嘛,对吧?谁愿意下大注?下了什么大注?就像我们现在就获得了一些压注,我只能这么说吧。啊。对,但像国内的话,我觉得上一代创业者就是就是我这代创业者,我们在这个移动互联网时代,其实很多人都是做To C的,其实获得了很多的正反馈,也更勇一些。

对,嗯,所以我觉得这确实是两边的。环境和持续的反馈带来的一个结果,所以你觉得没有垂直to C的生呃agent的生态位吗?啊,我觉得一定会有,一定会有,但是这块其实会比较微妙。就是我们团队有另外一个同学,他之前是做一款嗯剪辑软件,嗯,然后后来也是被被腾讯收购了。然后呢,他其实给我说了一个很好玩的一个观点,就说做垂直to C的应用很难的一种一种模式是什么?

就是比如说你要给剪辑师。做一款更好的剪辑 agent,他说这是非常非常难的,因为专业的人士会对这有极高的要求。这个用户会有一种从风险控制的角度来看待这个事儿。嗯,就比如说你一个工作流很复杂,你但凡有一个环节没做好,那对这个专业人士来说,这个东西就是零分,因为它是一个乘法关系,对吧?你就不能用。但是你应该做一种什么样的 agent 呢?

是做一个给非剪辑师用的,但是却有剪辑需求的人做的 agent。嗯,比如说自媒体。这样的话,其实你会变成一种给原本就有这个需求但做不了的人,它是一个净增益。对这个,我觉得是非常重要一点。这其实这句话其实影响我们很深。我们现在经常跟我们的用户或者这个别人交流,他们常说,Manus虽然我们在做一款通用Agent,它很像人。

但是我们从来不以替换人的思路来想这个事儿,因为如果你要给别人一种说我要替换人的这样的一个心智的话,所有人都会从一个 risk control 的想法去想。就我刚才讲的,就是你但凡一个环节不通,就是不通。嗯,但是其实你应该是一种提升人,就 enhance people

的思路去想,让你现在已经最高效的雇员,或者说你是一个自驱的一个人,你获得了这工具之后,你能让你的产能提升,那这是一个更良性且更现实的一个做法。

所以这个生态还还会怎么样?除了有通用的 agent,然后有垂直的 To B 的 agent,还还有呢?我觉得会有很多偏娱乐的。Agent出现,当然也就是To C的广义的To

C嘛。嗯,对,当然这可能就是接下来看怎么走了。现在我也看了一些比较有趣的一些一些尝试,比如说,对,比如说那个我就不说具体名字吧,他们做的可能就是呃,给每一个人做一个虚拟的Agent,然后让Agent以代理的形式之间进行社交,我觉得这都挺好玩的。

但我觉得我实在是没有这方面的insight,所以这种产品感觉适合OpenAI做啊。呃,你说OpenAI嘛,我觉得Open适合做所有产品。你觉得 OpenAI 会抢夺你们的生生态位吗?啊,我觉得一定是会有竞争的。但是我们现在观察到的现象是什么?首先就是在 ChatGPT Agent 出来之前,我们可能要经常回答的一个问题就是, OpenAI 做了,你们怎么办?

他们做了,嗯,他们做了,对。但是很明显,效果是不如 Manus 的。为什么呢?就我刚才讲的,就是我们其实是能用世市面上所有最好的选择,嗯,而 OpenAI 它仍然是在它的领域有所专长。这是第一点,第二点是什么?其实跟他们的一个用户心智有关。ChatGPT Agent仍然是ChatGPT的一部分。ChatGPT,我觉得它是一个打透了的产品,就是Chatbot的战争已经结束了。

所有的用户都在使用 ChatGPT,但实际上有 Agent 需求的人,客观来说是少一个量级的。哦,对,所以我们其实一直是在自上而下去做,就是我们一开始触达的用户,其实你想 Manus 在美国是怎么火起来的?其实都是一开始像什么这个 Pat Collinsen,然后 Jack

Dorsey,就是这些硅谷精英们,他们发现这个东西真的好用,能给自己提效,所以一直都是在服务一个相对比 ChatGPT 单价更高的用户群。

其实对于那种比如说快速的问答或者一些低价任务,包括我自己,我也是不用 Manus 或者用 Chat GPT 的。所以我觉得这是一个分层的一个市场,我们会长期专注为真正有高价值需求人提供他能找到的最好的 AI,而不是跟 Chat GPT 去抢夺一个就是最广的底层的这个用户群。所以 Chatbot 和 Agent 用户。

不完全是一波人,它是不完全重合的。它不完全重合,它们包括你们。呃,对,它们包括我们。但是实际上,我们一定要去满足的,就是那些有最高质量需求的用户,就是他这些人肯定用过ChatGPT,嗯,但是他们仍然会选择Manus,是这样的一群人。其实是ChatGPT没有把这个。部分的用户需求满足好,是的,是的,或者就是说,我们得保证我们永远能提供比 ChatGPT 的 Agent 更好的体验。

那这是现阶段,未来呢?未来他们会赶上来吗?那我们也会赶上这个。就我常说,就是小公司怎么跟大厂竞争,就赶紧成为大厂。你们现在距离大厂还有多远啊?还很远,还很远,但是在做了,在做,在做。长期来看,理想状态的 Manus 应该是什么样的?理想状态 Manus,其实我想回到刚才我们谈了一个问题,但没说完,就是说。

边界是什么?这三件事儿,刚才讲到,其实有三个系统,系统中有三个元素,一个是模型,一个是环境,一个是用户。其实我们觉得,接下来我们更关注的,也不我不敢说未来形态吧,因为对于创业公司来说,我们觉得聊三个月后的事儿都很慌,你就聊接下来这三个月内。我们会关注一点,其实用户其实也是一种边界,也是一种瓶颈,是什么?

就是现在无论 agent 多么智能,或者就是说 Manus 跟拆报相比,有一个最大的变化就是它输出不简简单单是一段话,是一个 action,是一系列 action,或者不同的产物。但实际上它的起点到目前为止,大家看到了好像还是一个 prompt。那实际上对于用户来说,输入 prompt

是很闹心的一个事儿,而且它有更多的问题是很多 context 没能代入进来,所以我们一直在想,就如何去优化这样的一个事儿。

然后刚才还提到,就是张涛涛哥的一个梦想是做一个七乘二十四小时推。二十四小时推理的机器,所以我们接下来会比较投投入的一个方向,也可能代表未来一段时间的Manus,就是我们在做Proactiveness,就是主动性。这个词其实我觉得是OpenAI带火的,不是这个词,其实应该是Agent这个词的本意。嗯,Agent的本意其实来自于Agency,就是能动性、主动性。

对,但是呢,之前的话,因为大家可能更关注的是一个结果的呈现,但是其实现在又到了该关注Context这个这个问题了。就好比 OpenAI 先做出了 ChatGPT,但 Monica 关注到了输入 context 这一个点。现在我们也把这件事要做得更好,但是我们觉得不应该做成像 ChatGPT 的那个叫 POPS,对吧?

那种就是他每天给你推很多东西,这个其实在占用户的时间。而真正现在能够把为 Manus 负钱、真正获得价值的用户,他其实需要生产力效率提升的。嗯,所以我们更关注的应该是如何让 Agent 主动去完成更多的事儿。嗯,对这个东西,现在我们内部已经已经有这个 prototype,我们自己用的很爽。怎么主动完成?

呃,这可能我先不方便透露太多,但我可以举例一个场景。嗯,就比如说我们自己每天,比如面试完人之后,我们可能用一些第三方的 SaaS 服务,比如像 Ash、笔之类的这些东西。我们需要去写那个,就是 review,去写那个评价。然后呢,当然评价我们会自己评,但你要写很多这个这个描述这些东西嘛。但其实我们在面试的过程中,我们可能用的是 Notion Granola 进行记录。

那可能我们自己要干的事儿就是,假如没有这套新的这个AI的话,那我们就得自己去基于我昨天的这interview的记录,然后去填写这些评价。嗯,但实际上有了这个proactiveness之后,Manus其实可以每天早晨在我醒来之前,先去自己看我的Notion。帮我去直接把记录填到这个管道,呃,填到H B里头,然后只让问我接受与否。

所以其实应该解放出来的就是用户的这一层瓶颈,让Agent的能动性逐逐渐逐渐去发挥出来。嗯,这我觉得是一个短期未来关注的点。开始我觉得是你们想让大家能够更方便的去理解你们,所以你们用了一个通用Agent这个概念。你觉得通用Agent长期来看是是最合适的?描述minus的名词吗?呃,我觉得不一定,甚至说不是为了让用户更好理解。

你知道我们那视频做得非常草台,整个这个工期大概就三天。是那块呢?因为还自己剪的是吧?对,自己录自己剪。为什么那块要有一个黑屏?说什么the world's first general agent呢?因为中间那块其实发生了一个很傻的事儿。嗯,是当时我们那是在我们办公室一楼录的,背后一个保洁阿姨走进来了。

所以,我们必须在那掐一个,就是得得得减一针,得有一个黑屏。那完了,那这就只能给一个定义了。然后大家一想,就是 medicine。如果我刚才一开始说的,我们也没想好这玩意儿到底是这个。你怎么定义它,对吧?它到底是为谁去服务的?因为我们想的是去观察嘛,去做达尔文,就想有一个壳,然后大家进来,不是一个壳,它是一个一个playground。

然后呢,那好,呃,责任就到了我。因为我得写那个视频的稿,我想那这个我们可能叫什么呢?对,所以整个这个概念就是我拍脑袋想的,然后临时想的,对,然后就被大家采纳了,所以我觉得特别对不起大家。对,但是我们觉得这个词其实它偏技术了,嗯,因为它来自于所谓的 general purpose agent 这个,看上去好像是为了占一个位置。

设计的这个词就是为了占,因为都说二五年是A镇元年嘛,看上你们想占占那个最大的生态位,然后取的这个词,其实不是,是因为为了去,是因为挡住保洁阿姨讲的这个词,就这是一个从市场角度来说,我觉得不是一个很好的选择,因为对于不了解技术人来说,这是什么东西?嗯,这是一个很奇怪的东西,所以我们现在接下来更想强调的一点就是说。

做通用的agent是因为我们的一个技术选择,就刚才我解释了很多,对吧?就是你有一个更好的技术架构,其实你可以让不同的场景之间有很好的协同性,并且互相增强的一个网络性。嗯,比如说我们其实新的那个 Meta CDR 五里头,我们一直在强调 website building

这个能力嘛,但实际上这个功能我们只开发了不到一个月,但它效果目前绝对是 so 好的,这就是因为我们其实在一套统一的一个 A 架构之上长出来的那个最后一公里,对,但是这个对用户来说,其实我们没必要解释这么多。

我们未来对用户的沟通其实完全就是根据客群去讲,嗯,比如说你是一个企业,那你可能更关注就是 internal tool 就内部工具的构建,嗯,那我们就跟他讲,就是 Manas 是一个非常好的内部构建的一个工具,同时它能帮你去把各个环节串接起来。所以跟所有的垂直的产品相比,我就还想强调那一点,就是 Manas 能做所有的事儿,做的一样甚至更好,且能多做一步,是这样的一个定义。

我觉得 agent 这个词未来大家其实也不用太在意这个东西,它就是一种一种新的东西而已。那比如说,大家需要一个负责设计的 agent 吗?啊,我觉得也许是需要的,因为它要融入你特定的工作流。就好比你设计领域如果没有 AI,你往回看也会从同时存在 Final Cut Pro,嗯,跟剪映,就是这样的一个情况。

你觉得 Manus 会收敛吗?呃,你说收敛是指收敛到某几个更垂直的领域,不会。我们会是这样,就是我们会做很多的,我们叫做场景,嗯,就比如说现在其实我们头部几场景刚才讲了批量文件处理、网站生成、slides生成,但我们从来没有单独做过一款产品叫Manus slides或者Manus website

builder,嗯,它仍然是在这样一个统一的Agent架构之下,由我们的产品团队去优化最终最后一公里的体验,所以Manus永远是一个不断优化头部场景且保持很强长尾能力的一个一个系统。

嗯,这是一个选择,对,这是一个选择,刻意的选择。嗯,minus这样的agent和像比如说lafars这种设计类的agent,你觉得他们长期来看关系是什么样的?嗯,我觉得是这样,就是。Lovebird一定会越做越专业,Manus可能会有一定的设计能力,但是就像我刚才讲的,就Lovebird是给设计师用的,嗯,Manus是给有设计需求的非设计师用的,啊,且同时还存在另外一种关系,就是为什么我们非常强调我们现在有一个概念叫connector或者叫integration,就是连接与集成。

其实Manus之所以它是一个通用agent,它就能模仿一个人,它的模仿人用各种的工具。比如说自己内部,我们经常拿 Manas 调试 Manas。那实际上,如果你是一个设计师,你其实你的工作每天也不是百分百都在设计,对吧?嗯。比如有的时候你需要,比如说基于一个设计稿,啊不,就基于一个产品需求去做出一个设计。

那你甚至也许有一个用法,就是比如说你们在用比如说 Slack 或者 Slack 来讨论一个产品,你可以让 Manas 去帮你盯着这个 Slack,然后让 Manas 去用 Live Word 去完成这个事儿。所以 Manas 跟所有人,我觉得都不是一个竞争的关系,我们是一个网络中的节点。但很多时候价值其实不是在网络节点,是在网络的边上。

你怎么看Cursor和Cloud Code现在关系啊?啊,我觉得这个是比较尴尬一点,就是他们选择了一个最激烈的一个点,嗯,就是一个怎么说呢,就AI Coding它不是一个垂域,它是一个通用能力,嗯,但是呢,我觉得Cursor这家公司非常厉害,所以呢,就是它一方面是启发了Manus很多,另外一点就是我觉得Cursor的人才储备是不逊于这些。

头部公司的,嗯,或者说就是头部公司中跟 Cursor 直接竞争的那个团队的实力,嗯,跟 Cursor 是可比的。这刚才我讲了一点,就是创业公司跟大厂对比的方法,就是成为大厂。我不是说在规模上超越它,因为大厂不会倾注其所有资源于你一个人打。我们现在要做到的就是,我们在做类似这件事儿的人,这个团队,比比如说。

某些大厂想做Miles人的这个团队强得多,这就可以了。所以现在多少人了?我们现在有将近一百。Cursor and Code,我觉得还有一个点就是,嗯。Cursor的选择空间还是比 Cloud 要多一些的,嗯,就是 Cloud Code 仍然是 Cloud 的一个延伸。当然,就我现在还在说,大家都在分化,Cloud 在 Coding 方面有一些独有的一个优势。

但实际上,正因为 Coding 是主赛道,所以大家追的也都非常的快。比如说 Gemini 三出来之后,大家会发现,可能 Gemini 在 Agent Coding 方面还没有完全追上,但在比如说静态前端的美学方面会非常领先。所以我觉得,对于Cursor来说,有点类似于我们现在一个状态,就是大家都在盯着这一个方向打,所以它有一定的灵活度。

我觉得这个战争还没有结束。那你怎么看?你们像比如说跟 Kimi,Kimi 做了,嗯,呃,Agentic 的 Model,嗯,呃,他们就想走 Claude 这条路。那你们作为一个应用型的 Agent 公司,跟他们长期关系会什么样的?然后你觉得谁能赢啊?我觉得首先我们跟 Kimi 从来没有任何的竞争,因为我们没有国内业务一样啊,对我们没有国内业务。

国外的公司呢?国外的模型公司就是你们和国。你们应该也在国国外的模型公司的主赛道上,对不对?主航道,我觉得是的,是的,是的,对。所以就是我认为最终一定是一个竞合类关系,其实我不觉得我们会输。就像我们已经跟ChatGPT打了第一仗,我们从效果上至少还是赢的。嗯嗯,你们中间慌过没?其实基本就焦虑没?呃,我们的肯定会焦虑,但焦虑不是源于这个,就是我觉得Manus整个从一开始就莫名其妙火了,到后来有太多事儿值得我们焦虑,所以其实。

就是竞争是一种最常态化的焦虑,它不会是占你生活中大部分的焦虑。好吧,你们焦虑的是什么?每个不同阶段当然就不一样了呀。嗯,那比如说我们刚才说到了二四年的呃九十月份后面每个时间焦虑是什么?二四年的九十月份,其实在MELUS呃做完到发布前那段时间是没有任何焦虑的,嗯,因为很enjoy对吧?很快乐,很enjoy。

而且就是我们也都就就属所谓这个中登型连续创业者,就是我们其实做完MELUS之后,我们知道这东西一定会火。是一个极有信心的一个状态,所以就对,就一定会成,所以就是并没有太多的焦虑。哎,你做的过程中哪个时候觉得一定会成?呃,其实就是当我们跑完了几个例子之后,嗯,就是我们当时也就自己内部也没想好做什么。其实当时我记得是涛哥吧。

跑了一个例子是找办公室,然后奈德自己去找资料、查地图、写程序,然后做做出交互式网站,还提供一堆这个选项。之后我们觉得这个太酷了,一定能成。但是就后来一次次的这个跑不同case之后,信心越来越强。对,当时是觉得一定一定没问题。嗯,那段时间你们公办公室的状态是什么样的啊?就很嗨啊!就是当时我们是在北京的那个e park,是一个共享办公室,而且很小。

我记得刚开始的时候,对,我们那个工位只有六个,就是北京这边。然后,对我去过那个地方,对对对。但是那个地儿我觉得特别棒的,就是他们的一楼环境特别好,就是我们拍最早视频那个地儿啊。对,然后当时那个状态是什么?就是我们都特别对不起周围的邻居。他们就经常就听见有一个奇怪的办公室,突然放着我操我操,对,全都是就我跟涛哥跟别的同事在在嚎叫,对。

啊!我去的时候那天没人,哦,有可能,嗯,整整个工区都没有人,嗯,对对对,所以那块就是完全不焦虑那段时间。发布后就开始焦虑了。嗯,说说你们发布的时候的考虑吧。你你知道,外部对你们最大的几个质疑之一就是为什么要弄邀请码?嗯嗯嗯。以及是不是过度营销?嗯,好,这两个问题我终于可以回答了。就是我们其实很早就想去公开回应这个事儿,但我们觉得你瞎回应也没意义。

我们当时内部就说,你没做到一亿美金 ARR 前就不用搭理这个事儿,啊,现在当然我们可以回答这个问题了。到了是吧?啊,早到了,对。所以呢,我们想说啥时候到的?其实几个呃一个月以前应该是,嗯,对。然后现在的话,我们就可以正式的回应这个这个事儿。首先,我觉得邀请码这个东西。是我们为所有人趟了一条很重要的河。

当然,我不是说创造了邀请码这个概念。是这样,就当时我们以前不是做 chatbot 吗?chatbot 我当时讲到了它的消耗量可能是 top,就是 agent 这个形态消耗量的这个几十几百分之一。然后当时 Manus

我们做完之后,我们为什么要用邀请码这个机制?且没上线前我们就决定了用这个东西,是因为我们在最后决定发布之前,我们跟所有的云厂商和我们这个 inference provider 就是推理供应商聊了之后。

我们惊讶地发现了一个事实,就是世界上能够在第二天立即到位的算力比想象中少太多了。所以,就是当时的情况是,所有我们使用的这些云和模型厂商没法提供这个量。所以当时,比如我们用 Cloud,Cloud 说你们千万别放开,你如果放开,我们会挂。所以对我们来说,我们唯一的选择方法就是去控量。那控量的方法是什么?

那你就只能选一个类似于邀请码这种机制嘛。所以当然,确实我觉得也有别的更好的做法,就比如说不应该有明确的一个码这样的一个东西,比如说我们可以定向邀请这这些东西。对,但是我们当时其实也没有想太多,嗯,我们就去把这个东西给做了。但实际上,我们后来就在跟所有这合作伙伴一起不断迭代这个过程中,其实后来大家意识到了,哦,agent原来它这个消耗的算力这个模式跟chatbot是不一样的。

就刚才讲的这个prefilling跟decoding从三比一变成比如一百比一,所以逐渐逐渐,就是因为manager的出现,大家去适应agent workflow workload这样的一个工作负载。然后再后来,我觉得再用邀请码的人,我就觉得有点奇怪了,就是。我们已经帮大家蹚出了这样的一条路,云场上也已经准备好了,你还何必去这样做呢?

你想,如果当时我们能直接放开,那其实我觉得可能体验会比现在还要好,因为如果充足的算力和大家不会遇见那么多的,比如说当时我还记得三月份,你用这种可能就崩了,对吧?因为你真的没有那么多算力,然后我们的 scaling 也没有那么好,就会崩掉。如果我们把这些事提前搞好,那我们何必用用邀请码这个机制?所以你觉得当时是因为云场上没有准备好,云和模型都没有准备好?

就是那句话,就是呃,但如果他们准备好了,你们的成本是能够 handle 住的吗?handle 不住,但是因为我们对产品级有信心,我们当当时一天烧。几十万美金吧,我们觉得没关系,因为绝对就是这个产品一定能成。你们当时账上多少钱?当时也没太多吧。是之前还有融资额,反正是钱是够花的,但是其实也也也很紧张。

但是我们觉得这东西一定能,根本不慌,就是绝对没问题,使劲烧,对,所以所以很野的。对,但是当时那个情况,给你描述一下,当时比如我们跟云厂商打电话,我们说我们现在需要加到多少多少TPM的这个上限钱是吧?上限钱,上线当天OK。然后我们说我们能不能临时加这么多,然后他们说没问题。你们是要下个月还是下下个月要?

我们说今天下午要,然后他们但这没办法,所以真的就那头一段时间就是真的是他们的物理层面上去搬卡插在机柜上给我们用,搬卡插到机柜上给我们用。我们当时就是为什么后来跟Google的关系这么铁,就真的我觉得GCP在过程中啊,当然包括后来Azure跟AWS都非常支持我们,就真就是对我们来说是雪中送炭级别的的支持,甚至就从别的比如别的项目的可用区来把临时调资源给我们,然后这才让Manus撑过了第一个月。

二五年初,大家都没有预预预料到今年的偷空消耗量会指数级的增长。对,因为它的输入输出比例变了,失失调了。这就为什么就是我说拆爆的它的消耗量其实你是可以预测的,因为人参与的频率太高了。就是因为你得人触发才会有下一次的行动,嗯,而 agent 首先它会持续自我工作,而且如果你按 react 这个模式去看的话,嗯,它的 context 其实一个 append only 就只增的状态。

如果你你你你从模型视角看,是每一轮迭代的时候,你需要重新 preview 前面所有的输入,当然你会有 kv cache 在这,但是它的输入 token 量是非常非常大的。其实每一轮会越来越大,越来越大,越来越大。所以当时就是没有这样一款真正的 agent 出来之前,云厂商没有准备好。嗯,这是第一点。

但是你说的是你们上线当天给他们打电话,那这个邀请码角色是在这之前就发生了呀?你们这个角色是怎么来的呢?就是我们需要一个控量的方法,但是因为我们也没有更好的办法,就只能选择就是用邀请码或者定向邀请。但是我们觉得现在可能定向邀请会是一个更好的一个一个做法。为什么呢?因为邀请码的东西,我们没有意识到这个东西,我们知道产品一定会火,但没想到会被炒,这我觉得是非常不好的一点。

定向邀请你不能炒嘛,对吧?但是如果没有炒的话,可能烘托不出来这种氛围。但问题是我们在国内火没有意义啊。嗯,就是包括那个Nellis跟Monica,就我们上一款产品,其实我们都一直是做出海的。我说这个其实也是当时我们觉得非常的冤的一件事,就是你想,中国有这么多的企业在响应号召进行出海,无论是AI或者比如说基因,像这种做衣服的,对吧?

你其实你选择不同的market,我觉得是很正常的一件事儿。我们其实在中国,比如突然火起来,其实对我们没有一个直接的一个作用,反而会让我们就承受很大的压力。所以也是为什么 Manus 当时上线是选择了晚上十点多,因为那是北美市场的早晨啊。对,所以就是我是为了北美市场选择的是对,是的,是的。嗯,这个是邀请码,对,这是邀请码。

炒作呢?炒作好,这个问题要非常郑重的回答一下,就是我可以直接这么说:如果我们在三月份发布的时候,如果我们有任何付费的宣传,我死全家。对,这个是我可以说到这个程度。就是你想,我们为什么要宣传?有必要吗?对吧?因为我们要做的是什么?我们要做的是海外的prosumer的市场,对吧?那我们该做的是什么?应该是去让那些真正我们。

要用的用户去用起来,嗯,对吧?而如果我们在国内,比如说有人觉得我们买这些自媒体,其实对我们来说没有任何的好处,那有人就问:那这些文章到底是哪儿来的?我觉得有两点回答很重要。第一点就是我们自己都觉得很酷的东西,我相信大家一定会觉得很酷。对他们来说,这是一个内容,他们值得去写。第二点是什么?就是我觉得可以套用涛哥的一句话说,这是我们多年广结善缘的结果。

我们都是不是第一次创业了?我们这么多年了,一直比如说比较积极无私去分享我们很多东西。我们也会上比如一些播客,或者经常写一些文章去跟大家分享我们一些见解。其实渐渐渐渐的,以前可能跟我们一起成长的很多小伙伴,他也许成为了很厉害的投资人,他也许成为了一个自媒体人。那这时候他看见你的朋友在做一款产品的时候,你是不是很很自然就哪怕出于朋友的支持,宁愿去写一下?

所以我觉得,就大家把这个,就是创业和媒体之间这些关系,他想的有点太复杂了。我可能也许我是叫什么这个一个偏见,我觉得好像这个整个这个市场好像挺单纯的,就是你做出一个好的东西,且刚好是你的朋友,大家就会愿意帮你一下,因为这是一个广结善缘的一个结果。但是我觉得,Minus火了一天,嗯,他的。热度好像迅速就降低了,你觉得为什么?

因为我们在国内没有任何持续的这个,就是我们其实在国内是处于一个我们可以叫灭火的这样的一个一个状态。嗯,因为我们觉得,如果你把我们这个东西,比如过度的,比如说进行一些曲解或者怎么样,对我们来说没有好处,对吧?我们只是一款AI产产品出海的一个应用,不要给我们赋予太多的这些东西。所以你看,我们当时在国内,我们所有团队没有任何的这个,就类似于对外这种发声,其实都是别人在以一个第三方的角度来阐述我们。

对,所以我们觉得在国内的热度其实降下来是好的。那在海外呢?在海外的话,我觉得这个就是我们想要看到的。就当时是说有人在说我们在海外做营销,我拜托Andrew Capacity,你能买吗?对吧?这些东西你不可能买到的,对吧?就是我们首先让我们的用户群就是最pro的这些人看到这个产品的价值,他们先用起来。

然后他们去自上而下的去影响更多人去使用

Manus,嗯,这是我们希望看到,所以这个流程肯定没有国内那种突然火的那么快,但其实也没有多少的时差,基本就是当时国内好像三月五号当天晚上莫名其妙就火了。但其实美国基本就在三天之后就开始自下而上就火起来了,而且我们去看了,就两边链路基本完全不重叠,链路不重叠,对,是的,就是海外火起来完全就是靠,比如像

Andrew Capacity、Patrick Coninson 还有 Gary Tan 这这些人,他们先用起来了,然后他们的影响力再去自上而下的去影响,嗯,而国内可能确实是,比如自媒体还有一些朋友,他们就写了很多的内容。

你们当时准备的邀请码有多少个?邀请码其实它动态的加的,嗯,就是说我们跟云厂商不是打电话吗?他说现在,比如能加到,比如说二十M T P S,我们算一下,那好,那大概能加出这么多码。然后更多其实后来的码就已经变成,就是给朋友以外变成什么,就是那种找过来我们又不好意思拒绝。所以就变成了一个谁跟我们比较熟,我们就给一些。

对,所以因为在国内,我们知道其实我们也不指望他在国内能,比如说很大规模的靠邀请码传播或者怎么样。其实只是一种出于礼节性的给一下就给了。嗯,这个会让网络上很多用户的感受不好,因为你们说你们有邀请码,嗯,这好像是也是一种承诺,但是后来这件事情就不了了之了。呃,我觉得邀请码不了了之不是不了了之,是后来我们进进用了极快的速度,大概不到一个月,我们就把邀请码去掉了,就可以随便用了。

所以我觉得这不是不了了之,我觉得这是最负责任的一个做法,就是我们在云厂商和模型厂商的支持下,终于不用邀请码了。但是我们很贵啊,贵我觉得不是我们的问题,因为真的就是当时可以说一个实话,Manus是亏本的,嗯,因为当时的头盔还非常非常的贵。我们其实已经是在补贴用户,让他们来体验Agent这个形态的产品。

你们当时的定价逻辑是什么呀?拍的,拍的,对,就是这个是我们觉得我们非常有问题的。第一是商业化能力其实还是比较有限的;第二,我们的PR或者说这个这个Marketing能力其实也很差。就是我们当时定价的逻辑特别简单,就是哦,ChatGPT好像是二十美金一个月,而且我们死活想不通它为什么是二十美金一个月。

后来当然也跟别人聊一下,他们觉得ChatGPT当时也是拍脑袋态的,嗯,但是没办法,人家就就有一个毛在这嘛,所以当时我们想,那我们就是从二十跟四十开始呗。然后就延续至今,因为这些东西会有一个很大的惯性,就是你最好不要太随意的去调整你的那个价格,价格对让用户可能会就已有用户,你最真实用户可能体感不好,对,所以这块我们就没有太大的一个变化,定价没有什么逻辑是吧?

定定价没有什么逻辑。为什么不选择比比它便宜呢?因为是这样,就是其实这个定价没太所谓,因为Manus其实你无论你你是给多少钱,你获得的是一个credits的一个数量,它是本质其实是一个按量付费的一个东西,嗯,所以只是就保证一个就是基础订阅的一个价格在那就行。那现在你们已经跑正了?呃,马上跑正,马上跑正,马上跑正。

因为其实是你要区分不同的 tier 嘛,对吧?因为我们还是有很多的免费用户,我们认为免费用户也是,你可以说这是一种我们的社会责任,嗯,或者怎么样,就是我们希望有更多的人能够体验 agent 这个形态。在 minus 整个就是做出来到火的这个过程中,小红的决策是什么呢?我觉得几乎所有的决策的最终决策人都是他。

嗯嗯,比如说,嗯。太多了吧?这你让我如何去枚举啊?你说火的过程中,还是说嗯,就是从做到火,从做到火,那几乎所有产品的决策最终都是他了。有什么是你们之间有一些争论的?然后最后谁听了谁的?哦,这其实我觉得我们之间的争论都会是非常务实这种讨论,就比如说那个一些关于,比如到底要不要做一个单独 chat mode呀这些东西。

然后最后的结论其实都是我们赶紧做一个试试。所以其实到现在为止,不同的用户用的 nice 可能完全不一样,因为我们可能海量的 A/B test 在跑着。嗯,当然就是最终的话,我们觉得最好的决策就是你限制一下时间。就是别为这个事儿,比如一天一天反一直犹豫,一直犹豫,对,赶紧做做就好。嗯,现在在市场上去找反馈,对,是的。

你觉得你们今天的生态稳是稳固的吗?我觉得不是稳固的,就是或者说,对于大部分创业公司,包括我们在内,其实我们都没有活着的权利。这个都没有活着的权,活着的权利是自己持续跑才能争取来的。嗯嗯,火了之后生活发生变化没有?有啊,就非常忙,尤其是就是就那几天,那几天是什么状态?呃,那几天其实就是颠倒黑白,因为我们其实非常理智,就是国内其实骂我们也好,或者这个就是称赞我们,我们都。

怎么说就是没有办法,我们也不想回应什么东西。但真正就是我们的客户在哪里,我们要关注什么。所以那段时间真正的痛苦来自于颠倒黑白。对,因为我们要支撑,比如说这个各个时区。现在 Manus 用户其实遍布世界各地嘛,就真的是每一个大大洲上都有很多我们的用户。所以那段时间我们团队也没有现在这么大,大家可能真的就是在不断的救火,就因为今天可能这个系统挂了,明天那个系统挂了,所以天天就是在救火,所以非常疲惫。

能睡几个小时啊?那那段时间?那天我记得从第一周到。第二周基本每天就是零散的,可能加起来睡个三四个小时,都是那种间断性的睡,间断。每天还是每周?每天每天每每周这就死了,这。办公室状态也更嗨了是吗?还在那个那个小办公室,还在那小办公室。然后当时是这样,就是我们武汉有很大的一个团队嘛,然后大家就就是。这也是我们经常反思的一点,就是我们好像跨区域协作能力蛮差的。

所以当时大家想,那算了,大家赶紧出差吧,就我们赶紧在那个我们楼上租了一更大的一个办公室。然后武汉同事赶紧能飞过来就飞过来,大家不要在什么线上工作,赶紧线下一起来来讨论方案吧。然后那时候其实办公室氛围没有更嗨,真的就是非常非常疲惫,甚至当时我们那个书架上摆的更多都是就什么补剂、营养品,补剂,嗯,对,反正就是那段时间真的就是大家精神状态都很差。

嗯,我听说你们那时候那段时间融资给投资人开会哦,对,那段时间好玩就是跟投资人pitch,我们都是站着开,对对对,对,就是其实是这样,就是当时我们还挺感谢投资人的,你知道吗?就是因为确实每天白天的时候,我们看见的网上大多是一些比如骂我们的东西,嗯,而真的就跟投资人好好讲的时候,得到正反馈是我们一天中最。

最温暖那个时候,你知道不?就是好吧,懂的还是懂的。对,你怎么看待你们为什么被骂?哦,我觉得有几点。首先一点是我最近意识到了一个事儿,这是我觉得是最惨的一个点,就是。很多国内用户骂我们的根本原因是你用的根本不是Manus,正好借这个机会,我一定要非常非常郑重的强调一下:你在国区App Store上搜到的所有Manus都是假的,那都不是Manus,那都是来蹭我们人。

所以就是我们有一部分被骂的原因是你用的那个东西就是一个山寨品,嗯。然后另外一点,其实我也能理解,就是因为一个产品如果是突然火了的话,大家天然会觉得你是一个比如什么很营销或者怎么样的一个东西。但这我刚才我也回应了,如果我们当时有这种行为的话,我先死全家。对,这是一个很关键的一个点。但是我其实站在用户角度,我也能理解,因为你好听说了有一个很新奇的一个东西,但是他没有提供服务,我这种大家的这个愤怒,我也是能够。

我觉得这是一个 gap,对,这是一个 gap,是是理解的。但是现在对我们来说就是。我们的团队能力是有限的,我们很难去说,比如说服务于所有的用户,比如说我们甚至说为了让大家能在一起,因为我们的沟通能力很差,那就大家都在一起。因为我们团队带宽有限,那我们先盯着有限的市场去做。所以这个东西我觉得不是一个,就是虽然可能让一些用户没能用到,但这就是我们能力所限,只能先这样。

中国市场未来会好好做吗?我觉得这个比较难,就是对于我们来说,我们也没有那么多的资金去进行一些怎么说就补贴性的东西。嗯,就是我们之所以一开始选择出海,其实原因也非常非常简单,就是因为大家可能呃海外的用户对于生产力工具。的付费意愿就是更强,嗯,而Agent就真的是非常贵的一个东西。像我们刚才讲到,Agent可能有点像工业生产,而不是传统互联网这种边际为零的东西。

所以呢,我们就会非常非常慎重的去做这件事儿。我们要先保证自己能活下去,再去讨讨论这件事儿。目前我们在活着的边缘。那中国这部分的功能由谁提供?你觉得?我觉得这个功能。其实还是比较充裕的吧,就是在 Manus 出来之后,在接下来几个月中,我看见有大量类似于 Manus 产品出现,而且很多也是我们国内团队去做的,所以我觉得这个挺好的。

但是真正的我觉得难点就是,他们会跟我们预见一样的,就是你到底要补贴到什么时候?嗯,对你如何去把你的这个产品的商业化跑通?嗯嗯,这决定能走多远呀?见了什么有趣的人?呃,我其实见人非常少,就是因为我们现在分工是这样,就是可能涛哥就张涛跟小红会去见更多的外部的合作,但是像我跟潘潘,我们还是要保证这个产品的持续迭代,所以刻意我应该去少见一些人。

为什么海外很多?巨头都愿意见你们,对,我觉得几方面吧。一方面是这样,就是很多时候他们是同时具有云和模型业务的,嗯,比如说像 Google,比如像 Microsoft,就是那自然就是一个非常好的一个合作。相对于我们是他们非常大的客户,但与此同时,他们其实也在探索新的这些机会在哪儿。比如说,我们前一阵跟微软一块发布了新的那个 Agent 三六五这个东西,那这样的话就是你能把。

所有的电脑从一个PC变成AI PC,那我们可能是这样生态版图中的一部分。然后更多的一些,就是因为我们作为一个Agent整个行业的一个代表,其实我们能给他们的一些一些东西,其实是影响未来它能服务更多人的一个范式的。像刚才讲到,比如说我们跟 DeepMind 的这些合作,跟微软这些合作,其实我们也在主动把很多我们在构建 Manus 过程中学到的东西,以标准化的 API 的形式提供给更多的开发者。

比如前一阵那个 Google Cloud 开发者大会上,那个 Google Cloud CEO Thomas 他直接就当着全场所有用户,就所有开发者面说,之前有一些只给 Manus 用的 feature,现在你们都可以用了。所以我觉得这还是让我们挺有成就感的,就是我们不仅做了一款很好的产品,且我们的技术也在帮助更多人更好地构建 Agent。

Manus 一点五,呃,中间有什么能耗吗?哦,我觉得这有一个最大的no好,就是通过一个新的版本号是最好的让用户理解有更新的一个方式。对这个很好玩,就是大家可能已经习惯了像基座模型以版本来断代,嗯,就比如说GPT G三、GPT四,对吧?但实际上我们做Agent或者做系统的时候,你很多时候还是在一个feature来不断去强调说这是一个更新,这是一个更新,但用户的实感可能没有那么强,嗯。

所以Manus一点五它其实不是一个突变,它很好玩,它只是把我们过去一系列的东西。以一点五形式打包了。其实很多新的feature都是在过去几个月中迭代去上线的。嗯,但这个过程用户就能直接体现到体体感到,哎,好像非常不一样。但说实话,其实一点五发布那一刻的更新没有那么大。就这是我们很好玩的一个发现,就是,对你得让用户意识到你有变化,用户才能才能真的去感受到变化。

对,这是第一点。然后第二点就是,Manus一点五非常大的一个技术的演进,就是我们把任务完成的速度进一步提升了。而且这个是一个无损的提升,就是说说简单点,就是 Manas 一点五能够用更快的速度完成简单的任务,但在更复杂的任务上去投入更多的 inference time 的一个 compute,这方面也是比较大的一个差别。

但是放到这个平均体感上来说,应该快了三到五倍。你那天还发朋友圈说,今天 minus 有两件大事,一个是一点五发布了,另一个恐怕要老了写回忆录再说了,是什么事儿?老了写回忆录再说了。通用 agent 和 chatbot 未来会是什么关系啊?因为所有的 chatbot 也会变成 agent 呀。呃,是这样的,但是实际上这个不是能力所决定的。

嗯, chatbot 跟 agent 我觉得是用户群决定的。嗯,就比如说对于所有人来说,他可能都有 chat 这个需求,但并不一定所有人都需要高价值脑力劳动的任务。但是我会自然的想通过它去做点啥呀?嗯,它就变成了一个可能在 AI 时代最大的入口。这是 OpenAI 的故事吧?对,这是 OpenAI 的故事。

但我觉得就是这仍然是一个传播链路的问题。就首先你在打的这个用户群,你所瞄准的一个点,OpenAI 就不一样。同时,我们要保证的就是说,对于这个用户群,我们能永远提供最好的体验。他们的需求跟拆包用户是不一样。拆包可能很多人其实心里知道,拆包拆 GPT,也许此刻不是最好的拆包。因为实际上大家知道 Gemini 三可能在某些场景下比拆 GPT 还要好。

但是对我来说无所谓,因为我只是拿它完成一些就是 quick and easy 的 task。但是对于 Manus 要打这群人,他们的质量的敏感程度是极高的。我们做过一些双盲测试,就比如说我们抽百分之五的用户,我们悄悄会用另外一个模型,然后就发现那块用户的用户的满意度直接就下降了。所以我们其实,在服务最挑剔的一群人,而他们永远要的就是此刻这一个时间点上 AI 能提供的最高的水平。

嗯, Manus 火了以后飘过没有啊?什么叫飘?飘过没有?飘就是飘人飘了啊!不会,因为我们其实每天收到的负面反馈会比正面反馈更多。那会很悲伤吗?也不会,因为我们都是老登啊,中登中登,就其实就怎么说,就有点心里憋着一口气。嗯,就是说为什么现在我们可以站出说这事儿?就还就是我们之前觉得说什么也没用,你还是得打铁需要自身硬。

你觉得Manus未来会有多大?嗯,它能服务多少用户?我觉得不想用服务多少用户来说,嗯,而是我们还是想说,就是到底对于每个用户,我们能为他产生多少的 agentic hours?嗯,也就是说,对于一个高价值用户,他可能能把 Manus 用的用量是一个普通用户的一千倍。这实实际每天都在发生。我们经常有一个用户,一个能付我们几千美金。

为什么?因为他有不断有很多的这种高价值任务要跑,所以我觉得 Manus 追求的不是 DAU,这是我们很早就想清楚的一件事儿。嗯,而是把最有高要求的用户、高价值用户的高价值 task 做到最好,体现在的可能更多的是我们的营收,而不是 DAU 上。这个是小红的想法吗?这个我觉得就是大家 align 后的一个一个想法。

嗯,所以你们的公司指标是营收,不是 D A U,不是 D A

U。对,这个有趣。嗯,对,你觉得这个创业逻辑跟互联网时代是不是不一样?我觉得完全不一样。原因是因为。公司有token消耗,呃,不是,就是两点嘛,就是可能刚才我们都多少cover到了。比如第一点就是AI其实不是一个平台变化,嗯,AI是一个技术增量,嗯,所以就是其实它怎么说,就是以前的优势是能够惯性发挥的,所以其实很多场景下是传统的强者加上AI。

强者恒强,强者更强了。呃,虽然这个词听起来比较悲观,但是应该说强者具有先发优势,且较好的利用了这一点。嗯,对,这是第一点。然后第二点是我们就刚才讲到这个边际成本问题,就是目前为止AI还是更像制造业。而不是像互联网,嗯嗯哦,嗯,这个还挺理智的,是是,对,不理智早死了,所以你们没有试图去讲一个我要做。就是全球第一的通用 agents,或者是全球最重要的入口的这样的一个故事。

呃,这是两个命题,我们一定要做全球最好的通用 agents,这是一定要做的。最好的通用 agents,最高质量,就是在当今一刻,如果你抛弃一切成本或者什么东西,我们永远提供最高的质量,这是第一点。但如果有一个人来用低价打你们呢?因为你们要,那我们不用更低的价格打死他。那他们可以不要盈,大厂就可以不要营收啊。

大厂就不要营收哦。你说来卷是吧?对啊,对。但这个东西其实是这样,我觉得对于一些用户来说,他们其实价格不是那么敏感。就包括现在,Manus用户其实我们也觉得Manus确实是挺贵的一个产品,嗯。但是我们的用户问我的问题,你知道是什么?是说Manus现在你收我四十美金一个月,你能不能让我看看,如果我愿意付两百美金,它效果能变好多少?

嗯。所以我觉得这个message完全不一样了。所以就是这种定价的优化,基本不在我们的路线图里。嗯嗯。你们没有想要做最重要的那个AI入口之一吧?这是这是一个目标吗?我觉得首先一点就是可能不存在单一的AI入口吧。就好比比如说现在移动互联网的入口是什么?哦,好像确实是存在一些,对。但是我觉得就是对于我们所服务这个客群,就以我们自己为例,我们自己一定是Meta用户,我们自己手机上也有ChatGPT。

这是一个当你足够的prosumer市场的时候,这些人会自己知道什么时候用什么产品。嗯,之前那个A60Z有一很好玩的一个调查,就说如果你的手机上装有某些某一个软件的话,那么这个用户的手机上安装另外一个软件的概率的最大异常值是什么?这个书简可能有点绕,就是说,对于一般人来说,可能你安装某个软件的概率是怎样?

但是如果一个用户他手机上先装了一个软件,那突然哪个软件的概率安装概率突然提升,你发现装了 ChatGPT Cloud、 DeepSeek 所有这些用户,他们的最大异常值全是 Manus。所以 Manus 几乎是在跟所有这些插报并存的一个状态。当然,这其实是好的解读,坏的解读就是我们觉得目前 Manus 其实还远远没有渗透到所有我们想服务的用户。

嗯,因为目前还是就是最业内或者相对来说比较这个科技圈的人,充分了解了 Manus。但这就是我们觉得我们在 marketing 方面还有很长的路要走,这方面我们在学习 AI 产品有垄断效应吗?我觉得有,有,对。但是就是怎么说呢?就是AI产品的垄断是你能垄断一个类型,嗯,但是这个类型吧,可能也在不断的产生。

像比如ChatGPT,我觉得啊,ChatGPT也许还真算不上垄断,因为Gemini最近势头也很好。嗯,但你能垄断一种心智或者一个类型的心智,它能建立一个品牌,能建立一个品牌,它能像比如说Google这种搜索引擎这种,它可能一个人统治百分之九十市场或者百度在国内拆爆了,会是成为这样的市场格局吗?我不敢说,但是因为就我对搜索引擎市场。

就是可能我的认知也还在我还在做搜索的那个阶段吧。其实我觉得搜索引擎市场非常特殊的,因为搜索引擎其实一半是在内容里头。就说你的这个数据供给是无法因为技术的迭代而而去被颠覆的,所以搜索引擎是一个非常容易强者恒强的一个领域。嗯,对,因为你已经跟太多的人产生了利益的关联,嗯,包括你的广告商、你的内容商。但是

ChatGPT 目前为止可能还是因为到现在 ChatGPT 也才哦刚好哎三年,对我觉得还是一个比较早的一个状态。

比如如果你现在只是两千零二的谷歌的话,现在一切还不好说。是,而且好像还没有产生网络效应。哦,对,AI 产品的网络效应,我觉得是。嗯,好问题,我觉得没有看到任何一个真正网络效应那些产品,这是为什么?嗯,因为所谓的网络效应,我觉得更多是你能有两种吧,一种叫 build on someone else's

work,就是说你能基于其他人的产出进一步的去贡献,嗯,这是一类,然后另外一类可能就是完全是由于用户关系所带来的网络效应。

但这些东西其实在这两个场景里,AI似乎都是附加值,对不对?AI是附加值,对附加值。不知道它加了它为什么就能进一步的连接人了?没错,或者说AI不是产生这两个要素的关键点。嗯,对,AI是能够帮你提效,能够帮你完成任务,能够给你产生结果、产生交付。那可能新的网络不是人和人的是AI和AI的,或者人和AI的。

哦,要这么说的话,我觉得是有的。就包括我刚才一直在强调一个词,叫比如说基础能力或者原子能力的网络效应。就刚才我们讲,我们讲过,就Manus其实增加能力是非常谨慎的嘛。嗯,但是我们每次都要保证,就是这个能力能跟别的能力形成组合拳。哎,用了组合拳这个词,就是什么意思呢?就比如说,最早我们给Manus加入了一个看图的这个能力。

嗯,看图能力其实一开始想法很简单,就只不过是说希望Manus能看一看它生成的图好不好。但后来我们发现,加了看图或者多模态输入能力之后,Manus开始自己学会去检查自己做的网页是否能能玩得通。所以,就是你增加一个基础能力的同时,能跟你所有通用agent这个水平别的能力之间产生交互,嗯,这种叫做可能能力基原子能力的网络效应,这是我们已经观察到了,嗯,就是你可以让你的agent能力一个指数形式提升。

这是第一点,然后第二点就是,如果你说 agent 与 agent 之间的网络效应的话,那看怎么解读。像比如说,我觉得 Manus 的 wide research 就我们这个广域搜索能力,其实也是一种,也许是 agent 之间网络效应吧。就是一个 agent 可以调度很多别的 agent,他们也之间还能互相通信,嗯,去共同完成一个单独的一个 agent 无法完成的任务。

然后,另外当然也有一些人在尝试,就是说让 agent,比如说。加入到人的协作的上下文中,这我们也在做一些测试。比如说,Manus现在能跟Slack打通,嗯,它能带来一个比较好的一个点,就是很多时候我们的讨论是不带着AI的,但实际上更多的讨论都是在人与人之间去无形中产生的。这块可能就是Agent跟很多人之间的网络效应。

嗯,但目前来看,这可能还是因为偏专业吧,没有大家想象中那种叫爆发式的网络效应。然后,如果你说就是像比如说 agent 之间社交的这个形态的话,那我觉得这可能不像是我们这种就做 consumer 市场的人所能看到,那可能更多是偏娱乐这个领域,就像我刚才讲那个,就是让 agent 代替人去社交,这可能也是一种网络效应的。

如果一个公司要做某一种 agent,他可能希望被 Manus 要用。嗯,你对他有什么建议?哦,我觉得这个东西其实你不需要为 Manus 做任何的优化,这是我们非常坚持一点。就是其实是这样,你看现在,呃,我们觉得做 agent 最大的难点是什么?我们可以反向来思考这个问题。嗯,是因为就像自动驾驶一样,自动驾驶是物理世界所有的基础设施是为人而设计的,而现在赛博世界。

所有的这些基础设施,包括网站、网页或者就各种App呀、API,都是为人而设计的。所以,Manas,我们想法是我们不能指望一夜间世界就为Agent做好了准备,嗯,而实际上我们应该去不断的让两侧相向而行。比如说最简单一点就是现在大家有了 M C P 这个概念,嗯,那实际上 M C P

也面临诸多的问题,比如说生态不成熟,很多就是开发者提供的 M C P 服务本身质量就参差不齐,嗯,且大部分的服务其实是没有 M C P 的。

所以 Manus 的选择是说,如果有 M C P,当然很好,我可以用 M C P。但是别忘了 Manus 是一个通用 agent,Manus 如果一个程序员能通过 A P I 的形式去调用一个服务的话,Manus 可以去自己学习这个 A P I 文档,然后自己通过 A P I 来使用。如果再不济,你这个你服务连API都没有,那你总是给人用了吧?

那你大概率有个网页。那Manas会再一次降级,通过浏览器去模拟人的方式去使用这个东西。嗯,所以我觉得对于第三方的Agent来说,你不用为Manas或者说未来的通用Agent做任何的适配,应该是我们去适配你们。Agent的网络可能会形成成什么样?Agent的网络,我觉得这个词很大,就是我知道OpenAI有一个它的L1到L5的那个图,嗯,但我觉得这可能也只是OpenAI的观点吧,可能不算是一个非常共识的一个事儿。

我们可能还是从更务实的一个角度去出发。我觉得就是如果你考虑Agent有更多的proactiveness,就是它的主动性的话,那Agent的网络可能会。形成就是相对于有一部分垂直 agent,它其实掌握一部分数据性的差异。嗯,比如说有些数据只能在某一个垂直 agent

那儿获取,那可能我觉得它的网络与其说是一个就是全联通的网络,更像是一个星形的,就是说星形的星形就 star star 对,就是说它有一个调度者,有点像你刚才说入口那个概念,它的利用不同的 agent。

嗯,对,但是呢,它可能难以形成一种完全互通的这种全联通的网络。嗯,所以通用 agent 会成为那个入口,我想是的。为什么会是这种结构?你觉得?因为就还是刚才那件那点,就是如果你做着垂直 agent,你在做一个工具;如果你在做一个通用 agent,你在模拟一个人。所以做垂直 agent 的应该是为像 Manus 这样的公司做,为 agent 做还是为人做?

啊,我刚讲这就是两条路嘛。嗯,就是如果你想做一个给专业人士,就刚刚讲的,就是你如果想做一个剪辑 agent,且为现有的剪辑师去做的话,那你应该做的非常垂非常专,这是给人用的。但如果你想做一个为非剪辑师但有剪辑需求的人做的产品,那你可以考虑做一个非常简单易用的界面,同时也暴露出足够多的API,然后我们一起把这个生态给这个给做好。

对不起,API或MCP。你说你坚信纯血派 agent,什么叫纯血派 agent 呀?对,就是 agent 这个词的定义,其实就是一个很含糊的一个事儿。嗯,我觉得大部分时候大家会把两个概念混在一起谈,一个叫做 agentic workflow,一个叫做 agent。这方面 Thorpek 有一个 blog 写的比较清晰。

就是说,很多人说 agent 要追求一个稳定性的话,那你可能更多的是在一个 workflow 的方式去做 agent。但在我们眼中,这个不叫 agent,这个就是 workflow。而我们认为什么叫纯血的 agent,就是说它其实没有人为加的约束,而是说完成一个任务的所有的过程和方式是由智能本身决定的。

这个我觉得它的天花板会非常非常的高。当然,你跟现在此刻来对比的话,可能 Agent Workflow 的可复现性会好一些。但是,我觉得这是一个可以解决的问题。所以,我们非常坚信,就是要做纯血的、由智能主导的 agent,而不是以规则主导的 agent 的 agent workflow。这才是更符合我们刚才讲的 the better lesson 的这一个一个事儿。

用通用的方法,投入更大的算力去解决问题,而不是加入更多的人为的知识。这个在你的实际工作中有做过这样的类似的选择吗?有的,有的,有的。这是我们每天都要讨论的一个事儿,就是可能比如舍弃过什么?呃,其实舍弃的东西非常多。我举一个比较简单的例子,就是说。你要让一个 agent

做数据可视化工作,对吧?那么比较简单的,比如产品驱动的纯产品驱动的做法,应该说好,那我要保证所有语言下的数据可视化的效果非常非常好。

你不能因为有不同的这个语言而产生,比如说有这个字体乱码这些问题。那这时候他可能把这块写成一个叫我们叫做 agent sub agent as tool,或者说你写很多的单独的 prompt,就说当你要这个,比如说数据可视化的时候,应该注意什么什么什什么东西,写一大堆的这个 guardrail。你每增加一条约束,其实你都在减小模型的 diversity,减少模型的一个一个多样性。

嗯,那这是我们的做法是什么呢?其实就刚才讲的,我们只不过是加入了一条查看图片的这个能力。而这样的话,我们期望的是什么?是智能能够通过自己查看这张图,自己发现说,哦,我原来有字体这个字体选择的错误,导致中文渲染失败,而去修改这张图。这样我其实解决的不是一个问题。比如说,它还能检查到,哦,不行,我这个画的这个图表,它其实有两个元素重叠了,那其实能够去修复它。

所以这样的话,你应该能变成一个从就是往就是打压子那种,就是在在堵所有的漏洞,变成一种你在让智能的泛化性在帮你解决更多你还未发现的一个问题。所以我觉得这是纯血派Agent的一个思维方式。当然,你做这种直接去修补这个事儿,永远很有吸引力的,而且这更符合传统软件工程和产品经理的职责。那这时候就是我要站出来的,他的职责就是拦住所有人,不要这么干。

你还说市场上关于A I的做法都是错的呀?展开讲讲啊?没没没没有,都是错的。像刚才我讲了一点,就是很多人,呃,过于执着于让A I的模仿就是人类的分工这件事儿。嗯,我是非常。不认同这一点,嗯,对我就说就是不要把人因为生而为人的限制搬给

agent,你应该站在模型的角度去思考问题,或者说我们在做产品的时候经常说一句话,就是如果你真的是在做一 agent,你同时在做两个产品,嗯,一个是给人用的,一个是给 agent 用的,而这两个东西的思维模式是不一样的,嗯,但你就需要一个很好的一个技术架构把两者融合在一起。

哎,给 agent 用会是什么样的呀?啊,对不起,给模型用的。呃,给模型用的会是什么样的?呃,就这么说吧,就是模型其实它的思维模式跟人是不一样的。嗯,或者说它根本就不是人。嗯,而人的话,你是因为你有一些先天的训练,所以说我是一个设计师,我更懂什么;我是一个程序员,我更懂什么。但讲真,大家用的模型现在其实都是一个。

通用的L M,那这块其实这一个假设就是错的,对吧?那其实你应该做的事情是减小他犯糊涂的概率,嗯。而这块的话,你的做法不应该是说我赋予你一个人格,你怎么怎么怎么样,嗯。而你应该是通过一些context engineering的技巧。比如说可约束解码、Action Space的设计,这这些技术来让它更好的去完成它自己分内的事儿,但又不让它丧失全能性。

这我说的可能有一点空泛,但是可以参考我之前发的各种文章。所以把Agent人格化是一种人的自恋。对,是的。这也是The Beat Lesson里面说的啊,是吗?嗯,《The Beat Lesson》里有这句话吗?好的,我赶紧去读一下这个。那我太同意了。你们的组织有发生过变化吗?Minus出来之后,呃,有的。

而且我觉得这个其实不仅不该说叫变化吧,就是我们也在探索一种新的可能性。嗯,因为其实在此之前也没有所谓真正的那种就是。就纯粹的A镇公司,然后我们觉得现在我们结构的话,可能有几个比较特色的点可以分享一下,就是呃,比如我们现在还是大部分人都是研发,但是团队的话会比以前的这种软件开发会更奇怪一点。嗯,当然你传统的就比如说移动端、前端都在,然后后端商业化这些都有,但是呢,我们会有两个很好玩的团队,一个团队叫做Sandbox

Team。

其实就是负责这个虚拟化跟这个运行环境的团队,嗯,他们要维护的是一套给 agent 使用的操作系统。这刚才讲的就是负责给 agent 做产品的一群人。然后另外还有一个我们就叫做 agent team,agent team 由这个就是所谓的这个 agent 工程师,他可能负责的就是说整个体系架构的开发。

然后还有一部分是 evaluation,就是评估团队,还有就是一个很小的 research team,这三部分人共同组成了一个 agent team,这个大概有这个十几二十个人。我觉得这个就是 agent team 与 sandbox team 可能是传统意义上来说可能会被融入,比如说广义的后端研发当中。

但我们后来发现它其实比较不一样,因为他在做的这个事情不是面向人的,是面向模型的一个工作。嗯,他们的工作主要会包括哪些我们意想不到的呀?嗯,意想不到的,我觉得。对我来说,当然都是意想得到的事情,但是我觉得有几点吧,就是好像 Sandbox 团队在做的事情更像是在教一个不会用电脑的人,嗯,如何更好的用电脑。

哦,对,而这个 Agent Team 在做的事情其实是说如何设计一套。稳健但统一的架构,让我们能够持续地跟上模型的进步。这个其实是很有意思的一个话题,就是因为模型进步的速度真的非常快。可能如果你考虑到不同厂家都在迭代,那基本是一个以周为更新的一个变化。那Agent Team它主要的工作既然是Agent的框架,那我们如何去保证能跟上的?

所以我们自己有一套比较好玩的方法论,我们叫做弱到强的衡量。嗯,这是什么意思呢?就是你其实整个Agent中,你有两个外部变量啊,对不起,不叫外部变量,就是有两个重要的变量影响你的质量,一个是模型,一个是Agent框架。那这块你要做消融对比,就是ablation study。那这块的做法是什么呢?因为模型的未来的变化。

我们要保证每一次模型迭代,我们的框架能够受益最多。那我们做法就是说,我们先把一个当前版本的 agent 框架进行锁死,然后呢,选一个同源的模型家族,比如说同样你都选择 Gemini 或者选择 Claude,你拿它的弱版本跟它强版本进行对比,跑同样的 benchmark,然后你不断调整你的 agent 框架,来让它之间的 delta 最大。

嗯,这样的话我们能够期望就是说,当下一代模型变强的时候,我的获得的增幅是最大的。这块就是我们的 agent team 跟 eval team 要经常关注的一个点。嗯,文化有变化吗?文化的话,我觉得有一些就是可能从 Monica 那款产品呢,它是一个非常大而全的一个产品。嗯,当然就是 Manis 很全,但它的做法不是说在单点击破。

之前可能更多是觉得用户有需求,我就要去做。我的做法是用一个最快的路径,点点到点最短那条路去实现。而 Manis 的做法,其实我们会有非常非常多的考虑,就是说你这样一条路你是能走通,但你有没有跟别的原子能力产生网络效应?所以现在我们做每一个新功能前都会非常非常的慎重,而是要保证说每新增的一个单点的能力又不是一个单点,这句话说得好绕,就是每增加的一个新能力都能让系统整体获得一个收益。

嗯,所以是一个非常的节制的一个状态,这跟以前心态很不同。你们放弃过什么feature没有?呃,放弃的feature我觉得非常多,比如说呃像。很多语音相关的事儿,我们其实都放弃了。为什么?呃,语音输入,当然我觉得很有很有用。但是比如说这种语音的输出或者主动就是调用一些东西,我们觉得首先这类东西不一定要由我们第一方来全部做完,因为我们跟大家不是竞争的关系。

比如说我自己,我会直接让Manus连接我的Granola跟Notion,我去使用。这没有问题。然后还有一些功能,就比如说像生图跟生视频,虽然我们有这功能,但我们也没有非常非常的大力的去优化它。嗯,因为我觉得这个东西是一定会做得很好的一个基建上的上面的事情。我们没有特别多差异性的时候,我们没必要非常深入的去做。

嗯,然后更多的这些事情,其实我们都是以一种非常开放的心态去做。就是如果这个通用agent靠自己的泛化能力就能解决的话,那我们没必要去专门去做这件事儿,因为我们很可能投入不够,去给用户做了一个自选。这个是不好的,因为别忘了我们的用户是最高价值、有最高要求的用户,他们值得最好的。为什么你一直在强调你们跟所有人都不是竞争关系?

因为我觉得这是事实,这就是我们做海外市场之后发现的很好玩的一点,就是他们可能因为之前SaaS领域做的实在是太成熟了,嗯,所以就是不同服务之间的互联互通,既是一个技术层面的事,其实也是一个你可以想涉及到branding的一个概念。就比如说我们经常会跟比如像Notion。跟 Microsoft 还有别的这些创业公司,我们一起做联合的一个发布。

因为很多时候都是一个,当我有一个能力,你有个能力的时候,当这条边连通的时候,它产生的价值是非常非常大的。而且, Microsoft 一个通用的 agent,我们一次是能串接多个服务。像我们刚才讲到的,我自己的使用场景是 Notion、Granola 和 Ashby 三个服务之间,Manus 把它们都串在了一起。

所以我觉得,与其跟每一个竞争,你去做一个比不过别人的东西,你为什么不让大家一起去做呢?这个我觉得就是我们获得了很大的一个从 Monica 学到的经验,就是如果你要做很多单独的

feature,做起来一时爽,但是你要维护它并保证这功能是长期有竞争力的,是很累很累的。那可能会导致你的团队无限膨胀。所以这是一个不好的一个事情,应该去充分利用这种别人做的好的东西,并产生一个 synergy,而不是去跟别人直接去硬碰硬。

你过去这大半年做的最重要的几个技术决策是什么呀?你作为首席科学家,嗯,我觉得有几个,第一个就是。我们没有盲目的去追 reasoning 这条路,嗯,对,就是刚才讲到的,就是其实你按现在比如朴素意意义上的 reasoning model,你会导致 insertion following 跟这个 local hallucination 的增加,对,所以这个是我们当时做的比较重要的一点。

我们用了一个比较另类的方法,就有一个单独的 planning stage 来做的这个事儿。然后还有一个比较大的一个点是,我们对于 MCP 的决策是非常保守的。这个其实 M C P 出来之后,整体业界都非常的嗨,然后很多人就开始去接。但实际上我们当时就觉得这个会严重污染你的 Action

Space,而且会导致你的这个缓存命中率,就是因为你每次你去动态发现工具和这个和卸载工具的时候,都会导致你这个缓存命中率下降,而缓存命中率下降会严重影响你的成本。

所以当时我们也是花了一些精力,我们去研究了一套就是不在原生 Action Space 内的 M C P 调用方法。嗯,这个后来当然也被 Anthropic 写成了博客。对,然后还有一些像。我们其实整体对context engineering是做了非常多的工作的,嗯,而且这块我基本全都给共享出来了。像比如说,对于文件系统的使用啊,什么这些东西,对我觉得就是一些连续的。

技术方面的决策吧,我觉得没有哪一个是最重要的一点。嗯,对,因为我觉得做AI agent其实跟训模型很像,就是你其实更重要的是做对一千件小事,而不是做对三个大事。啊嗯,你有后悔的决策吗?嗯,肯定也有。对,比如说,但我觉得后悔的可能都是更细微的一些事儿。嗯,就因为我们调整的非常快,所以很难形成真正后悔的东西。

对模型,就是在模型决策上,你有什么后悔的决策没有?哦,在用模型还是训模型?训模型是有一些,嗯,比如说一开始有点太盲训小模型,哦,对,其实参数量还是很重要。哦,还还会盲训小模型啊?对,因为当时其实有一点是这样的一个假设,就是说。呃,对,待会儿可以换一个方法来回答这个。我先说完这个吧,就是当时的想法是,agent其实能更高频的与外界进行数据和环境的反馈的获取。

嗯,那我们当时想,是不是有一种可能性,就是小模型跟大模型里头的一部分参数量都用在了参数化的记忆或者知识?那对于agent来说,是不是参数化知识没有那么重要?而如果你小模型有足够强的工具使用能力的话,知识是可以动态弥补的。但后来发现。怎么说呢?实验结果是不是的?但我们在反思为什么?也许是这样,就是你很难去完全分离什么是知识,什么是记忆,嗯,哪些是泛化能力,哪些是参数化的背板。

后来发现这是不现实去区分的,所以大参数量还是有用。我听过一种说法,就是说他们觉得 minus 只有你一个是研究员。或者说,你的研究工作是独立于所有人的。他们觉得这种研究员的配置和管理方式,或者组织方式,跟不上现在全球 frontier lab 的竞争。哦,我觉得这个问题首先它的一个基础假设是错的,不止我一个人。

对,我们是正常招 researcher 的。嗯,另外一点就是说,我觉得首先有一点是跟上所有 frontier lab 这件事儿是不成立的,就是我们的目标不是说要跟上所有 frontier lab 在模型方面的工作。我刚才一直在强调一点,就是说我们跟至少现阶段跟所有 frontier lab 还是一个共建的关系,或者用一个更公义的角度来说,是我们成功的把模型训练这件事儿外包了出去。

那么,这样其实就是用户给我们的钱,同时服务了用户,且让我们有影响力,让别人帮我们去模型。那我们内部research团队更关注的,其实是一些非共识性的东西。包括其实很多 context engineering 方面的工作是需要做大量实验的,这些东西不是一个怎么说就是纯靠工程能解决的事儿。你前段时间在做 online learning,这个有没有什么可以分享的?

啊,是的,就是首先 online learning 这个词它现在的解读有有狭义和广义的,嗯,就是现在狭义上的 online learning,大家可能会比较关注说到底能不能通过持续的改变参数而获得一些改变,这是一个呃严格上的定义。但实际上 online learning,我发现现在大家把三件事混在了一起。

第一种呢,可能就刚才讲的,这是狭义的 online learning。第二种应该是 mass personalization,叫大规模个性化。嗯。第三种其实不是 online 的 learning,而是更像我上一代创业做 Maggie 的时候,我们做那是应该叫 continuous learning 或者叫 lifelong learning。

这三件事解决问题是不一样的。比如说,你如果要做这个 mass personalization,就是大规模的个性化的话。其实你并不一定非要用一个参数化的方式去做,比如说你可以像我们刚才讲那种基于用户的协同的一些行为的模式,来,比如说甚至你以 prompt 的形式去动态注入一些东西,通过 in context learning 的方式让模型的行为发生改变,这样其实更高效的。

因为如果你为每个用户,即使你比如很小,像那个 multi lower

解决方案,其实你也让每一个用户有一个不可复用的参数在那里头。那么你的推理效率可能会变得更低。最近我看也有一些解决方案,什么Sora啊,什么那个Punica是吧,还是什么东西,我有点记不清了。比较老的几个工作,他们号称能够解决batch

size的这个问题,但实际上你的推理效率其实还是降低了的,因为很多时候你需要规模效应才能降低成本,才能降低latency。

所以我认为就是mass personalization,就是大规模个性化,你不一定要以online learning或者以参数化的形式去完成。这是第一点。第二点就是说,到底是要持续学习。还是说在线学习,这个我觉得是一个非常大的一个区别。这个更多是看你的目标是什么。如果你要建模的任务是一个理想分布随着时间而改变的情况,那你是要做持续学习的。

比如说,我很难想象哪些领域啊,可能像金融市场,也许是这样的,就是说今天的正确答案不一定是明天的正确答案。嗯,那我觉得你作为一个作为一个真正online的learning是很有价值的。但实际上,你看现在一些所谓的online learning的practice,其实我觉得它只能称为一个on policy的持续学习。

像比如说,呃,举例有一些呃 coding agent 的公司,他们的说,我能通过持续在线去收集用户的一些接受率和 rejection 接受和拒绝率,来优化一个比如说 tap 补全的准确率。但你看这一个任务其实并不会因为时间的改变而影响它的理想分布。嗯,那这样的话,我觉得你其实只是一个 on policy 的数据收集,并周期性的在优化你的模型。

这个更像我们之前就之前做 Maggie 时候做的这个事情,但你会发现,如果你的任务本身不具备这种动态性能,其实你很快会让这个 benchmark 去你去 saturate 它,你会打透这个 benchmark。所以它不是一个有持续提升空间的一个事情,对,所以我觉得这个东西还需要去持续去看吧。我没有看到一个非常值得我们在 agent 领域立即下注的的应用。

你觉得 agent 的模型应该怎么选?你觉得给这些模型厂商有什么建议?对,我觉得刚才已经提了几个了。第一个就是,与其充分的去无限的去扩展 context window,不如让模型学会这个 compression awareness。就刚才讲的就是让模型意识到自己的上下文可能会被压缩,并做出更好的一个选择,更好的了解文件系统该如何去 upload 和 retrieve。

这是第一点。第二点就是刚才讲的,是关于这个 reasoning 的优化的目标。不要以这个,比如说这种纯缸中之脑的形式去做,你应该去考虑到如何更好的去结合这个 observation,或者有个词叫 TIR,叫 tool integrated reasoning,就是有工具集成的推理。嗯,对,这个是一个非常重要的一个方向,它跟这种完全靠这个 RLVR 去解这个竞赛编程和数学是完全不一样的一个思路。

第三点其实可能跟 agent 的工况有关,就是在 chatbot 场景下,永远是用户跟模型交替执行。这样的话,就是用户跟 agent 应该是你等我,我等你,你等我,我等你。而 Manus 其实刚出来的时候,有一个让大家都觉得非常新奇的一个体验,就是说 agent 在持续工作的过程中,用户可以随时插嘴,要么是改变目标,要么是补充信息,甚至是去终结它。

这个其实很多模型还没有完全掌握这样的一个一个交互的一个模式,它可能跟用户是处于一个异步的一个一个空间中。对,这个也是我觉得非常值得去做的。第三呃第四点就是我觉得模型应该更关注一些 error resilience,就是说对于错误的处理和恢复能力。对这个东西我知道,在 agent agent coding 领域其实已经有了一些呃更多的关注吧。

因为其实如果你把 agent 部署在真实环境中,就是错误其实是一个常态。因为可能来自于比如说环境的报错,比如说系统一定会有问题,资源受限,或者你写这个代码会报错。但实际上有很多是非代码性的错误,就比如说你在做一个 slides 或者在做一个批量的这个文件处理的过程中,一定会遇见很多意料之外的事情发生。

嗯,而你发现有一些模型,它可能要么会放弃掉。要么他可能会甚至陷入一种类似于死循环的一个状态,但最好的模型应该是他永远能找到一条别的路去尝试。这个是需要专门去训练的一个事儿。目前我比较想强调的就是这几点。嗯,你的微信为什么一直叫微信小助手?我觉得就是一个娱乐精神,而且很早的时候就叫了这个名字。当时就想看一看,就是有哪些跟微信官方很像,但是却仍然能被使用的ID。

最早想叫文件传输助手,但是意料之中的不能用。然后来,当时因为微博的那个官方号叫微博小秘书,所以我就试试叫微信小秘书。然后后来,腾讯也果然禁止别人再叫这个名了。然后,那我觉得很好,我就保留了嘛。这次创业跟你之前两次有什么不一样的地方?我觉得首先现在创业的成本比比以前还是要高不少的。高多少啊?直观感觉?

呃,因为之前刚才讲的就是,你如果做移动互联网的话,其实你的边际成本很低。嗯,但现在的话,其实上来就是挺重资产的一个投入。比如从 Manus 上线第一天起,那基本就是几十万美金、几十万美金在烧,对,所以这是第一点。然后第二点就是,我觉得这是一次让我们充分的参与全球竞争的一次创业。然后我们甚至经常内部开玩笑说,就是有一种从CBA打到了NBA的感觉。

嗯,然后确实就感觉可能我们之前哪怕在做Moneyhead的阶段,经常会觉得好像我们做的还不错了。然后到现在的话,虽然我们经常说Man的现在可能已经一百个million ARR了,但是如果你在横向看同样的这些各行各业的头部选手的话,我们好像又不算什么,就可能这就是一个NBA的平均水平。所以就觉得还是在学习中。

过去一年对Red有什么新的认识吗?对Red的新的人,对小红啊,我觉得是比较符合预期的。就刚才讲到,就是情绪依然很稳定。当然,我觉得可能更多了解,就是我觉得,呃,即使像他这样,就是可能比我经验更丰富的连续创业者,其实,在很多时候还是。依然会有很多人性的这个脆弱,嗯,对,就比如说我们经常讲,好像我们不在意或者怎么样,但其实有时候听到一些东西,大家心里还是觉得挺挺尖锐的。

然后小红可能呃比我没有我那么没心没肺,对,就是她很多时候还是比较容易受到这些事的影响,她会不开心对吧?她会不开心,甚至就是就很着急嘛。对,我觉得这也就是团队在一起的好处,就我们可以这个互相分担一下痛苦。虽然小红经常说一句话,就是说接下来一段时间我可能很抑郁,你们不用帮我,但是谁会真的就就放他不管的嘛?

对吧?哦,他反正情绪不稳定是吧?或者不是不稳定吧?就是他的情绪是稳定的,但他很容易就是低落,对他不会那种就很很很很忽然怎样,他没有那我刚刚讲那个就是艺术家那个问题,对,但是他也是比较容易受伤的一个,更感性一点。对,是的。其他团队其他几个成员呢?呃,我觉得你们之间之间是什么样的协作关系啊?啊,我觉得是这样,就是大家其实,在共同的话题上讨论能非常多,因为刚刚讲的就是每个人其实都有很综合的经验,嗯。

但实际上现在的话,大家因为术业有专攻嘛,比如说跟涛哥的合作就会非常有意思,就是涛哥其实真的现在是我们觉得是他的出差圣体。就是经常要去这个全世界各地去参加一些,比如跟合作伙伴的活动啊这些东西。所以涛哥更多是给我们带回一些比较新的方向性的内容。我觉得这其实可能是做CPU这个角色的最高境界。嗯,就是他其实是不仅是一个对内的产品的指导,嗯,更多的其实是一个对。

对整体行业有产品洞察的输出,并带回了来自交叉的观点,嗯,来带带回了交叉观点,回到给我们。所以其实涛哥很多时候给我们的是一些非常宏观的一些一些建议,但是很快都能落下去。比如刚才讲的 wide research,也是涛哥在飞机上,就是他综合了很多不同的想法之后,我们一起讨论出来的。对,然后像更多的像这个,比如就 marketing 这边呢,我们可能觉得我们正在有一个比较大的思想的转变。

之前或者过去一年中,我们经常觉得 Manas 是一个 Manas 的增长,是我们叫内部开玩笑,踩着西瓜皮。就是其实我们几乎就没有什么定向的增长的动作,这可能也是我们刚才讲的,就是让用户自发选择的一个负面作用。就说我们从没有引导过,或者说我们想获取哪一类的用户。完全就是什么用户用我们就服务他们。那实际上,如果你从一个获客和增长的角度来看的话,这样好像不是非常的主动,或者说不是非常的可控。

所以我们觉得就是我们接下来有一个转变,就是可能更多由产品驱动采西瓜皮,变成一个我们服务我们的增长去做很多的功能性质的东西。嗯,这是一个比较大的一个变化。对。然后像,呃,内部运营的话,我觉得这一直都是贯穿始终的,没有什么跟大别的公司有特别不一样的点吧。嗯,产品和模型谁的话语权更大?产品和技术在你们公司啊?

产品跟技术,我觉得是这样,就是我们首先明白技术是要服务于产品的,嗯,但是技术基本对很多事儿是有一票的否决权。比如说,就是刚才讲到,比如说产品可能会有一些非常诱人的快操猛的做法,像刚才讲到的,就是一些事情,你是否要放弃纯选A帧这个想法,而采用一种比较快速的这种fix?啊,那这种情况,无论是我还是技术,都会站出来直接阻止这件事发生。

那你们大概是产品两票,就是Red和张涛,然后你和潘潘是技术两票。啊,不,我们非常反对投票这个概念,因为我觉得投票这件事其实是在异化团队。就是因为如果有不同的观点的话,那大家可能会为自己的观点去服务。你应该看的是目标,而不是就是投票的一个手段。嗯,大家如果目标是一致的话,那你一定能去达成一个共识,但不是通过就是明确的去站队去投票。

所以我们几乎不会搞投票这个事。你们就是讨论,对谁会更强势一些呢?呃,其实讨论的过程中没有人强势,但我们会期待Red来做一个最终的一个拍板。对,所以讨论的价值,我觉得不是说讨论出一个结果,而是说更多的人提供出更多的方案。就我刚才讲那

alternatives,就是一件事儿。其实如果目标是确定的话,你有越多的可选方案越好,不一定是就是你要想半天想出一个最高质量的,要不然的话你供给大家做决策的选项都不够多。

现在这个公司是一百人,之前两公司的团队大概规模多大?啊,我以前带过最大的团队也就十个人左右。第二家公司是十个人,是的。你觉得,嗯,AI时代的公司的组织方式和协作方式发生变化,就是组织,嗯,组织有没有变化?我觉得组织的话变化其实可能没有大家想象中那么大,嗯,但反而组织中多了很多的AI。这其实也是我们比较在主动引导的一件事,就是像我们公司有一个呃很优厚的一个条件,就是说如果你使用任何AI产品,不只是Manuso,比如说你使用别的第三方那些产品,我们都尽量全都报销。

我们非常鼓励就是程序员,比如用各种 coding 的 agent。然后对于非程序员的话,你有各种能提效的工具,你都全都可以使用。因为我们觉得作为一家 AI 公司,你首先得让员工去了解现在到底发生了什么,业界的前沿是什么东西。所以我们觉得,与其说是整体的就组织结构变化,不是发现更多的人可能让他自己有了两倍、十倍的生产力的提升,但他并没有还没有到一种就是 AI 能够替代哪些岗位的。

一个状态,你是不是不喜欢管人啊?我非常不喜欢管人,我一开始就说了这一点,我得管人很痛苦。你为什么不喜欢管人?就是人的这个复杂度比AI还要高。而且就是人的复杂度其实是怎么说呢?会随着人数增加还是指数级增长的一个复杂网络,嗯。但其实程序你写得好的话,你有足够好的这个设计模式的话,整体的复杂性的增长是可控的。

我觉得你性格很开朗,你为什么不喜欢管人?因为你除了觉得人复杂,还有什么原因吗?我觉得就是它是很占用我的带宽的,嗯,因为我觉得就是我的体力其实挺差的,啊,没看出来,我只是跟你聊的时候能聊的比较多,但其实我体力是挺差。就是如果我一天我把更多的时间花在了就是管人或者说广义的非技术层面的事儿的话。我每天我的有效的输出就会变得少很多,嗯,而现在的话就是我认清了一件事儿,就是与其去弥补自己或者去补强自己哪方面的能力,不如把这方面能力外包出去,嗯嗯,还是自己做最擅长的自己是的,是的,是的,要不然不值得呀,嗯,你觉得AI时代能帮助人更好的做?

做人吗?啊,我觉得一定是可以的。嗯,就是如果用一个最极端的想法来讲,就是我们不喜欢的事都被AI所取代的话,那剩下的东西其实就是人自己嘛。嗯,对吧?就是很多时候大家对AI的恐惧有点像,比如说当年纺织机被发明出来之后,他们会担心说啊,如果有那么多纺织机,那纺织女工是不是都要下岗了?但实际上确实是。很多人不再做纺织女工,但他们获得了全新的工作和全新的生活,嗯,对吧?

甚至你也解放了很多东西。我觉得现在就是大家对AI的这种恐惧和人的取代的核心恐惧在于你AI用的不够多。我觉得就是像以前,比如有了汽车,你能去更远的地方。在十年前,你可能要学会用电脑才能找到更好的工作。现在我觉得就是学会跟AI共处之后,其实没有那么多的恐惧,反而是给你解放了更多人的一面。你对于十年后的 agent 或者 AI 的世界有什么想象?

我不敢想象,因为我觉得我们的视野只能有三个月的视野。三个月后呢?呃,三个月后,我觉得就是首先就是大家在 proactiveness 这件事上会有很大的一个一个进展。嗯,就是头一次可能让嗯人跟 AI 交互的时长变短,但是产出价值变高。第二呢?嗯。第二的话,我觉得应该还能看见一次较大的成本降低,这可能像 Cloud Opus 4.5 已经给大家一点曙光。

你怎么看现在的大模型产品的 SOTA 的排名一直在变?啊,我觉得这个是一个比较意料之外的一个事情。嗯,就是因为国内或者说开源的,我们先不说吧,就说像国外这个头三名,就是 OpenAI、 Anthropic 跟跟

Gemini,他们其实之间,我一开始的预期是可能有人会掉队。因为当时我是用一种比较朴素的思想在想,就是到底谁掌握硬件或者谁掌握 scaling,但目前来看,可能就是因为大家还是在一个比较比较分化、比较 diverse

的方向在努力,但是实际上你的这个排名最后衡量的其实是一个综合的一个体验,所以如果你仔细看的话,他们可能其实是通过一些长板来拉出了一个平均值较高。

对,所以我觉得这个是确实跟想象中不太一样,但是这个事儿这么看来,可能也会再持续一段时间。你觉得模型的竞争什么时候可以看到终点?我没有终点,模型竞争没有终点。这是为什么我不做模型?哦,对,产品的竞争有终点,产品的竞争也是没有终点。什么时候会有一个相对的稳态?嗯,移动互联网可能到什么时候稳态是当真正已经。

用户的时间被瓜分完了之后,出现了移动互联网的稳态,嗯,可以这么说吗?好像是,嗯,对,但是我觉得现在。AI的有限资源是什么?AI目前至少我们努力的方向是不占用用户的时间,而为用户创造价值。所以这一个约束条件消失了,那是不是会达到稳态呢?那是因为你们做的相对还是嗯帮人提效的,还是工具类的产品,对吧?当然,你不想说你是个工具。

不,或者说不是因为是工具类,而是因为Nexus或者说Agent,它其实是在减少与用户。嗯,直接交互的时间,但在持续后台创造价值。嗯,所以就说人的跟产品交互的时长不是一个有限的约束条件。像之前,比如移动互联网时代,无论你做哪一个类型的产品,你都绕不过你本质上在跟抖音竞争。因为抖音吃了很多用户的时长,嗯,但现在我觉得 AI 是不一样的。

那 AI 时代肯定会出现 AI 时代的抖音,就 AI 时代让大家更好的娱乐产品。啊,对,但是我就说,你娱乐时间你可以多花在这个AI domain上,没有问题。嗯,但实际上,因为你能调度很多异步的agent,嗯,大家都在跟你不交互的前提下给你提供价值,你也会为它付费。所以我就说,它不会因为用户的总注意力时长而产生一个瓶颈,导致稳态。

所以我现在还没有想出来,就是AI时代到底什么是产生稳态的那一个。约束条件,嗯,你觉得今天在这个AI的浪潮的哪哪个时间段嘞?嗯,特别像你过去创业哪个时间点?我觉得有点像,二零一八年。二零一八年,嗯,就是因为你刚才的一个约束条件说更像我上次创AI创业的时候的哪个阶段?就是现在大家可能看到了像当年Transformer出来之后的那一阵疯狂,然后BERT给大家带来了第一批应用的落地,嗯,但实际上现在也暴露出了当前范式的一些,嗯,你不能说增长乏力吧,就Scaling肯定还是有用的,但是大家一直在期待一个下一次的阶跃性的变化。

但是,二零一九年的 GPT 三可能是我心中的那一个节约的一个点。你的 scaling loss 停止了吗?我觉得没有停止,因为 scaling loss 你要看狭义的 scaling loss,其实不是大家想的那么复杂。你关注的只只是 loss 曲线,对,我觉得这个东西肯定还是能降的。嗯,广义的呢?

广义的,大家就是经常觉得说,我固定就是比如投入多大的算力,算力基本等于你这个模型参数乘以一个 token 训练的 token 量嘛,大家就期待说我加多少倍之后能解锁多少新的场景。这个东西我觉得是很难保证的,因为你不一定就说你模型在翻多少倍之后,就以前没被发现的能力就涌现出来。但实际上现在我们觉得,即使模型的能力没有解锁全新的使用场景,现有很多的场景你的质量其实也是不够的。

嗯,但是其实对于用户来说,质量往往可能更重要。这样的话,你做产品的团队能把这事进一步进一步去深挖。所以就是 Agent,我觉得当前很大的问题不是说有哪些需求没被满足,是它的完成质量还需要提升。嗯,这个靠scaling已经一定是有用的。那明年A晋会爆发?A晋已经爆发了,已经爆对,已经爆发了。A晋已经爆发了,只不过就是我觉得大家可能没看到那种就是理想象中那种就是一片勃勃生机,就很多冒出很多东西。

为什么呢?我觉得就是A晋现在处于的一个状态是我刚才讲的,就是场景大家都在挖,但其实每一个场景可能都还差一口质量的,就差一口气,这一口气可能是质量决定的,是完成度决定。是模型能力决定的吗?呃,我觉得很多方面,既有模型能力,也有你这个环境的适配,你的 context 如何获取,以及整个这个东西是需要一个。

就是整个 ecosystem 去共同去进步的。像我刚才讲的,你在使用 agent 过程中,很多时候是一些人为的制约。嗯,比如说你被 call for ID,就是那个人机验证给拦住了,或者说有些网站它就是不想让这个 agent 来访问。嗯,所以这块是需要很多的一些非技术的场外因素去合作。对,但是这块目前也看见很多很积极的进展。

像比如我们最近跟 Stripe 就在做 agent 的支付。对,这些东西如果能有支付在其中的话,其实很多东西会变得更顺畅一点。所以,二零二六年A证呢会进一步爆发。呃,我觉得一定是的。这个在你眼里的A证公司,除了你们,还有谁做的比较好?我觉得做A证的公司非常多,像比如说,你如果看垂域的话,像Sierra、Lagora。

然后 coding 那就更多了嘛。coding 我觉得目前几家像 Replyd,然后包括 Loveable Cloud Code,我觉得 coding 领域真是强者如林,但还有这个 Condition,他们都很强。然后更多的,我觉得C端的Agent目前看见它不够多,因为真正目前做C端的Agent可能还都跟我们一样是做提效的,而提效大部分还是垂直的。

对,所以刚才只是举几个例子吧。二零二六年的Agent市场会有什么变化吗?更多C端呢?我觉得不一定更多C端的吧,我觉得应该是渗透到更大的人群。嗯,对,就是目前来说,Agent还是一个怎么说呢?对很多用户来说,也许还是一个password,还没有那么多人真正用起来。嗯,但目前,比如说Manus一点五之后,我们收了很多用户的反馈,我让我觉得最开心的一个,就是说他觉得这个版本越过了生产力工具这条门槛,就是因为之前大家会觉得agent是帮我提效,但是它不是我的主要生产要素。

但现在很多一些很多用户真的就在拿Manus一点五来作为他的。工作的主力应用来帮他产生收入,这我觉得就是形成一个更健康的一个一个一个飞轮。接下来我觉得会有更多的应用迈过这条坎儿。我刚刚听你讲,我觉得非常的乐观。你心里的隐忧是什么呀?对于Minus,我觉得我心里对Minus最大的隐忧其实是失去特色,这是最大的一点。

嗯,但是呢,这是从外看,而从内看的话,我其实最害怕的是Minus变得复杂。这个其实是怎么说呢?是一种要克服很强的吸引力的一件事儿,因为你在产品增长的过程中有一个很便捷的方式是做更多的功能,但是我还是就刚才很相信 GitHub 那句话,就是你每增加的一个东西都在稀释所有别的东西。嗯,所以我希望 Madness 能一直保持这样一个克制走下去。

但是呢,你又不能因为保持克制而影响了持续的增长,所以我觉得对对外和对内最大的隐忧就是这两点。你觉得Manus会死于竞争吗?死于和大厂的竞争?我觉得不会,或者说其实死于竞争的时候,你其实产品已经到了一种非常。非常好的状态,像大家比如经常说,我担心Cursor会不会怎么样?我担心Lagora,呃,对不起,我担心这个Winzer会不会断供?

拜托,你能考虑被断供是你产品,你是一个非常非常好的一个状态了。对,所以我觉得Manus更大的可能性不是因为竞争而输掉,而是因为。啊,但是你也可以说是竞争吧,就是你当你失去了独有的价值之后,用户啊,这好像也算是竞争哈,嗯嗯,那那我回答是对,那那就有可能因为竞争而而死掉。你怎么看呢?在海外那几家模型厂?

哦,你说那个 OpenAI Anthropic,OK,我觉得,呃,其实也不止这几家了。像 OpenAI 的话,我刚才已经 comment 的比较多,就是很尊重他们这 bonafide 的文化。但是接下来他们也是产品会很很很重的一部分,那就不知道他们能如何去调节这两方面吧。就是大家他们也知道,就买模型乐透这件事是不靠谱的,但是那你又如何尊重就是一个 researcher 的研究自由?

对,所以我觉得这是他们要搞清楚的一个点。当然,也许他们可能就会分化成两个完全目标不同的公司,也是有可能的。嗯,Anthropic,我觉得它接下来,它最近不是刚拿了两笔很大的融资吗?我觉得他们可能接下来需要多在算力方面有一些投入,因为这几家目前他们可能在这方面建设稍微落后一点。嗯,对。但另一方面,他们可能在开发者的呃社区中的一个影响力是非常非常强的,因为你会看到,其实包括MCP还有Cloud

Scale这些事儿都是Anthropic在。

带节奏,所以它其实是有一个开发者社区内的根基的,所以它能这样以这种形式去做一些怎么说呢?它独有的事情,而且我觉得它的优化目标跟Open也很不一样。Anthropic它其实我觉得它关注点叫做高经济价值任务,其实跟Manas的这个关注点比较相像,就到底哪些东西能够产生足够的经济价值,它就去优化什么,而不是以一个比如说我要加强这个reasoning这样的一个一个比较这个research

topic去去作为引导,这是Anthropic的特点。

然后Gemini的话,我觉得它现在是一个非常好的一个状态。一方面就是他们在pretraining方面不知道解决了什么问题,让大家看见很大希望。Gemini三我觉得最大的一个给大家带来的正向信号就是是呃强有力的证明了pretraining还是可以继续的。然后另外一点就是他们在多模态和数据方面的积累,这是Google本身就非常非常强的一点。

而且,Google的话,它除了自己的这个模型方面的话,它其实自己的这个索引,就包括那个Google搜索引擎,这是他们跟别人相比持久的一个一个差异。这个东西别人是难以通过技术去追上来的。所以我觉得 Google 可能在信息方面和多模多模态方面会持续的领先,然后 XAI 的话,我觉得它是另外一个很好玩的一个状态。

我觉得伊朗他已经十足的意识到 ChatGPT 这场战争已经结束了,嗯,他可能更赌的一个东西是 Pixel in Pixel out。他觉得现在我们看见的所有的软件或者是文本,你其实都是以像素的形式呈现在用户眼前的。那么他应该按他的第一性原理思考,他应该是直接去。生成一切,它不仅是这个

generative AI,它认为就是一切我们所看到的东西,任何模态都应该统一成 pixel in pixel out。

当然,也许会有这个音频之类的东西。而且,xAI 可能在 infra 方方面的投入也是非常有特色的。对他们会非常相信,就是自己要把这个 infra 做出一套比较有差异化的方案来。嗯,对。然后 Meta 的话,我觉得最近杨乐坤走了,也许是个积极信号。嗯,对。他们可能会投入到一些更朴素且,呃,有快速成效的工作中来。

你怎么看杨乐坤?杨坤当然,这业界态度我是值得尊敬的。但我觉得就是他在一家商业机构内做这样的一个角色,自有其痛苦之处。对,然后我觉得他能找到一个他的自由的空间去做去挺好的,但同时也给Meta解放了很多的思想负担。嗯,你怎么看田运动?呃,田云栋,我觉得他首先他之前的研究方向,我觉得非常有意思,就是 latent reasoning。

latent reasoning 这个东西,他那篇 paper 我已经叫 coconut。我觉得它解决了一个非常本质的一个问题,就是现在大家很多人在做 LVR 吗?但 LVR 我记得最近应该是上交和清华吧,一个团队最近一篇工作讲到,就是 LVR 其实本质上来说是增加模型在 pass one 下的稳定性,就是说你可以通过 LVR 的方式让模型在一次推理过程中达到正确答案的概率更高。

但实际上,你模型本身能否解答一个问题,还是在于其基座本身的质量。就比如说,你让一个非 reasoning 模型,对不起,非经过 LVR 的模型。通过多次采样的话,其实你大概率那条正确的轨迹是能够被采样出来的。那这其实暴露了一个问题,就是你通过 L V R

这种方式去做的话,其实你只是在用一个。接近于搜索的方式去解决这个问题,但由于你是在文本空间的 token space 去进行这个采样,那去去去进行 reasoning,但你这个过程就就已经有了 sampling 这一步,就是你基于 logits 之后你要进行一次随机采样,预测一个

token,然后再继续走下去。

但是呢,田洞的一个研究方向就是 latent reasoning,我觉得这个是非常好的,因为你没有进行这一次 sample,其实你可以某种意义上来说叫没有塌缩,你其实可以在一个近乎于平行的维度内去同时考虑多种可能性。然后这样呢?我相信它的 reasoning 效率是更高的。就虽然现在 L V R

你可能能做到,就是说我 pass at one 消耗的总的能源或者总的成本小于我让基座模型进行 pass at sixty four,但实际上你在用户视角下的 latency 还是高了很多。

而这个就像这个 latent reasoning 的话,我觉得能解决这一个问题,而且它其实一定程度上实现就 long to short 的泛化。所以我觉得田源总的这个方向很好。他之前有很多工作,我都觉得非常有意思。像我记得那个 attention think。他们 streaming LM 对不?那篇 paper 也是 Yuan Dong 做的,我觉得很有意思。

我不知道他接下来会做什么,很期待。他和杨乐坤是一一个研究 bet 吗?他们研究到底有什么不一样没有?我觉得不一样。我觉得田云峰的研究方向更加务实。哦,对,不不不敢妄议,不敢妄议。你觉得 Meta 为什么在这波 AI,他他有很好的人,为什么在这波 AI 里做的不好?嗯,比较落后。这个问题我觉得太大了吧?

这其实中间还涉及很多人事上的事儿,包括其实 Llama,你知道团队已经换了好几波人了。嗯,对,所以我觉得。有很多场外因素吧。OpenAI的人才流失,你觉得会对Open有影响吗?我觉得会有一些吧,包括像ChatGPT Agent,他们现在可能我听说接下来可能会看一看To B方向的机会。同时,我记得ChatGPT Agent团队也走了几位主心骨。

对,但是我觉得ChatGPT这家,呃,对不起,OpenAI这家公司,我觉得它只要这个“whatever”这个创新文化还在的话,我觉得仍然是最有可能诞生新范式的公司之一。嗯嗯,它会成为新的社交网络替代Meta吗?我觉得这个比较难吧,这个当然说不准,因为这个产品大家都在探索。你怎么看 Thinking Machine Labs 还有依链那家公司?

呃,依链那家公司我觉得目前太神秘了,我不敢说什么。就是 Thinking Machine Labs 的话,这个我最近也刚用上他们那个 Tinker

API,嗯,我觉得这个挺有意思。我我不确定这是不是它最后的一个产品啊,但我觉得他们那个抽象层级其实非常好。像比如之前有一些像那个就第三方的服务,包括一些模型厂商会提供这种类似那个RFT或者SFT的那个接口,但实际上你对一个researcher来说,它的约束有点太多了。

而这个Thinking Machine Labs,我记得它的Tinker应该就是抽象为了。四组关键A P I吧,然后它基本上很多你自己需要做的实验其实都能搞定。嗯,对。当然,我觉得 Think A P I 目前有个问题就是,我觉得它成本有点高,就是你可能自己搭那个床可能还稍微便宜点。但是我觉得随着他们逐渐优化,应该会好起来。

它可能会非常呃适合这种就是中小规模研究团队去用的一个产品。嗯,同时他们也比较仰仗的一点就是开源模型能持续进步。嗯,对这方面我觉得千万团队做的就非常好,因为就是对于做研究来说有同源。同家族模型或叫同源模型的不同参数版本是非常重要的,这方面千问提供的光谱一直是最全的。嗯,所以我觉得就是,嗯,DeepChem的成败主要看千问。

你怎么看Mira?啊,Mira Murati吗?嗯,呃,我没有跟他直接交流过,但是从都认识人的口中对他评价都非常非常高。嗯,明显他的号召力也很好。嗯,你对于这些硅谷的呃AI的各个舰队的一把手,在你内心有没有他强弱的一个排名?其实这几个舰队真正的一把手,我觉得他们性质非常不一样。嗯,像可能真正的技术一把手只有地脉,对吧?

像Dario当然也是,嗯,如果你让我从纯粹的狭义的技术角度来说,我肯定觉得Demian Davis应该是是不是我最佩服的一位?嗯,第二有没有?第二位的话,嗯,哦,当然Ilya也是同样优秀了,但是大家可能都在期待Ilya交出的新作业是什么?嗯,对,剩下一些我觉得他们都是更复合的人才,你难以用单一维度去评价。

嗯,国内呢?嗯,国内的话。我想想,国内现在还在牌桌上的,嗯,哎呀,这话说的得罪人,就是国内的话。国内就不平了吧,容易挨打。前段时间杨志玲和姚舜宇都来过我博客,他们的观点你有什么认同和不认同的?呃,首先舜宇的观点我一般都比较认同,尤其他有那句暴论,叫那个以前都是小公司超大厂,现在是大厂超小公司,互相超。

对,虽然我觉得前半句本来也不一定是这样,本来就互相超,但最近确实大公司超小厂的事儿更多了。嗯,对。然后那个还有就是他之前那个舜宇那个文章写这个下半场这个事儿嘛。我觉得下半场这个概念很好,现在感觉很多人都在沿用这个概念。我觉得他这个观察我都非常同意。然后,呃,杨志林那个我也听完了啊,我觉得杨志林他有一个很简短的观点,我是非常同意的,就是。

在这个登山的过程中,只要问题能够被定义,问题一定能解决。这个其实也是我们很多时候做任何事儿的信心的一个根本的来源。对,不认同的呢?嗯,不认同的。我觉得舜宇那期所有观点我全都认同,嗯。然后杨世林那期的话,我觉得其实我觉得他的观点也比较保守,所以没有什么特别明显的。当然有一点啊,我觉得他提到一嘴是说那个如果不训模型的话,做Agent是逆向工程,对这点我是完全不同意的,嗯,对,因为对我们来说不仅不是逆向工程,反而是在给别人带节奏,对。

他是垂直整合吗?你们是逆向工程吗?他们是他们是整合对他的观点是,哎,他们整合进模型里。嗯嗯。哦,我觉得这个东西其实,如果你从一个严格定义来说,你是无法整合进模型的,因为模型无法嵌入外层环境。你怎么看世界模型?呃,不敢评论,不懂,不懂,对,不懂,哦,对,你们多模态做怎么样?呃,多模态的话,其实是这样,就是多模态我们更在意的是多模态的输入,而不是多模态的输出。

嗯,多模态输入的话,其实作为 agent 场景下,其实有一个很重要的观察,就是现在其实很多开源的多模态模型,你如果是简单的就 interleave 图文输入的话。其实大家处理都比较好像VQA任务这些东西,但实际上你在Agent场景中有一类情况是多模态输入作为Tool的Result。我举个例子,比如说你让浏览器看一个页面,那你可能会把浏览器的截图返回。

或者你让用于工具去读一图片,你图片是以 two result 去返回这个东西,其实在训练的过程中,我觉得可能目前的重视程度还不够,嗯,这块的质量是有些下降的,嗯,你还买英伟达吗?目前没有了,目前没有了,对,目前不炒股了。你那年见老黄,他跟你说什么了?哦,我问了他一个灵魂问题,我就说接下来一年你觉得什么事会让你感到意外?

老黄说什么事都不会意外。对,所以我觉得这其实就有点像杨志林之前说的那个,就是只要问题存在,问题一定能解决。我觉得这个就是整体AI圈的乐观观点的代表。最近有很多人开始讨论AI bubble,你怎么看?啊,我觉得AI bubble一定是客观存在的,但不是说因为AI是bubble,所以这波AI就没用。我觉得就是你是会有一些,比如过度建设啊,或者怎么样这个东西,但我觉得这都是在可接受的范围内。

嗯,我们人类历史上干的比这个疯狂的事儿多得多。你对Minus最乐观的预期和最悲观的预期都是分别是什么?我觉得悲观预期就是下个月死掉嘛,这个是所有创业公司一样的悲观预期。就是我刚才说的,我们没有权利活着,我们是在努力的获得一个活着的权利。嗯,而最好的一个预期就是我们希望让所有的。有高价值工作的白领,都能获得一个七乘二十四小时不断推理的AI伙伴。

如果Manus下个月死了,你会去干嘛?我会歇一会儿,太累了。你现在工作时长是多长时间?我现在每天大概十点半到公司,晚上干到几点就完全看情况了。比如说几点?一般来说,一般来说,我们大家基本办公室人,大家都会待到大概十点半往后。其实这也是为什么我们选了一个在一家帽里头的一个 WeWork。啊,对,因为在帽里头空调会一直开到十点。

哦,十点以后还没有,还还没有空调了。对,十点以后没有空调,所以大家待多久主要看在没空调情况下能待多久。为什么选 WeWork 在那边办公室?因为就是我们觉得团队在在不断的扩大这个过程中,如果提前选死一个办公室,它一方面前期投入比较大,且不灵活嘛。WeWork 就像云计算一样,可以动态扩容。新加坡的生活怎么样?

便利吗?新加坡我觉得便利度其实还是挺好的。它其实跟国内,我觉得是,呃,中国团队在新加坡可以非常快的适应,没有一个非常本质的一个区别。是不是有点无聊啊?对,而且我认为这对创业公司来说是一个很大的加分项。嗯,哎,你建议公司第一天去新加坡吗?呃,我觉得这个东西其实看你的目标用户是什么。嗯,就是我们去新加坡的原因其实也讲过,就是有两点。

第一个前提就是我们团队其实可能因为管理能管理能力比较差,我们之前在国内,比如北京跟武汉两地的时候,我们都会觉得沟通成本很高。那我们首先有一个希望是大家能在一个地方办公。那另外一方面就是,我们既然要服务全球市场,我们其实要做很多的这个这个就 compliance,就是呃合规方面的工作。比如说现像现在 medicine 是 SOC 2 的 Type Type 二,然后 ISO 二七七零幺、二七零零幺。

还有像GDPR全都是我们全都通过了,那这块你就需要就是你既然服务哪个市场,你要需要选择一个合适的呃的总部,所以我觉得这都是一个很正常的一个选择吧。嗯,对于如果你要做全球市场的话,你可以早点考虑这个问题。那如果你是主要做国内市场,那肯定。你怎么看别人说你们跑路了?我觉得跑路这个词就不对,因为我们其实一直就有新加坡这个实体,所以就是而且我们一直就做的是一个全球的一个市场,所以你既然你的客户在哪,你要去哪。

就好比像Team Umizoomi,他们也没有国内的业务,嗯,这个是中国出海企业大家都会做的一件事儿,只不过可能因为我不是AI公司,大家可能获得了一些额外的关注。最后几个快问快答,好,一个全球范围内你喜欢的食物,Mac and Cheese,垃圾食品。一个全球范围内你喜欢的地点,北京。一个少有人知道但必须知道的知识点,可以是一个冷知识。

呃,海带不是动物。这谁不知道?啊,我周围人都不知道,难道你知道我是第一个知道的吗?因为我海鲜过敏,我经常要跟大家解释海带不是动物。基于所有读过的书,推荐两本必读书。我其实平时读书特别少,我现在读线条小狗的画册。你心目中影响AI进程的几篇论文?第一个讲的就我刚才说那个。我是去外地连那块,我忘了他叫什么。

然后能叫影响AI进程的论文也太少了吧?嗯,大家肯定都会说 attention is all you need,但我不想说那个,我换一个。啊,我觉得是 twenty five 那边那个。基于你当下的认知,一个关键的重要的 fact 是什么?AI 接下来的进步需要用户的参与。好了,今天的节目就是这样。这里是商业访谈录,是一档由语言及世界工作室出品的深度访谈节目。

你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是语言及世界 Language is World。我们希望和你一起从这里探索新的世界。xyz:zxj 128. Manus决定出售前最后的访谈:啊,这奇幻的2025年漂流啊…