开了一扇窗户,它并不是开了一个很敞开很大的一个门,说你随便走吧。所以我们是首先吃螃蟹的人。跟投资人当时讲这事儿的时候,他们兴奋吗?听不懂,他们完全听不懂,就是什么东西,你们怎么挣钱,怎么把这个东西商业化了?投资人问的都是这个。我印象特别深刻,有个投资人,这东西你们能变成钱吗?斌哥,你看这个大盘你怎么差,经济怎么差?
要不你们把估值降一半?怎么样?我听过一个评论,就是在讲智谱的,因为智谱其实一直不算是市场上最火、最明星的项目,但是是技术延伸的项目。然后你们是有视野、有技术,但是看起来会有点 boring。他给我一个描述,说就像水泥一样,它能干得很漂亮,但是它就是没有太多的情绪价值。Hello,大家好,欢迎收听张小俊商业访谈录,我是小俊。
这是一档由元气世界工作室出品的深度访谈节目,我们希望和你一起从这里探索新世界。上市前夕,智谱CEO张鹏在一次出差途中摔断了跟腱,到达访谈地点时,他拄着一副拐杖。当时,智谱确切的上市时间尚未明朗,它与 MiniMax 之间围绕全球大模型第一股的竞争仍在持续,结果并未尘埃落定。张鹏提到一句西方俚语,Break a leg,摔断一条腿。
它通常意味着祝您好运。几天之后,结果揭晓,智谱确定于二零二六年一月八日,也就是今天,登陆港交所,成为中国首家上市的大模型公司。这也意味着它将是全球大模型第一股。就在这个意味深长的历史性的时刻,我与张鹏做了一场三小时的长谈。一百年后,如果智谱会出现在人工智能的历史书上,你希望它是被怎么撰写的?智谱是AGI历史上的一个先行者,就开路的人。
这是张小俊商业访谈录与大家二零二六年见面的第一集节目。祝大家新年快乐!期待在二零二六年,我们与AI一起进步。张鹏老师,先给观众朋友们打个招呼。大家好,小军好。我来这栋楼感觉还挺恍惚的,因为从二三年开始,我就经常来这栋楼进行采访。然后那个时候这里有很多公司,对,比如说你们,然后有百川,百川,还有当年的光年之外。
是,今天这些公司感觉命运已经开始分化和变得迥异了。你有什么想说的?呃,说长吧,你说,六年多时间,你从二三年开始算到现在,可能就三年时间,但是说我们。智谱成立开始算有六年多时间,那段时间六年多时间说长不长,但是确实发生了非常非常多的事情。嗯,我们有时候经常的感慨,可能过去需要十年、十五年发生的事情,可能就在这五六年的时间里面就发生了。
嗯,所以确实是变化很大吧,但是也也很感慨智谱能走到今天,也非常不容易。是怎么开始这段旅程的吧?可能我在有一些场合跟大家讲过我们出来创业的这个故事,因为我的履历也非常的简单。其实大家就是清华,对,基本上从九八年进了清华就没离开过,到现在为止也在给清华打工,因为是我们的股东嘛。嗯,那我毕业以后其实就在清华大学的计算机系工作,在实验室里面工作,叫知识工程,就是人工智能相关的这样的一些事情。
那到一五一六年左右的时候,其实是一个很关键的一个点。嗯,呃,因为之前像我们实验室里面也走出去过,像。呃,唐万平啊,杨牧啊,这些呃学生,然后很成功的,对对对,很成功的创创办了旷世,对创旷世的联合创始人,对对对,也是上一代我们叫上一代人工智能四小龙之一吧,嗯,AI一点零时代,对。所以在那个时候,一五一六年的时候,其实我们在内部就在讨论这个问题,当然是在实验室里面讨论这个问题。
看到这些企业其实非常的成功,也在市场上也取得了一定的成就,也面临一些问题。但是因为我们当时在学校里面,更多要关注的是说技术本身的演进到底有什么样的一些问题。其实那个时候,很多大家其实对于未来人工智能技术的演进这个事情,其实看得更远。嗯,他们会觉得说:“哎,其实,呃,像C V,像早期的N L P和机器学习的这些方法。
”可能也就天花板就在这儿了,他可能也做不到我们说理想当中的通用人工智能啊等等这些事情。那时候还没有这个概念吧?通用人工智能,A G I 是有的,A G I 是有,但是呢,这个当时的这个第一代这个人工智能企业之后再往后是什么,这大家其实想不太清楚。嗯,所以大家是借着这个问题看到了这个现象,借着这个问题在讨论说我们下一代应该怎么办。
像张钹院士啊,带着我们系里面很多老师,包括我们这个年轻的一些人一起在 brainstorming,然后在聊这个事情,所以那个时候其实就逐渐的有一点想法,说我们要去做下一代的人工智能这个事儿。当时就想做下一代人工智能,没错,嗯,其实有两个点,第一个就是说技术上,现有的这些,呃,技术它确实有天花板的,嗯,你再怎么样做它,比如说人脸识别,它超过人又怎么样呢?
超过人之后没有意义了,就是再往上已经没无法再去突破了。它能取得的产业效果也就这个样子。那下一代的技术是什么?第二个点是说,呃,也看到了这一代是上一代的这个人工智能企业的成功,也吸取了一个经验。人工智能这件事情它本身不是一个纯科学,不是理论科学,它是一个工程实践加理论科学这个同步演进的这样的一个综合性的学科,所以。
做下一代人工智能,不光是学校的事情,不光是研究的事情,也要到产业里去做啊!所以当时就这两个方面,一个是说我们技术上还需要突破,做下一代,到底是什么,我们要把它想清楚。下一个,这个事情也需要在产业里面慢慢去孵化它,去成熟它。所以那个时候就其实给了我们一个一个一个一个契机,就是讨论说:哎,下一代到底是什么?
然后这下一代的这个事情到底要怎么去办,怎么去做?跟企业到底是什么关系?产业是什么关系?所以那是大概一六年左右的事情。一六年的第一个问题的结论就是说,我们产生了一个词叫认知智能。认知智能,对,叫认知智能,就是那个时候,大概是在那个时候,一六年左右的时候,那时候还不叫通用智能,对吧?通用人工智能只是一个很大的目标。
呃,很大的一个目标,当然,我们认为认知智能是我们说的感知智能的下一代啊,啊,就是它是迈向通用人工智能的一个下一个台阶。是第二阶段。对,它并不等同于通用人工智能,因为那个时候其实大家对通用人工智能觉得哎很遥远,我也定义不清楚,就不用强行去定义它。但是,呃,如果是下一步,嗯,next step这个事情,我是可以尝试去定义它的。
清华当时就已经有很多这种跟产业界的合作,对吧?非常多,很多。它有这种渊源。对,清华一直是在人工智能这一块是非常重视产业落地的,做了很多的跟呃企业的合作。对吧?不光是纯粹在实验室里面做这个研究,嗯,呃,做应用做落地。当时我们实验室其实还是非常厉害的。当时我们在那个年代的时候是少有的。可以拿我们的技术去挣美金的,怎么挣?
就跟国外的企业合作啊。哦,他付我们都是美金。哦,少有的能挣美金的实验室。对对对对,就是说明那个时候其实中国的人工智能技术。和研究还是比较靠前的,嗯,比较靠前的,所以那个是在那个年代。到一六年时候,我们就基本上心里就有这个准备,就要去做一个企业,然后我们的一些。啊,阶段性的研究性的成果来去寻找下一代人工智能,就认知智能的这个路径,为什么是要你们几个人来开始做呀?
这个是有渊源的吗?这个不是别人要我们怎么做,是你们想做,这是我们自己想做。我当时在实验室里做工作的时候,其实负责的就是就叫工程转化这一块。教授们带着学生们做研究,博士们说什么做研究,做完研究的这个东西,他可能发paper了。哦,做了一个 prototype,做了一些简单的代码。哦,但是我要去 deliver 给这个我的企业的客户。
哦,说。啊,企业的客户的要求肯定不只是说一篇 paper,或者说几个呃 prototype 的代码,需要是一个 system,需要是一个 product。那那时候我就带着一帮人在做这些事情。清华一直有这个工程转化的这个职位,对我们清华的一个非常有意思的事情一直有。哦,我们系也一直有,我们实验室尤甚。
啊,所以这是我们的传统啊,就是就是从我的导师建立这个实验室开始,他就非常重视这个事情。他提了一个概念叫,我到现在还记得特别清楚,叫P to P,不是那个暴雷的那个网贷P to P啊,它叫Paper to Project哦,或者叫Paper to Product,就是你的Paper研究成果一定要转换成实际能用的产品。
或者系统,嗯,啊,你看现在这个清华基本上工科类的这种院系,现在基本上推广这个概念已经非常普遍了,嗯,就对于原来博士生来说,可能你交一篇论文,博士论文,然后理论上有突破,OK就可以了。但现在基本上都要求要有实际的system,要有实际的应用,这其实就是一个推广的过程。大家都接受了这个概念,所以早期的时候,其实我们就有这个基因,就有这个想法做这个事情。
嗯,所以我们当时就认为说,我们既有研究上的这个前沿,又有这个水平,那工程上呢,我们把研究成果转换成工程呢,我们又有这样的基因,又有这样的这个能力。那其实这个事情就满足了这两个条件,我可以去把它在产业化的这个角度来说把它落地,嗯,同时反哺用我们的工程实践来反哺我们的研究工作,啊,所以这个就是我们选择做这个事情的动因,不是谁要求我们去做这么个事情,当然有一些老师们倒是也还提过这件事。
就比如说张鹏老师,其实还很清楚的跟我们讲过,他说人工智能这件事情,它就是一个跟产业紧密不可分的事情,你们就应该去产业里面去做这个事儿,嗯。不管是研究还是真正的去啊商业化,这个都是一个产业的事情。智谱有几位联合创始人?你们当时的分工是什么样的?就在学校里面啊?当时其实在实验室里面没那么复杂,都比较简单。
你比如说像几位教授啊,唐老师、李老师、徐老师,他们主要是做科研,嗯啊,做研究,核心的技术的突破,带着学生一起做研究,写paper,然后做一些事情。然后我会带着工程师团队们一起去把这些东西承接下来,做一些系统,做一些,呃,product,嗯,然后去交付一些客户的一些需求。啊,所以当时我们能挣外国人的钱。
呃,像德斌他也是做知识产权出身,他博士毕业以后,他高高文的院士的学生嘛,毕业以后在做知识产权专利相关的事情做了一段时间。嗯,所以他在这一块比较熟悉成果的转化,怎么去做IP,怎么去做这个推广技术的推广,啊,合作。嗯,然后三本呢是后来加入我们实验室之后,就是我们总裁啊王少兰,他是因为在一个上市公司的北京这边,呃,中国区这边当老大。
就市场他非常熟悉,而且他也是工科出身,做芯片的企业出身啊,所以他也非常熟悉我们这个行业,要帮助我们去做一些推广啊,做一些联合生态这些事情,所以其实他这个分工就跟我们现在其实基本上是很类似的。所以很自然的,我们组合到一起来做这件事情。当时要负责工程转化嘛?你当时想认知智能应该怎么转化?其实这里边有一些讨论出来的一些结论,就是首先第一个工程转化这件事情呢,除了你要把这个原来的prototype变成一个。
啊,生态环境里边可用的产品,这个相当于是一个software的东西,嗯,对吧?第二个呢,你还要去真正的落地去结合,真正的这个实际啊,生产场景里边的各种各样的硬件、软件,各种条件,所以这是一个适配性的问题。更复杂的就是你要真正到推到市场上去跟客户去售卖这些东西的话,它还有一个,呃,商业的问题,就是你的成本、你的收益之间怎么样去平衡的问题。
嗯,对,所以这些这些事情就是在那几年里边,或者说那十几年里边。慢慢的去学会的,嗯,哎,我也不是干这个出身,就比如说,尤其商务那一套东西,商务,对对对,那套东西你怎么跟大家报价,对吧?你报什么样的价格是合适的?你的成本该怎么核算?嗯,啊,这些事情其实以前你在学校实验室里面肯定是不太考虑这些东西的,嗯,但是你真正面临商业客户的时候,肯定就会人家说,那那那你报个价格给我。
第一次报价紧张吗?其实挺紧张的,心里没啥底。嗯,因为那个时候也不像在公司里面有这么完整的财务啊什么之类的,你能知道说我每个人花多少钱,对吧?我每天的办公费用是多少,其实也没有什么太大的概念。所以很多时候就拍脑袋拍了,大概估了一个哦,对,所以早期的时候其实很多的项目大概大家就是收了点辛苦钱,对,挣了点成本,然后大家发了点呃,学生们、老师们发了点那个奖金,嗯,也就那样了。
一六年还没有想过要创业吧?一六年其实在考虑这个问题,已经开始考虑了,已经在考虑这个问题。真正我们开始行动是一七年,一七年我们就尝试在学校这个体制底下。啊,科研院所这个体制底下,怎么去把这个商业化这个转化这个路径走通?因为那个时候其实,哎,学校里边的这些这个叫呃体制内人员去开公司这个事儿,其实是不允许的,敏感。
对对对,它是不允许的。大家都知道。之前没有先例吗?有在职人员有,但是呢,大家都是就是不是这种正式的官方的渠道,就是你一个老师在外面开一个公司。好像也没人举报你什么的,你也就过去了。哦,但是严格来讲,这个事情是需要跟学校去报备批准的,对吧?或者是不是可能公司如果开得好的话,就慢慢就离职了?从学校,严格来讲,这两件事情不,它不能联系起来,它是并行的两条线。
但学校呢,就是这个事情发生多了之后呢,像这种学校呢,他会有一些考量,他会有一些规管理规定出现。就不允许啊,或什么你要报备啊,什么什么,反正就出现这些事情。所以在一六一七年的时候开始做这件事情的时候,我们就找想找一个官方的路径。就专门做这件事情的路径哦,正式的没有想过先先悄悄的做,然后悄悄的做被发现了再说,这这个总会留下一些首尾嘛。
我们还是希望说这件事情呢走的比较顺畅,不要给自己留下一些首尾,一些问题。就一六一七年的时候,其实找这个路径,学校其实也想干这个事儿,嗯,他想做一些,比如说学校那个时候成立了一些产业转化的一些机构。像数据科学研究院,像巴拉巴拉的一些机构、二级机构,其实他就是想做这个事儿,而且请来的这个负责的人都是原来在产业界待过的。
哦,你看这个意图就很明显。嗯,啊,他学校也觉得我有很好的这种科研成果,那为什么不能把它转换成商业?价值呢?对,但这个路径怎么做呢?也在探索。后来这个契机是到一八年的时候,国家,包括教育部,包括呃几个部委吧,联合给了一个意见,就给了一个专门针对这种事情的一个意见,一个一个办法,就允许这个科研院所的这个在职人员用已有的研究成果做科技成果转化,然后规定了说怎么分配。
啊,一部分给到这个原来科研院所,嗯,一部分给到这个创始的团队或者研究团队,嗯,啊,他们自由支配。啊,这是开了一个窗户。但这个分配比例好吗?条件好吗?当时的分配比例其实没有特别明确的说,到底这个比例是是多少。我印象当中啊,没有没有白纸黑字的写下来,还是要谈的,是要聊的,好像是定了一个。底线还是什么?我忘记了这个细节,有点记不太清楚了。
嗯,如果学校把自己的比例抬得过高的话,对创业公司也不好,不是很有利嘛,对吧?所以那个时候,其实当当然这个事情,我就跟说了,它开了一扇窗户,就大家看到了,哎,外面还可以有这么条路,它并不是开了一个很敞开很大的一个门,说你随便走吧,啊,它也没有那么方便。是。所以,出了这个意见之后,它怎么执行?这个比例到底定多少?
谁拿多少?谁拿什么分?怎么约定?怎么评估这个成果?其实这些细节都没有。所以,我们是首先吃螃蟹的人啊!我们就拿这个东西,哎,你看国家给了这个东西,那跟学校谈说学校,你你怎么办?我要我想办怎么办?这个是你负责谈吗?呃,这个当时还不是我在,是我们董事长去谈的,他对这块比较熟悉。我刚才讲了嘛,他做IP啊什么相关这些事情,然后我就跟学校去沟通这个事儿。
学校这边其实也挺马爪的,他说我只有这个文件,底下这这个操作细节是什么我也不知道呀!啊,你们是第一个,或者说我们你们是最先开始来聊这个事情的人。那我们就一起来聊这个事儿呗。嗯,所以学校到我还特别记得当时那个科研院的院长啊,金院长,还有当时管这个成果转化孵化,啊,也是我们的一个师姐,呃,叫志鹏吧,啊,反正还有很多人呐,包括学校的领导都很支持这个事儿。
大家一起做,大家一起聊这个事情啊,怎么办?怎么分?怎么样合理?对吧?因为刚开始,嗯,国家的意图也很明显,就鼓励大家去做这科技成果转化嘛,对吧?不要躺在这个这个这个保险柜里。然后把它转化成产业的这个这个这个价值,嗯,所以就开始聊。其实大家其实还是啊,其实双方都很有意愿,嗯,无非就是说在这个过程当中怎么把这个东西厘清,嗯,操作的流程怎么来定这个东西,之后大家不要留下一些遗留的问题、没考虑到的细节等等等等。
所以当时我们就开始走这个事情,它真正走通就已经到一九年。我们走了两年,一年多,一年多。呃,那个办法是一八年的,我记得是应该是一八年的一月份,嗯,出来的。然后研究这个细节,走通整个流程。公司注册到六月一九年的六月份,一年半时间。我们是第一家,我们系里面第一家。呃,所有整个清华都是第一家。呃,至少我们计算机系是第一家,其他学校我不是很清楚,不太了解。
这一年半主要就是时间耗在哪儿啊?就是谈这个中间这个过程啊,比如说大家分多少,是三七开、二八开还是—一九开?哦,啊,然后你评估多少?就是你整个这个东西,我们有科技成果。我们也有拿奖的成果,这成果都做过一些鉴定。那到底它值多少钱?嗯,以前都是不拿钱来评判的嘛,顶多是说,啊,是一个什么样的一个水平,对吧?
它没有拿钱,因为你一旦产业化,这东西最后都归到钱上,对吧?因为做占股本啊什么之类的,你都需要作为用钱作为单位来衡量。哦,所以它最后这个这个评估的这个过程怎么来?定义这个价值是多少,货币上怎么定义这个事情,就谈就弄了很久。最后让你们满意吗?我觉得还挺好的吧。嗯嗯,我觉得还挺好,还算是比较顺利。哦,虽然耗去了一年多时间,但是我刚才讲了,因为你毕竟是第一个吃螃蟹的嘛。
前面没有人走过这个路,嗯,就学校也没走过,学校也不太清楚这个事应该怎么办,所以大家是在互相理解、互相的配合,找到这个切合点、合适的切合点,又不要给。大家造成一些后续的麻烦,嗯,什么之类的,因为他们可能也体制内嘛,他总会还有一些国资啊什么的这些事情的一些要求,能把这个事情能这么快的走下来,我觉得是非常不容易的,肯定是学校我们还有各方大家配合把这事情做下来。
嗯,当时有没有参考一些,比如说海外斯坦福教授?在我们开公司,因为海外这个非常多,非常多,嗯,所以当时确实是看了很多,然后学校这边肯定是广泛的调研和看过这个事情,然后我们也。就反正也举过一些例子,跟大家解释这些事情,嗯,谈这些事情,当然这个细节我有点不太清,因为主要是董事长的德斌他们说跟他们他们去跟学校去谈的嘛,哦,我那时候这个事儿我没参与太多,但这个历程我知道,确实不容易。
啊,搞了挺久的。其实我们那个团队运转是一七年就开始,我们就在哦相对比较独立的在运转哦。但是公司注册成立是一九年完全转出来。那个时候就一九年注册以后,就把这个团队从学校的实验室里面哒哒哒哒全部都转出来。哎,这个还挺有意思的,因为其实这个政策出的时候是一八年,然后第一个你们作为第一个吃螃蟹的人,是其实你们在很主动在push这件事情,在整个清华里面,所以你们还是一帮非常就是想创业的人,对吧?
相对于其他人来说,对。所以刚才你说的是谁让你去让你去创业?这个其实我们自己想做这个事儿,所以我一直说智谱这个,包括我们这个团队还是非常幸运的一帮人,嗯,很多事情恰好就在那个时间发生了,你碰到了最好的事情。然后对发生了,然后你正好又踩在这个点上。这是一七年到一九年,其实一条线你们是在跟学校谈,在公司这条线上,你们当时在做哪些事情啊,以及有哪些尝试?
当时的话,因为我们这个团队,呃,从实验室。那个时候就已经有一个不小的团队,大概有一二十人嘛,一团队就专门做这些事儿。嗯,当时我们主要做的是一个科技情报的一个平台,一个产品。这产品在国际上还是非常有,包括国内也有很大的一个影响力。嗯,叫A Miner。那当时我们有专门的一个团队在做这些产品化,做这个服务商业化的转化。
啊,那个时候我们就已经在通过这个产品,通过这个技术服务很多的客户,包括这个一些高科技企业。刚才说挣美元嘛,呃,当时的,呃,什么谷歌啊、美孚啊这些。包括IBM啊,什么全部是我们的客户。哦,那时候公司是盈利的吗?那时候没公司,但我们肯定很赚钱,很赚钱。OK,就是按项目制去一个一个的去给他交付。对,能赚多少钱?
那时候这个我当时他不是太关心这个事情,但是我当时有一点印象是,有一年我们大概这这个整个实验室的就挣的这种横向,我们叫横向的科研经费,就项目经费,啊,我们就挣了好像一年有接近两千万。啊,所以你们当时已经是学校非常有钱的老师了,哎,这这因这个钱进不了个人兜儿。哦哦,对,一方面我是觉得其实挺好的,市场有很大的需求。
这个技术确实也有它的领先性,我们就想做这个事情,而且也确实让我们看到了一些机会,说去向这个就刚才说的下一步的这个认知智能这个方向去迈进。对这个更新迭代的速度,可能去产业界之后会更快。你们怎么定义这个感知智能到认知智能的这个技术区别?其实有一个很经典的问题,就是我们跟张博老师聊天的时候,张博老师老举的一个事情。
那个时候啊,他说那个时候的上一代的人工智能是解决的是个感知的问题。嗯,其实他。不知道他不知道,对你想想这个问题其实挺有意思。他画了一个象限,他在一个象限里面,一个二维的象限里面,他画了一下,叫现在的问题,人工智能解决的这个问题就是说,就是一些非常小的一个范围的一个问题。嗯,然后再往外就是认知上,就是我知道我不知道。
啊,对吧?就人有这个这个这个这个能力嘛。然后还有一块呢,是我不知道,我不知道。嗯。所以其实我们现在探索的事情,就是想让机器具备类类似这样的认知的能力,而不是简单的就是说我识别个图片,或者是理解个语,是翻译个语音这样的一个事情。就这个东西它没有脑子。就原来的那个技术,它其实不是个脑子,嗯,它只是一些技能,嗯,单个的技能。
现在人工智能具备认知了吗?我看前几个月吧,唐杰老师还发了一个微博,说大家觉得人工智能有认知吗?可以跟我交流。就现在现在解决这个问题了吗?我觉得正在解决的途径当中,还没有解决完。嗯,因为认知的本质是什么这件事情还没有得到最终答案。嗯,这个事儿是一直是,呃,计算机科学家。嗯,还有这个脑科学,还有这认知科学,有专门的认知科学,嗯,认知心理学,这些科学家们一起在研究的一个问题,就是人的认知能力到底是因为什么?
不知道,还现在还没有彻底把这个奥秘解开,嗯,所以现在的包括带大模型。之内在内的这些技术是不是真的模拟了人的这个认知,或者说掌握了人人类认知的这个本质?我觉得肯定不是,还没有到那个地步,因为你自己都没搞清楚这个本质是啥,嗯,对吧?所以你很难说这个事情你已经解决掉了。但是站在那个时时间窗口上,你们当时看到的下一代人工智能就是这个认知智能,所以想要做这个产品。
认知智能和那个情报系统,他们是什么关系啊?我们是把这个认知智能的能力应用在某一个领域里面去。去做这个研究以及体现它的能力,嗯,因为为什么做情报这个事情呢?其实我不知道你了不了解那个情报学。原来情报学的定义,其实在学科定义里边,情报学的定义是在图书馆下面,就是原来。就很多的这种图书馆,它保存了大量的科技文献,然后所谓的情报学,就是通过大量的这些文献数据的这种分析和研究,得出新的知识或者新的信息。
嗯,这个叫我理解啊,我理解,它就是情报学要做的事情。那你想想,为什么这些顶级的这个研究人员?才能做这个事情,因为它需要涌现出新的知识。对,它要理解原有的那些文献表达的那些知识。首先,这是第一理解的能力。嗯。第二,你要把能把这些理解的这些能这些知识综合起来,重新演绎,重新按照你的目标、你的想要解决的问题,重新演绎去推理。
并且第三,得到一个新的东西,得到新的知识,这个事情很伟大。人类的知识就是这样出来的,不断的增长,不断的增长,不断的增长,运用旧的东西,然后融合,然后推演,然后得到新的东西。其实本质上它是就是这么来的哦。对,所以情报学研究的这个东西,它特别像我们刚才说的那个认知的能力,就不是像它本质就是认知能力的一种应用,啊,非常密集的一种应用,啊,非常典型的一种应用,所以我们一开始就要做这件事儿,它因为难度很高啊。
大公司为什么买单?比如说谷歌,你知道他们找我们做什么事儿吗?不知道,啊,非常有意思,就大公司找我们买单的,就是找我们做这件事儿,他问的问题也非常简单。就你就告诉我,未来三到五年,在某一个领域里边,哪些技术会成为热点,成为重要的技术?哦,它其实是个预测,对技术预测,对。所以你看,预测这种事情,它一定是要基于认知的。
现在市场上大家也在做市场预测,是是一个事儿,是是一个事儿。但是这个事情呢,你再往下下钻细分呢,其实还有很多种的这种问题。你像科技情报,因为科技科技类的信息它相对来说比较规范,比较好做。论文、科技报告、专利这些东西,它都是有规范性格式的啊,也描述相对来说也比较严谨,有语料。对的,你有数据啊,嗯啊。算法是我们擅长的,嗯,那我们加上这些数据,比较规范的数据,我们来做这个事情。
最后的结论就是说,告诉你一些预测的结果。我建立起一个模型,哦,对吧?我们交付的就是这么个东西。那时候给 Google 预测了点啥?有预测到大语言模型的爆发吗?这个不太记得细节了。哦,他们是怎么找到你们的?就是全球来看做这个情报系统的人是不是也不多?那个时候,哎,其实国外还是有的。国内也有一些做,他们为什么不用国外的团队啊?
所以我们当时说了,我们那个平台叫 A Miner 那个平台,其实本身在国际上影响力还不错,而且我们专门做这一块啊。其他的可能就是咨询机构在做,包括国内的其他一些厂商做的这个事情,单位也是从图书馆出来的。比如说原来的中科院的那个情报所,他们是图书馆出来的啊。你们是计算机系出来的?对我们是注重算法啊。我们那时候不是通过人做,传统的做法是通过专家。
大量的调研问卷,然后研究文献、阅读文献、写报告,嗯,统计人工去做这个事情,靠专专业的这个专家的这个经验去解这个问题。那个时候我们是用机器、机器学习的算法,用模型来解决这个问题。嗯,效率也不一样,嗯,处理数据的速度也不一样,可能准确率也也可能不一样啊,高啊低啊,反正就是这个算力需要的大吗?哦,那个时候机器学习算法不像现在,还好也需要,嗯,也需要。
其实是找到了一个场景,所以你们当时一出来创业就是有一个确定性的场景的。是当时出来的时候,其实是在做这个事情,嗯,但本质上我们是在做背后的这个核心的这个技术。就怎么样用数据机器学习的算法去构建这个模型?它本身跟大模型现在解决这个问题是非常类似的。嗯,只不过是用的一些上一代的这种像机器学习的这种办法。那个时候赚钱吗?
那时候也挣钱,但肯定也还是亏着的,也是亏着的。也可以。但是那时候也开始融资了,对吧?对对,我们出来呃,学校办完那个那个科技成果转化之后,呃,第一笔天使投资。很快就拿到那时候好拿吗?还好。怎么跟他们讲这个事儿?因为这个事情就是我们跟他讲的,其实就就刚才说的那个逻辑。首先第一,我们是核心,我们是要做认知智能,做下一代人工智能技术。
嗯。然后呢,其次呢,在这个基础上,我们找到一个场景,有这样一个产品和平台,它也。有非常不错的用户基础和市场基础,我们已经在学校里面已经服务了这么多客户,所以这个事情大家一看,哎,这已经有了,都不需要等你去做产品了,是一个相对确定性的事情。那一九年到 ChatGPT真正出来,你们中间一直在做这一一件事情?
哦,倒没有,其实这个中间还是变化很大的,就是。一九年我们成立公司,其实那个时候我们就在做相关的一些呃机器学习算法的研究。其实之前大模型的上一代就是那个我们现在叫小模型或者叫呃早期的预训练模型,嗯,比如说像BERT啊什么这类的东西,我们其实也一直在用,一直在研究,我们自己也做一些算法的研究,这个是用它的东西自己训练一些模型。
所以那个时候就关注到GPT,GPT是呃GPT一是18年,一九年发的是GPT二,嗯,其实GPT二已经在学术界有一些影响了。大家争论其实比较多,讨论比较多。嗯,我们也一直在关注这个技术到底行还是不行。其实是 GPT 三二零年发布是个分水岭,啊,是很大的分水岭,正好是公司一周年,也是六月。对它发布应该是五月底吧,还是六月初啊?
忘了,大概那个时间就是公司大概一周年的时间,正好。嗯,说那个我们请张院士,因为我们的这个战略的这个顾问嘛。就请他来公司,我们一起座谈聊一聊。那时候大家还比较轻松啊,就是没有现在这么卷。那时候多少人啊?那个时候大概几十个人吧,五六十人的样子,肯定不到一百人。嗯,人不多。然后请张院士来,我们内部就在讨论说,哎呀,这个请张院士来,你不能跟他闲哈了呀,这个还得问他一些有意思的问题,他能帮我们解答的一些问题。
我当时就说:“我说,因为我也我也在关注这个市面上很多的这个一些最新的研究进展吧。”我说:“哎,我说。”前段时间,有段有个东西很火,叫 GPT 三出现了之后很有意思,呃,我就想问一下,这个张院士怎么看 GPT 三?这当时我记得特别清楚,这个这个是我说的。后来来了以后,这个张院士来了以后,还真问了讨论了这个问题。
张院士其实给出的评价还是非常高的,对对 GPT 三的评价非常高。嗯,他说是这个机器学习这个一个比较。里程碑式的一个进步,嗯,就有一种新的范式,但是他当时还是除了肯定这个事情以外,他还是也还是担心一个问题,就是刚才说那个问题,他其实还是不知道自己不知道,对,甚甚至连他知道自己不知道都不行,对吧?因为那个时候,你看,呃,GPT三那个时候,大家都很开玩笑说说是一个,就怎么说呢?
就是你他会一本正经的胡说八道嘛,就就是那个时候开始的说这个话。就你问他什么任何问题,他都会给你编一段答案出来。他其实不知道,但是他会编一个答案给你,嗯,对吧?所以他实际上就是不知道自己。不知道,嗯,对吧?所以他给了很高的一个评价,说这个是个很好的一个进步,嗯,但是他仍然没有解决那个最本质的问题,其实是这已经是个很高的评价了,嗯。
然后我们那个时候就开始关注这个事儿,做这个事情,开始用它的这个技术方案了吗?对,我们就研究说这个预训练这个事情,就是 GPT 这个事情。啊,自回归的预训练这个事情,它和我们之前用的像BERT这类似的这样,到底有什么区别?它能不能干掉这个原来的这种方式?嗯,我们就研开始研究这个算法相关的这些事情,做了很多的东西。
嗯,所以我当然记呢记得是二零年年中间GPT三发布,然后我们自己的GM这算法是在二一年,大概我们把它。相对比较成熟的,成型做了一年,研究嘛,对,做了一年,差不多一年吧。哦,所以那时候还是follow了,对吧?就是很快,很快做了决定。呃,对,还是跟进了。我研究嘛,这个大家很很很喜欢这些新的东西,我们去研究这些新的东西。
但是确实不一样的地方就在于那个时候,就是说,呃,业内其实并没有像现在这么高度统一的认为。那个GPT那个路线就是OK的,嗯啊,所以那个时候大家还是在想说,哎,那有没有什么办法去走出自己新的创新的一些东西?嗯,所以G M是那个时候定下来的,嗯,所以G M是在BERT和GPT之间,我们当时想综合这两种算法的这个优势。
哦,是有一个综合性的对哦,所以它出来这这个算法本身它还是非常典型的一种带自己典型特征的这样一个算法,嗯,所以那个时候是开始在做这个事情。GPT和BERT它的差异是什么?BERT它是一个双向注意力,它同样是基于transformer做注意力计算,比如你给给一个句子一个文本。它可以从前算到后,同时它也从后算到前。
GPT大家知道就是单向的嘛,我只看前面预测下一个,预测下一个,预测下一个,预测下一个,它是单向这样主线线性的生成的。BERT是把中间抠掉。就我我让他预测中间,那预测中间呢,我要既既要看前面,也要看后面,所以它是双向的。嗯,所以当当时这个大家很形象的描述说,BERT就是个填空机器人,GPT呢就是一个蹦词器,啊,就一个往外蹦,一个往下蹦,预测,嗯,预测下一个。
它其实都是预测,只不过是双向往中间预测和单向往后预测。那你们 G L M 是怎么综合它们两个的?G L M 的话,综合的方式其实还挺巧妙的。我们把这个问题做了一个统一,就是你看它原来不是往中间预测,或者往两项往中间预测嘛?G P T 是从前往后这样预测嘛?然后我们把这个两项往中间预测这件事情,把这个词的顺序调一下。
哦。它实际上也变成了单向往后预测啊,啊一样的,嗯,所以把这两个模型这样这样统一起来了。所以当时 G G M 出来的时候,在很多效果上最典型的一个特征就是,或者说最有优势的一个特征是说,它既能做填空题,也能做这个续写预测,就单向预测这个事情。因为当时 G P T
三他们做填空题还挺麻烦的。它不做做的没有不好,其实,嗯啊,所以当时 G M 出来的时候是综合的这两种能力,而且这是第一个,就是本身融合了两种方法。
第二个呢,呃,由于它采用了一部分的双向注意力,嗯,它是不是全部的双向注意力,是一部分的双向注意力,嗯,其实取得了一个意外的一个效果,是说整个在训练的过程当中它的稳定性更好,嗯,就大规模训练的时候它稳定性感觉更好,嗯。啊,就是体感上、工程上得到了一个结果,然后再一个呢,就是说它训练完了以后,这个模型它得到的那个参数矩阵,它的分布相对来说比较集中,就是它不会特别散。
所以集中的好处是什么呢?我可以。做量化的时候,精度的损失少啊,这个很好理解。比如说你的值域是这么宽的话,你要做量化,比如说平均把它分八等份,那每一个域的宽度就很大,你一个量化后的结果代表的这个宽度,它的精度损失就大。嗯,但是我如果我的分布本身就窄,那我量化的时候同样是分八等份,那我每一等份它精度的这个。
阈值就小,嗯,我的精度相对就更准确一些,嗯,对吧?这是很好理解的一件事情,数学上,所以这也是一些额外的一些因素吧。所以那个算法本身还是挺受呃学术界和产业界的认可。啊,到现在大家也还是认可 G M 是独树一帜的一个流派,嗯啊,然后后来再接着下来就是这是二一年了,呃,对,二一年,嗯啊,然后接下来就是二二年,就是我们当时就开始。
决策要不要像 GPT 三一样去做一个?因为那个时候 scaling law 还是很简单的,你参数量翻一倍、翻十倍上去,你智能水平就啪就上去了,对吧?大家都相信这个,嗯,所以那时候就开始决策说,我们要不要去用基于 GM 算法去做一个千亿的模型?千亿的模型。二二年,二二年,嗯,二二年几月份啊?应该是二一年底。
当时你们怎么认知 OpenAI?其实我们就很关注 OpenAI,一直在感觉这个这个公司挺神奇的。一五年成立,然后之前一直在做强化学习,突然到一八年的时候把强化学习啪扔了,然后开始搞这个 GPT 这个事儿,嗯。然后开始重视预训练,对,重视预训练这个事儿。然后伊亮,我我个人还是挺挺喜欢这个,我他的基本上他的论文也好,他的很多的这个文章也好,我都看。
嗯,我觉得他很多的思考还是非常深入的,而且。确实是很到很到点子上。那时候应该觉得他们就是一个研究机构,对吗?对,那个时候因为大家都知道他是当时是很多人投资,呃,包括马斯克在内投进来,是一个做非盈利的一个机构,都觉得他就反正就是一个 open lab。你们当时有没有想也也做一个这样的 open lab,就是你们做一个中国版的这种 open ai?
其实我们的气质就挺像的啊,就那个在那个时候就这么想了。对对对,其实那个时候就就想干这个事情,但是你公司已经成立了,你肯定不能不把它退回去啊。那肯定还是得有公司的,对对,嗯,有公司实体还是更方便一些。嗯,就那个时候就在公司这个实体里面就。讨论说要不要去对其GPT三去做这么个模型的训练,就那投入挺大的,投入需要多少钱?
因为GPT三当时整个火了之后,大家分析它整个的训练成本是两千多万美元。OK,对吧?那个时候成本就已经这么高嘛。然后我们自己要去训练的话,估计花费可能也得千万级人民币以上。嗯,这种水平,哪怕我们再节省,哪怕我们的成本控制的更好,呃,也得也差不多这个水平。比如说我们在外面成立一个公司,我们就做成果转换好了,只赚钱,就是把这些项目卖给客户,然后这也是一种做公司的方法,对吧?
为什么还要去追求这种更好的技术?你看为什么我们要讲从一六年开始那个故事?嗯,就是从一六年开始那个故事,其实其实就想跟大家传递一个信息,是说智谱其实不是单纯的说我们就是想成立一个公司去挣钱。其实本愿还是在于我们要去探索AGI到底是什么,嗯,这是这才是我们的本愿。只不过,我我们觉得在成立一家公司在产业里面去做这件事情,它更符合当下的人工智能发展的这个需求,嗯,而不是简单的只是做研究。
嗯,也不是简单的去挣钱,不是简单做商业化。对,嗯,其实这个事情它是这样,因为你是一个探索的过程,技术的往前的演进这件事情,其实是一条主旋律。嗯,你的商业化是另外一条主旋律。嗯,这两者之间,我们认为在人工智能当下的这个生态里头。没有办法完全分隔开的,嗯,就恰好后来 OpenAI 走这条路之后,你会发现,也事实证明就是这样。
所以当时你们是很喜欢 OpenAI 的,在嗯,很关注它。二零年、二一年、二二年是,然后你们最后是怎么决策的?要不要投这千万?对,当时当时账上有这么多钱吗?具体因为我不管财务,所以我不是很清楚。开玩笑,但其实确实这个事情的投入对我们来说还是挺大的。嗯,呃,风险还是有的。所以当时要不要做这个事情,其实还是很慎重的考虑了一下。
最后的决策应该还是,就是说我们应该做,而且必须我们自己来做。必须自己来做,还有别的选择?别的选择就是等着看其他人。所以呃,我们就很果断的去做。当然,这个主要还是科学家团队在里边起了很大的一个作用。那因为之前的GM的研究,呃,算法的研究,包括刚才说的那些特点。都使得我们呃有这个信心,说能把这个一样的一个模型把它训练出来,嗯,并且呢性能不会差,不会让这个钱打水漂,所以最后决策还是要做这个事情,我们就投了这个。
二一年十二月底到大半年时间吧,一直到二二年的七八月份,哦,把它弄完,哦,大概九个月时间,我们那个blog还挂在。网上可以看得到整个这个历程,然后又过了三个月,ChatGPT就来了。对,年底正好二二年年底的时候,十一月三十号的时候,ChatGPT就上线了。其实这个中间这几个月,其实还挺,我印象挺深刻的。
我那时候也不在北京,我在外地,在深圳回不来。那个时候我们就因为花了这么大一笔钱,我们得去接着去融资跟投资人聊。那是第几笔钱了?应该是开始融B轮了吧。嗯。B轮就是第二轮吗?对,对于你来说,呃,第二、第三轮吧,应该我有点记不太清楚了细节。嗯,但那个时候就开始跟很多投资人聊。聊这个事情,然后跟大家讲,我们训练这样一个模型,有 GPT 三,我们也训练了一个对标的一个模型,性能很不错,我们也把它开源了。
啊啊,那个是我们开第一次开源,八月份开源这个东西。为什么要开源?因为我们当时觉得这个东西捏手里,你自己捏手里,你又没短时间之内,你也没办法把它变成钱,而且这个事情刚启动,刚起刚开始。让更多的人知道这件事情更重要,嗯,对吧?而且我们要打出我们自己的这个在国际上的影响力。那时候我们都是看到国外,看到 OpenAI,看的这个国际的这个这个事情。
所以开源是一种很容易接受的一种文化。嗯,中美之间现在还没有现在那么复杂,所以我们就选择把它开源了。开源之后确实影响力非常不错,有多不错?国外还是非常认可的。嗯,我们当时当时开源之后,应该是那个报告,斯坦福那个李飞飞那个报告,是我忘了是二二年还是二三年出来,应该是二二年出来,就在我们开源后不久,嗯,出来那个报告,应该十月份,十月份我忘,他那个报告里边唯一一个参与这个评估而且排的比较靠前,来自中国的就是我们。
嗯,就是这个,就是 G M 幺三零 B,所以影响力非常不错。嗯,而且评估一下结果也非常不错,基本上跟,呃, G B
三,互有胜负。我在想,那个时候国内同同系还在做这件事情的还有谁?那只有你们在做这个事情。其实之前你看还有一些,百度在做。哦,百度有ERNIE,哦,百度有ERNIE,然后嗯,其实那个时候阿里也其实也开始做了,哦,阿里好早,阿里红霞,对对对对对,嗯,啊做那个MOE啊什么那些东西,然后研究机构就当时我们因为,呃,唐老师是那个智源的嘛。
战略副院长,智源当时也当时带个团队做了一些事情哦,对公司是除了阿里和百度以外,就是我们在做。跟投资人当时讲这事儿的时候,他们兴奋吗?听不懂,投资人听不懂,嗯,完全听不懂,这是什么东西?你们怎么挣钱?怎么把这个东西商业化了?嗯,投资人问的都是这个。我印象特别深刻,有个投资人往线上聊的,这东西你们能变钱吗?
啊,现在斌哥,你看这个大环境怎么差,经济怎么差?要不你们把估值降一半,怎么样?降了没?肯定不会,嗯,肯定不会。就是在那笔融资其实没那么顺利的,其实挺那个那个时间其实挺艰难。拉了多久?这这也是我们幸运的地方。你看,我们把这个事情做完之后,到 ChatGPT 火起来是十一月底,嗯,那真正在国内火起来是在春节前后,嗯,在国内啊,真行,其实就就就就小半年时间。
这半年时间,这小半年你们正好是处于融资的期,对对对对,对对。其实 ChatGPT 火起来就帮了我们一个很大的忙,就是大家再也不用质疑说,哎,你这东西到底是啥?我们就告诉他说,你看 ChatGPT,你懂吗?你看过吧?知道吧?呃,我们做的这个事情就是往这儿去的。然后后来都是投资人找你们了,是吧?对的,就很多人就要问,哎,你们什么时候能把那个 ChatGPT 的东西做出来啊?
什么什么之类的。哦,所以你们这笔融资 close 是在那个之后了,春节之后了,应该是吧?就细细节我还不太记得清楚了。哦,过去也算比较久了。所以那个时候,确实确实是有一段时间是正好卡了那个中间,然后 ChatGPT帮了我们一个大忙,然后我们自己说实话也算是比较争气啊,就是很快的,我们把。那个
ChatGPT 对标的这个 ChatGEM,我们就把它弄出来,然后也能上线,大家看到效果也非常不错,尤其在中文上效果非常好。
而且我们还同时开源了一个 ChatGEM 的一个开源版本,一个小型化的版本。因为那个时候只有 ChatGPT 吗?嗯,然后 ChatGPT 很大,嗯,大家三以后它也不开源了,大家拿不到。很多研究人员就心里痒痒的,说:我只能用,我不知道这个里面到底是啥,我自己不能玩。嗯,所以我们开了一个小的一个六B的版本,六十亿参数的版本,一张这个家用的GPU就能跑起来。
那大家就很爽,所以那个时候,那是我们第一款爆火的,在开源社区里面爆火的一个开源项目,嗯,下载量非常大,嗯,非常大。同期好多大模型公司其实是刚开始组建你们这个产品了,肯定是二三年初嘛,嗯,二三年初嘛,大家看到ChatGPT火了,很多人开始做。从GPT三到ChatGPT OpenAI的动作有超出你们的预期吗?
没有,虽然你们一直都关注它。其实那个时候OpenAI还是比较开放,还真的挺open的。很多东西他发论文,呃,其实后来论文发的少了,但是他的,比如 technical report,还有一些呃他的 blog 啊什么之类的,其实会把这些东西都慢慢的放出来。啊,其实我们就紧跟着他研究,包括那个时候我们私底下的一些很多交流,因为你有很多清华学生。
当时我讲九个人里面有四个是。清华的,但是这个底下的交流还是非常顺畅的,就大家也知道他们在干嘛哦,包括 ChatGPT 也是知道的,就这个产品要发布,对,知道,但是它那个项目本身、产品本身保密的很很那个,但是我们很知道说他们还在持续的在 GPT 之上呢做很多事情,在往那个方向去走,然后它的目的是是什么?
最终的可能的形态是什么?嗯,对,其实那个时候根本就不是太意外上这个东西。所以它上了这个东西之后,至少我个人是觉得,就是说还是挺兴奋的,嗯,挺兴奋。有没有觉得赌对了啊?对,第一赌对了,第二就是说,呃,确实这条路走下去,它还是有很光明的这样的一个前景。当时内部是什么状态啊?当拆支火了之后,智谱当时你们有什么讨论,有什么交流,是一个什么样的公司状态?
其实大家,我觉得跟我可能状态差不多,都是属于那种比较兴奋的状态。就觉得哎,这个事儿我们做对了,之前的那个赌注下对了,就是我们走到这现在了,我们已经相对来说是比较靠近的,嗯,接近这个 ChatGPT 的这个事情,所以呃,我们这个研研究团队还有这个工程团队,春节那个春节是没没有没有休息的,然后就 ChatGPT 我们这个版本把它推上线,嗯。
然后在小范围,当然这个一些原因不能让太大范围的去去去做,就小范围的让大家去使用,大家都很惊艳。二二年到二三年转年,是不是你们生活发生了巨大的变化?是。整个就是有点那种,网上有一个那个话叫“十年干什么什么无人知,一招什么什么天下晓”,其实类似,就是你之前其实做了很长一段时间。你想想,我们从一九年开始搞这个算法,二零年自己研究这个算法,二一年、二二年把模型训练出来,然后把这个东西想要商业化,想要去跟投资人聊,说这个东西未来的前景多么多么大。
这两三年时间,其实是我们一直在努力,在做这些事儿,而且也取得了一定的我们认为的一些成果,但是确实比较艰难,因为大家对这个事情的理解非常,认知非常浅,非常少。所以这个时候你就很难,而且大家对于 AI 一点零的四角龙已经去魅了。那个时候,对你说你要做第二代 AI 又怎么样呢?没错,他就把我们拿着跟他们比,你跟他们有什么差别呢?
嗯,然后我们只能回归到技术上来说,这本质上是有很大的差别的。但这种技术上的这种本质的差别,这种东西,其实在市场来看,离他们好像很远。他们那个时候还不太相信,说像现在这样,研究和产业和和钱和市场用户之间会这么短。他们不相信这个,他们认为说,哎,你突破这个东西挺好的呀,五年以后再来找我吧。没想到这么快,对他没想到那么快,因为大家这个认知还是惯性的在往前走,他不是一个革命性的一个看法,他不认为你是个革命,他只是认为你是个线性的一个线性外推,对对对对对。
这二三年一转年就感觉浪来了,对吧?一瞬间大家就一下子就热血上头啊,这个多么好的一件事情啊,怎么怎么着,对吧?这个挺有意思的一件事。嗯,所以我们我个人反正在内心里一直很感谢我们还做了很多事情,让我们觉得能借上这个力。二三年有什么印象深刻的事情吗?最印象深刻的就那几个字“百模大战”,圈内的圈外的大家都。
因为之前你们在做这个事情还是很低调的,对吧?就是关注的人很少,也无人问津。然后二三年这变成一个市场的名牌了,是是是。老王也来了,对。然后一下大模型有六小龙,你看那个时候就熟识的人啊,很多熟识的人,小川我师兄。是吧?志灵从我们实验室出去的,然后,对对,你看身边的很多人就啪啪啪啪分分分就跳进来,包括那个,呃,现在的硅基,呃,后来袁金辉,袁金辉,袁老师,我们也认识他很多年啊,他张,他之前在光年之外,对对对对,联合创始人,嗯,被。
后边拉进来的嘛,嗯,你看这身边很多人都站到了里头,然后那个不认识那就更多了,那就不用讲了。所以二三年呢特别热闹,百舸大战,对纷纷扰扰的特别热闹,是什么感觉呢?就是我们在这里已经做了好几年,你们现在突然之间一夜之间全来了。我觉得就两个,就感觉上感受上就是两个感觉。第一个感觉呢就特别兴奋。就这个事儿迎来了一个很大的一个机会,很大的一个浪潮,大家都不用再去教育,投资人也好,市场也好,什么也好,大家都不用再教育。
反正你做这个事情,大家一听,哦,这样,我平常干那个事儿吧。行,挺好的,嗯,然后第二个呢,其实还是,呃,说实话,我个人来说还是有点焦虑,嗯,有点担心,因为每逢大浪过来。再往后看一点,就是可能就是一片狼藉,最后留不下也啥,嗯,挺害怕这种状况。做最早不一定能留下,这个是焦虑的。我倒不是焦虑这个,我倒是我我我都对我们能留下,或者说我们能做出来这件事情,倒不是特别怀疑。
我怀疑,我怕的是整个这个市场有一个极端走向另外一个极端之后。然后塌掉之后,再很难回来。就烈火烹油之后,剩下的是啥?啊!如果这个市场都没有了,你做的再好也没用。为啥市场会没有啊?嗯,因为我们看到太多的这种事情了,就大量的资本也好,人也好进来,团队然后开始搞这件事情,然后各种各样的声音,各种各样的想法。
啊,新的、老的、旧的,然后各种各样的这个掺掺掺杂在里头,然后其实很多时候大家。只知道说这个事儿是个很好的事儿,但是其实分辨不出分辨不出这些里面这些这个百魔大战,就大家都这个说的这个事情,谁说的是对的,或者说谁说的是更接近真相的,谁说的是吹了一个故事,谁是吹了一个泡泡,分辨不清的。今天看能分清吗?我觉得肯定有一天能分清。
那现在还没有分清?我觉得还有一些很难分清的东西。哦。呃,这这就是它的魅力所在。但是它越来越聚焦,或者说收敛到它的真实性问题上啊,不再有那么多的泡沫或者说假象的东西在里头。现在回望二三年,好神奇啊!对,非常神奇。我也是很感慨,哎呦,二三年怎么过来的?我印象当中,纷纷扰扰二三年就过去了,很快。嗯,我唯一比较深刻的印象就是二三年我们全全上线,八月份上线,然后还有一个印象是。
呃,那一年的 W I C,在上海开 W I C,我去转了一圈那个展馆。呃,有人后来数过,当然我没数过。呃,有人数过,整个展馆里面跑完之后,基本上所有展台上,因为是人工智能的嘛,在所有展台上都有“大模型”三个字,各种各样的“大模型”三个字,拍到把所有的那个拍下来贴在一起,巨长笔,每个这么一条,列这么长。
嗯,挺好玩的。我也去转了一圈,我就发现“大模型”绝对就是。但大家讲的故事或者说的事情就千奇百怪,各种各样的事情。你觉得很离谱的是什么呢?我倒没觉得有什么特别离谱的。我当时也看到很多很新奇,有些东西我没想到的东西,我自己也吸收到很多的东西。其实那个时候我觉得是二三年,大家最。在大模型本身这件事情上争论的事情,不在说大模型本身有没有用,而在于争论一个事情,叫垂直模型、通用模型和垂直模型。
对,这是二三年,大家经常会聊的。对,每逢我去跟大家聊什么事情的时候,参加什么会议,大家都会问的问题。嗯。但你到今天来看这个事情,就你会发现,当时聊的这个问题,它其实就是个伪命题。嗯,到今天来看,你所谓的垂直模型根本就在市面上没有什么声音。嗯。不管是研究也好,还是,呃,产业应用也好,其实都没什么声音,它就证明那个时候,所谓垂直模型这个事情,它里边。
被人加了一些佐料,佐料对出现的东西。当时二三年,我印象很深的是几个事儿,就是老王发了一个英雄帖,然后那个投资圈和那个大模型圈里边还是非常有名的一件事情。对,然后包括王小川也入局了。小川对,你当时看到这些就是非常成功的企业家二次创业,然后来抢你们就是本来已经生根就做了好几年的这个事儿的时候,你当时在想什么呀?
你会担心在商业上竞争不过他们吗?我倒没觉得这个事情。因为首先,第一个我们做了这么长时间,对这个事儿认知还是比较深的。虽然 ChatGPT 火了,但其实我是觉得它要走的路还挺长。没那么快,没那么容易。哦,其实我是欢迎像小三师兄,还有辉儿,这些呃,辉儿也是师兄啊,他就比我们稍微大一点。哦,对,呃,欢迎这些有实力、也成功过的人,或者有经验的人。
入这个局来一起做这个事情,因为我一直也相信,首先第一这个事情还没到那么快见中局,大家那个时候有点预期过于乐观。对,你当时觉得要多久能见中局?我不知道,当时我确实也不知道多久能见这个中局。我的直觉告诉我说这个事情没那么容易,没那么快能见这个中局。嗯,还需要时间,因为这个技术研究了之后,你会发现里面其实还有很多问题你没有解掉,没有解决掉。
那时候最棘手的是什么?二三年。二三年的时候,你说技术上吗?嗯。其实技术上,我觉得还是模型的能力还是不太够,就它只能当一个 chatbot,但显然光当 chatbot 是不行的呀。对不对?很简单,我们原来能做的就是,比如说像情报的分析这种事情,它需要你预测,需要你做逻辑分析,需要你询证,需要很多东西,这些东西都没解啊。
都没解,嗯,你除了聊聊个天,你还能干嘛?你敢问他说我今天哪哪哪不舒服?你你给我推个药,你敢吗?你肯定也不敢,对吧?就像他说了,你也不敢用,所以它其实里边还有很多很多的问题去解决。真的要应用起来,是个很长的路。而且我也相信说这件事儿,它并不是说,呃,靠某一家,或者某一个团队,某一个人,他能解决的问题。
嗯,我相信还有很多问题没有发现。嗯,那应该,它就是一个很 open 的问题,大家一起来做这件事儿。如果大家都统一了这个认知来做一个事情,这是个好事儿。嗯,共同推动这件事情,最终呢更快的向 AI 这个目标去靠拢。我觉得这这很好的事情。所以我跟小川也,因为那个时候也在在这里边嘛,就很近,经常偶尔在楼底下,所以经常在楼底下碰面。
他有习惯,他经常思考的时候,他有习惯,我知道。他经常下去,在我们的科技园底下有一个开放的一个广场嘛,上面有那个长凳,他盘着腿坐在那儿想问题,就拿着跟你这样的pad,跟他想问题。我有时候下去就买咖啡什么碰到他,我们就会聊两句。我记得有一次我在机场的摆渡车上跟他通过一个电话,嗯,关于这个事情的。他说:“哎,前两天看你跟华为这个一个活动上讲了这个问题,说。
”这个模型应该分为 L0、L1、L2 什么?这当然,这个概念是这个叫法是华为提出来。嗯,但是我是觉得有点它的道理。就 L0 是基座,L1 呢是专业化的、特殊化的。然后L二是应用层的东西,然后呢L一的接近我们说的所谓的叫垂直模型这个事儿,然后小川就就给我打电话的意思说,哎,就是说这个挺好的,我们大概应应该大家一起达成一个共识是,像周边的整个行业整个这个市场。
去推广这个概念,嗯,这是他打电话跟我说的这个事情,我印象特别深刻。我在机场的摆渡车上啊,所以其实他是愿意去做这种垂直化的专业的这个事情。那你认可他这个方向吗?因为那个时候我不是太确定说他能做到什么程度,或者说完全垂直化去做这件事情,他能不能做到他的预期的这个效果?嗯,但是我的直觉其实告诉我说没那么简单。
你相信通用?我不是相信通用,因为我是相信说。呃,足够高的智能这件事情,它不是一个专项能力,哪怕一个最好的医生,它一个基础教育,对它也是个非常均衡的这个知识的。那它比如说可以基于一个开源的大模型,然后去做专业化,这个是可以的。那这就是我为什么后来认同说 L0、L1 这种观念原因。我在后面补了一句,就是说,垂直模型这件事情或者专用模型这件事情是可以的,是没问题的,但是它一定要基于一个足够好的 L0。
二三年 closed 几轮融资啊?哎,我真还记不住了。B 后,二三年、二四年。会轮数比较多,也比较密集,大概三个月左右吧,一轮吧。这时候,投资人在找你聊啥?其实那个时候就开始就聊刚才说的这些问题了。就说,首先第一,你看入局的人这么多,对吧?你们优势是什么?对对对,你们的优势是什么?你们为什么要做这个幺零这个基座?
嗯,啊,它好挣钱吗?对吧?你你怎么把这个基座这个事情,这个通用这个事情变成一个挣钱的生意呢?你看那个专业的一个生意,你说医疗啊什么这些东西。多挣钱啊,多容易挣钱啊,对吧?大家都是付费的,你这个通用的这个东西,大家怎么给你付费呢?为什么要付费呢?嗯,那就问这样的一些问题。呃,更接近商业化。其实,在那个之前,我们把我们的这个呃模型千亿的模型训练完之后,其实就在想这个问题:就未来大模型本身的这个商业化路径到底应该怎么走?
嗯。其实那个时候我们已经在想,所以 Mars 这个概念,Model as a Service 这个概念,其实是二一年左右,二二年不到吧,在二一、二年那个时候,我们最早提的一个概念,哦,我们的一个想法,那个时候定义的这个所谓的 Mars,比现在大部分人所认为的这个 Mars 范围要广。现在大部分大家说 Mars 都是指的语音 API,That's it,结束,嗯,没了。
但是那个时候我们说的 Mars 其实形态更丰富,除了云上的 API,这是通用的,就像我们用电一样,大家都用的,还有类似像。我们把模型当做一种随意可部署的一种组件,部署到各种地方,我们叫本地化部署,还有软硬件结合的,可以随时拎到哪儿的。这种产品,这种服务方式,嗯,所以我们定义的这个形态,Maas的形态是,很很很丰富的。
所以这也是我们后来开始做商业化的过程当中,你会看到的这些事情我们都会做。所以那个时候我们就提出来的。当然,怎么会变成现在这个收缩收缩成Maas收缩成这件事情?我觉得云厂商功不可没。为什么?他们想往这个方向引嘛。哦,因为这是他们的战场,他们的主战场。他们更有利,对我我我是这么理解这个事儿的啊。嗯,但并不代表其他的这些东西不存在。
为什么很快智谱选择的商业化路径就是to B的?为什么没有follow OpenAI去更积极的做to C?我觉得这个中美之间差异还是挺大的。你们讨论过这个事情吗?肯定讨论过这个事情,是二三年。其实更早,就刚才说我们说做MaaS这件事情的时候,我们就讨论过这个问题。你看美国活得很好的SaaS,在中国活得很惨,对,是吧?
在美国,ChatGPT可以收订阅费用,每个月二十美金,大把的人给他交。但在中国不可能,这两件事情都不可能。就C端用户的付费意愿和这个B端在呃SaaS订阅的这个付费意愿上都很差。我们当时分析是说,如果你直接照搬ChatGPT或者说OpenAI的那一套模式在国内。除非,你能类似像他一样抢到一个非常巨大的一个首发的这样的一个市场的优势,否则很难。
嗯,当时那个群雄割据啊,大家混战的那个局面,你基本上很难。嗯,最后必然会陷入到就是,啊倒贴引流,补贴让用户白薅羊毛这种状态。所以你们是什么时候决定就我们不深入涉入to c了?这是一个决定对吧?这就应该是个很重要的决定。我们倒不是说我们决定是说不深入,呃,就是去做to c,to c实际上也也做,后来我们发展出来智步轻言。
然后A.P.P.,然后ChatG.M.的呃云端的版本,这就我们还一直在做,包括现在现在也仍然在做,只是我们会选择说不是压住在唯一的这个选择上,我们会同时。看我们刚刚定义出来的那三四种模式,哪种模式更能走得通?你们未知不去年投过流吗?投过呀,也投过,也投过。哦哦,这没什么好那个否认的,肯定投过。多久发现这张打不赢?
有一段时间了吧,有段时间之后,后来发现,第一C端市场的它这个本质就还是中国的这个C端市场这个付费意愿还是太差。嗯,大家不太愿意能付钱。其实我们还是挣钱。挣了点钱的哦,从智谱青青青言上哦,因为我们的那个会员是有VIP会员是收费的,对,收了点,收了点费用,啊,不多吧,反正挣了点钱,这是第一个。第二个呢,就是后来我们发现,我们对智谱青言产品本身的定位其实是不同于市面上那些其他的那些APP的。
我们定位成它成一个效率工具,这个效率工具呢,它就不可能有很大的这个付费的市场,它的用户群体它。其实比较的集中。你看我们的用户曲线,用使用的这个曲线很有意思,就使用那样的曲线,它是跟我们的上班和学习的时间是重叠的。啊,早上八点钟开始到中午十二点钟,然后下午一点多钟到下午五六点钟。晚上基本上很少,非常少。
呃,有一个小高峰,大概八九点钟。后来我们分析是干嘛?家长教孩子,哦,辅导孩子作业,哦,啊,就就就他都是把把这个东西当做一种。工具助手在用,所以你觉得这个商业模式走不通?我是觉得,反正算完这个 ROI 之后是很不合算的一件事情。没有想过要参与豆包啊、 Kimi 他们这种竞争吗?那不是我们的风格。可能基因不一样,对我们也不一定能做到那么那么一个地步。
投资人也问过这个吗?因为这个想象空间更大一些嘛。To C可能比To B对于投资人来说更有吸引力一些,对吧?我不太理解这个吸引力从哪来。后来我自己猜测了一个原因,是在于这个,在于这个模型比较好算,这个数字模型比较好算,一个用户值多少钱啊,比较简单。但To
B呢,它太复杂了。你说一个用户一个客户值多少钱这个事情,千奇百怪,嗯,而且各种各样的因素都有,嗯,所以他想要把这个事情算得很明白比较困难,而且 To B 容易陷入低价竞争,在中国的环境里,To B 低价的情况多少还好一点,呃,有也有,我知道就砸低价投标什么砸低价什么这种事情我们也碰到过。
呃,也是受害者之一,但多少大家还是有个底线,因为毕竟大家都会心里有个底线,是说to B这个事情你是要交付的,你要兜住成本的,你不能说罔顾成本去做。你一单两单可以,但时间长你肯定是不行的。所以大家有个默契,基本的默契是说,在to B这个市场上,呃,低价抢单这种事情,是不受欢迎的。是不受欢迎的,甚至连甲方他都不欢迎。
你你你会认为他是得益者吗?其实不是,他也担心说你交付不了,我给你那钱根本不够。嗯,那你怎么保证你的交付呢?你的质量呢?对吧?所以,在呃to B这个事情上呢,相对来说它的确定性其实是更好一点。嗯,虽然它可能故事听起来没有那么sexy,对吧?那个账没有那么容易好算,但其实它是相对比较stable,比较确定性一些。
嗯,对,而且中国的这个市场本身就刚才讲,包括像SaaS起不来这个事情。它现在它的特殊性的,嗯,它有它的一些原因。我问过很多人,为什么中国的SaaS没起来?对,为什么没有起来?这个会改变吗?在AI的时代,有一个人跟我讲了一件事情:我用同样的钱,你买订阅一个月花十万块钱,我可以用十十万块钱买十个人一个月,帮我把这活干了。
嗯,完了就全是我的,本质上是因为这个,还是因为这个成本的原因?那你觉得在 AI 时代有可能改变吗?呃,很好的一个问题。AI 这个时代的算法又是另外一种逻辑,可能我我也我也预测不太清楚未来它是会什么样子,但是它里面有一个悖论,就是 AI 这个事儿,你看现在最火的是什么?AI coding,就程序员不在之前的,嗯,变得越来越便宜,那有可能,那从这个角度来看,定制化这个事情是会越来越普及的,嗯。
对吧?大家不再去用一些标准化的东西,反正开发成本很低,很便宜,我就能得到,对吧?但是另外一方面呢,就是你AI的这些工具使用的成本,其实仍然还是居高不下的。嗯,训练成本我们先不说,推理成本就就不低,它也有一个底线,也有一个刚性的一个成本在这儿摆着。嗯,就以前是人的基本生活的这个工资的保障的刚性的要求。
现在是AI的,它的成本对刚性的要求也摆在这,所以它会比原来改变一些,但不会那么剧烈的。突变式的改变这个事情,你刚才说对于To B来说,报价和成本核算很重要。你们积累了这么长时间在To
B的业务,你们有什么能耗?我觉得这个是作为一个软件企业或者说一个人工智能企业里,呃,你最高溢价的地方,就是我们是做这个技术的,嗯,我们对这个技术的本身的这个了解更深,可能其他人也能做类似的事情,但是他可能需要更高的成本,那我们可能只需要更少的人。
更短的周期,我们就能达到更好的效果。那这就是我们的溢价空间。二三年团队迅速扩张了多少人?二三年的话大概是两百多人吧。到了两百人?对。二四年呢?二四年的话到四百人。现在呢?现在大概八百多人。每年翻一倍?基本上每年翻一倍。办公室扩充了多少啊?就是在这。我们在二五年以前保持一个记录,每年搬一次家。每年办一次家啊,都是在这栋楼是吧?
啊,没有没有,搬了三栋楼,呃,都在这个园区。就是那个那边有一个叫柯建,最早我们在那边,后来搬到隔壁B座,B座是就是那个赛尔大厦,B座两层啊。然后再就二四年初搬到这儿,嗯,啊,然后二五年没动,什么感觉啊?变化这么大,这么剧烈?变化很快,嗯,这个整个这个行业,包括这个技术的演进,包括市场的变化,非常非常的快。
我们要做的事情也非常非常的多,所以团队的扩张这个事情,它自然而然就这么发生了。那当然,这个中间也会有一些波折。呃,整个公司的治理啊、管理啊,等等各方面,包括成本的控制各个方面,都会有一些新的挑战出生发生。二三年最大的挑战是什么?我觉得二三年就是怎么保证这个技术的快速更新迭代,然后在这个纷纷扰扰的这个商业化市场上找到自己的路。
我觉得这是二三年最大的挑战。二三年找到吗?我觉得基本上二三年,我们把我们的基本的这个商业的这个商业化的这个架子框架搭起来,MaaS那个时候有,然后我们的呃To B的服务、企业服务的这个业务有,对吧?然后这个还有我们的开源,还有我们的研究的进展也有。二三年就是更新迭代也非常快,就GM二啊、三啊这种发布其实很紧密的在做。
所以那时候也是我们见见见的第一次嘛,是吧?零二三年的时候,嗯,所以,二三年的印象还是。挺深刻的。你看,二三年我们讨论的还是王慧文、王小川这种企业家过来创业,到了人工智能的行业。那二四年其实大家讨论多的就是Kimi和MiniMax,嗯,对吧?你是当时是怎么想这个事儿的?我是觉得这个一个全新的行业里边出现这些年轻的、更新锐的、更有想法的这些人进来,它是个必然现象。
嗯,毕竟它是个全新的东西,对吧?大家要产生一些新的主意,这个年轻人肯定会更active一些。对啊,更有 passion 一些去做这些事情,我觉得这个也是正常的,历史的一个趋势,发展的一个趋势。你会怎么看杨志林啊?当时,志林,我跟他接触还算有几次吧,比较,毕竟我们实验室出去的。然后也跟他聊过,刚回国我们也跟他聊过,非常聪明的一个人。
哦,他在学校是什么样的人?属于这种学霸类型的。哦,去三明屋,然后念完博士回来,然后当时的他的一些研究成果在圈内还是影响力非常大的。啊,嗯,所以他当时最早创办的公司是那个循环智能,然后再后来开始做月之暗面。做Kimi,啊,我觉得他应该能成。你觉得他应该能成?对,他是非常聪明的一个人,而且他在这方面,呃,积累和研究。
非常深,这种同门师兄弟到了商业环境开始竞争是一种什么样的感觉?我觉得可能清华的人有这个特质,大家都比较属于这种工科男,比较理性。哦,对,大家在一起的时候也聊得很开心,聊兄弟,聊这个师兄弟的这种事情,大家也都很说得开。那再上盐商,碰到了该怎么样那就怎么样,嗯,各自有一套规则。各自有一套沟通的方式,那你怎么看严俊杰呢?
在二四年啊,我跟严老师也。碰到过,我记得是,应该是二四年的WIC吧,啊,开幕式的时候,正好我跟他坐一块儿,啊,我们俩挨着坐,我们一直在聊,也在聊一些事情。那时候聊的,我印象,聊比较多的聊算力,聊,呃,训练成本怎么控制,巴拉巴拉这些事情。嗯,他也是个非常聪明的人,我觉得他找,首先第一个,找到了方向。第二个找对了市场,然后在这个基础之上,他非常明白自己想要什么。
想要什么?我觉得他可能就直接奔的,真的就是奔着商业化这个事情去的。那他做的很多事情,你看,不管是那个 Talkie 也好,还有这个语音,然后多模态这些事情,他都是朝着这个方向去的,消费、娱乐,然后大家的精神价值、情绪价值。这个方向去的,嗯,就他他很明确,他也非常明确哦。所以,我们刚才讨论的这些不一样大模型舰队在不同时期出发,觉得真正在追求AGI的是哪些啊?
我们肯定是坚定不移的追求AGI这个方向。对,你一直跟我说一个话,我印象很深,就是你说呃,融资啊这些钱都是盘缠吗?对对对对对,这只是一种表达。我我我其实本质上还是说,在这个呃过程当中,其实是在寻找。跟我们有同样理想,就同样的坚定的AGI的信仰。我们开玩笑说啊,AGI信仰的这个一波人一起来做这件事情。嗯,因为我我刚才还是开场说过那句话,就我认为这件事情它这个路还是挺漫长的。
想要达到一家这个目标,它并不是很简单的说,我手里有一笔钱,我就能翻过一座山,我就到了。路上的这个征程还是很长的,因为碰到的问题会很多。嗯,如果说大家不是为了同样的信念来做这件事,他很难坚持这个长期一起来做这些事情。当然,大家呃会有着不同的人选不同的路径,比如说他有可能选择说我找到一个确确确确定性的一个市场,找确定性的一个商业化的路径。
我把我的技术先转化成这个上行需要的产品,然后挣回来大笔的金钱,钱,然后尽早的实现这种商业化的闭环之后,我再来投入去追求 A G I 什么什么之类的这个事情。我个人觉得没有必要,所谓叫曲线救国。嗯,呃,原因在于是说。第一,信仰这个东西,想要坚持下去本来就是一件很难的事情。我个人不喜欢就为自己,呃,比如说绕个路啊什么之类,去找一个理由。
那我们觉得这个事情难且重要,那我们还是要坚定的朝这个方向去努力,不要轻易的去去所谓叫取经救国这个事情,因为人怎么说呢?很容易忘记一些东西,嗯,对,很容易忘记原来你坚持的一些东西,这是第一个。第二个,从技术的角度来说,我也认为说,并不是说你在某一个方向上突破这件事情就能真正的帮助到我们 A G I 实现,因为真正的单项能力突破这件事情,当然我看得有点可能有点狭隘了。
但是你可以看到上一代人工智能,比如说在机器视觉上。在有些特定的任务上,单项能力上,它确实突破了,它确实比人还好了。嗯,那 so what?它不解决问题,包括自动驾驶可能解决了,也不能啊对带来通用人工智能。其实大家都知道这个自动驾驶现在是是在在干什么,所以现在为什么大家又在从马斯克之后开始转向什么视觉方案啊,或者是大模型方案什么之类的这种方案?
嗯,是因为那大家重新认识了这个问题。重新定义了所谓驾驶这个行为到底是一个什么行为?这是什么意思?看你把这个问题定义在哪儿。比如说,原来是搞自动驾驶这个事情是一般来说两拨人,嗯,计算机的人和自动控制的人,搞自动化、自动控制的人就是两拨人,嗯。所以经典的这个自动驾驶的这个回路就是说我有感知。啊,不管是雷达也好,视觉也好,还是什么毫米波也好,嗯,对吧?
我采集信号,然后把它变成这个计算系统的输入,然后计算系统呢,它实际上是个决策系统,我要根据这个输入这些信号来研判,说我。在当下这个情况,到底是什么情况?然后决策我的行为输出是什么?是打方向、踩刹车还是加油门?它实际上是一个这样的一个闭环的这样的一个自动控制系统。它所有东西是白盒的、透明的。这种方法论就认为是说,我通过这样的一个闭环的这样的一个系统,我只要把它做到灵敏度足够高,只要做到我的感知的精度足够高,我的决策这个链路的时延时做的足够的短。
我就开车就没问题。嗯,但是后来发现,这种方案它最害怕的是各种 corner case。你可以训练一万遍,呃十万遍、一百万遍,路上碰到车怎么办?碰到公交车怎么办?碰到车道线怎么办?碰到红灯怎么办?但是你很难训练一千遍、一万遍,说路路上突然窜过去一只兔子怎么办?因为你没有那么多数据让它去学习这个模式到底是怎么回事。
嗯,对吧?这个判断题很难。对,它是笨的。它不是笨的,它是,它只能机械的、教条的执行这些我学习到的规则,规则以外的东西我是没有办法泛化的。这个就不是你们定义的那个认知智能。对,认知的能力是说我通过有限的样本学习,或者说。这个大量数据学习之后,我总结出来这个东西是能搬到一些我没见过的情况下,能泛化,能泛化的,嗯,这个才是我觉得是认知智能和原来的感知智能最大的一个区别,有脑子,对,得有脑子,但是脑子的最重要的点是在于我们能够根据这个记忆去推演一些新的情况,能够举一反三,对,就是能泛化,就是泛化,所以这个是很关键的一个东西。
但这个泛化能力到底是啥?是啥呢?学习能力、逻辑推理能力,还有自我纠正错误、识别错误、纠正错误的能力,你看这些加起,是不是就会出现一些能力?嗯,出现一种可能,我可以试嘛?人也是这样啊,对吧?教你开车,开会了那个手动挡的车,让你去开自动挡的车,其实你会很快就会。为什么?你会去尝试啊?尝试,哎,不对,跟以前不一样。
那么尝试几次之后,你就知道,哦,原来是这样。其实估计估计也没人告诉你怎么开,嗯,你自己就能学会,嗯,这就是你学习、反馈、试错。然后再发放到新的情况上去。因为我前段时间跟一个数据专家聊,我觉得印象还挺深的。他说什么样是好的数据?以前以为就是对的数据是好的数据,后来发现错了,就是有很多就是它中间出错,然后又纠正的数据是好的数据。
这种数据可能更贵,就是它含有那个试错的过程嘛。对对吧?这些数据里面,其实这这个就是我刚才说的一个问题,就是真正的认知的这个能力,或者说学习的这个能力本质是什么?人的这个认知能力到底是什么?它是从这个正确的数据里边已有的这个给它的这种规则性的这种数据里边学习到的这个知识更有用,机械性的知识记忆下来更有用,还是说在这个过程当中试错的这个经验对它来说更有用?
嗯,对吧?你看那个 Sutton 就今年的那个图灵奖,他的理论就是叫 experience error,就是进入到一个经验时代,经验是既有正确的又有失败的。错误的,你所有的体验从经验去学习,对对对,你所有的体验是你智能的提升的一个必经路径。对他也是The Bit Lesson的作者,是的,所以我觉得他说的有道理的,是有道理。
所以现在的学习,呃,大模型的这个学习越来越强调。呃,预训练之外的,呃,middle和post train,嗯,你看post
train大量的就是在做这方面的学习。哎,说到这个,我看看了唐杰老师前两天的那个啊,那个微博,他对写了一个很长的微博,在十二月二十三号的时候,他把人工智能当下这个范式和阶段其实描述的还是挺清晰的,就是说模型扩展,先是从预训练的scaling,然后到了middle post
training的scaling。
然后现在到了算是 Agent 阶段,他说的是原来的 Agent 是通过模型应用来实现,现在模型已经可以直接将 Agent 的数据集成到训练过程,增强模型的通用性。所以你们整体看这个 Scaling Law 在今天当下。这一刻,它还在继续吗?现在的scaling和比如说三年前、两年前的scaling出现什么变化?
其实这个事情挺有意思的。他写的这个这个东西,其实你还要再往前追溯追溯。其实我们之前,呃,我们提出来过一个叫L一到L五的,就通用人工智能实现的L一到L五的五个阶梯。嗯,预训练是第一个阶段,它解决的就是你从已有的数据里面学习到这种世界知识。一些常识,对对对,实际死记硬背吧,你就把它记下来就完了,嗯,对吧?
第二个呢是对齐和推理,对齐和推理就是说你记下这些知识之后,你要会用,正确的用,并且能够把它进行一些组合,在合适的地方去组合,来解答一些实际的问题。这里面的关键是强化学习,那个对齐和推理还不是,其实它的关键是
SFT。第三个阶段就是现在我们说的这个自学习阶段。就是它的关键是强化学习,自学习的对,重点是强化学习,对,就是它不断的在经验当中,在试错当中去学习正确的经验、错误的经验对比,然后不断的获取这个强化的信号,然后我去往正确的方向去走。
它不是一个死记硬背的过程,我学习的是一个过程,嗯,它是这个过程。然后 L4 呢是这个叫自我认知。因为,就还是回到我们说的那个张张院士画的那个象限图上,你除了你知道你知道的事情以外,你还得知道你不知道的东西。嗯,所以你没有这个自我认知的这个边界,你你就不知道哪些是我不知道的,哪些是我知道的。再往后L五就是到。
人类的这个类似像人类的意识这种 conscious 的那类东西,那就更复杂一些。嗯啊,定义还不是那么清晰,但至少,呃,我们认为就 L1 到 L5 应该是这么一个过程。所以现在在中间 L3 这个位置上。所以 scaling law 发展到 L3 的时候,你看 L1 的时候 scaling law 是什么?
就是参数量、数据量对算力。对啊,对数据、对算力报参数,嗯,对吧?L2。Scaling Law 变成了什么?变成了,呃,SFT就不说,变成了推理的计算时的这个叫啊推理时计算,Task Time Scaling,对,变成了这个计算量,然后 L3 变成了一个强化学习的 Scaling,L 成为这个 Scaling Law 的所谓的这个核心,那再往后是什么?
你看,scaling law,它它其实也是在不同的时间段、不同的这个阶段,它在不断的在变化的。其实这个变化也很正常,因为你想想,scaling law本身它提出来的时候是一个非常不严谨的一个说法。为什么?它就是说,随着这个参数量的这个增长。智能水平呈呈现一个指数级的爆发式的这种增长,它只是个现象的描述,嗯,它并没有一个很科学的依据。
它的本二三年大家都相信暴力美学啊,对呀,就简简单粗暴堆堆算力,对啊,对啊。但是这个从科学的角度来说,如果你发现了一个现象。对科学家来说,最吸引人的是什么?吸吸引大家是什么?是探究这个现象背后的原因到底是啥?我掌握了这个原因的本质,我就能利用好这个事情,而不是从简单的表象上来说,呃,就堆参数啊,堆吧。
总有一天你会堆到说,哎,好像不起作用了。哎,从你们的视角,什么时候是对算力不起作用的时候?是哪个时间点?这个倒也没有一个特别明确的时间点,其实是堆到一定程度之后,成本线受不了了。成本受不了了啊?对,有多贵了?非常贵啊!那你算力涨价,你你也知道,这个二三年就开始涨嘛。那涨得多可怕,成本受不了了,成本受不了了,大家就不敢继续这么。
那这个时候有两条路,就是第一个是我融更多的钱,我讲更大的故事;第二条路是开始优化。是你们选择哪一条?OpenAI走的坚决的走的第一条,嗯,是吧?嗯,然后我们呢做也做了第二条。第一条当然要做,你你你还得去融钱,这个纯靠自己挣钱,你肯定挣不来那点钱。你肯定第一条你要要做,然后第二条呢你也得做。所以当时我们做了很多这方面的工作,就你刚才问说我们训练呃G L M幺三零B花了多少钱?
对吧?我们算力我们才花了四百万人民币,算上人工啊什么七七八八加一起,大概大约一千万人民币。那你想想,OpenAI GPT三那个年代两千万美元,啊。十四分之一,所以这个是中国团队的优势,这是中国人的优势嘛?就大家会去向这个细节抠细节去要要这个效益,要这个收益,对成本,所以所以雕算法,中国团队雕的比较好,调这个东西,嗯,甚至包括后来说的我们说的能在这个比较便宜的这个叫消费级卡上做千亿模型的推理。
这事儿也是我们先干的,那也很便宜,降低成本。你从一百多万的成本,一百大几十万的成本,降到只需要二三十万。就大家也很 happy 啊,嗯,包括现在我们仍然也还在做这个事儿,嗯,这两天我们不是更新四点七吗?这个模型表现非常好,非常好啊。但是好并不是因为它把参数量又加了一倍或者什么之类的,没有啊。我们觉得参数量还是只有三百多亿。
它为什么好呢?好的点就在于说,首先第一,我的训练效率更高,数据利用率更高,对吧?模型的架构本身就有这个优势。第二。我们其实,在模型本身这个参数量设计、结构设计的时候,就考虑到未来,在推理的时候,怎么样控制这个成本,我就可以单机推理。八八卡就够,我不太需要什么十六卡。嗯,所以降成本一直是一条主线。对对对,一直是一条,一直是重点。
对对对,我们一直在做这个事儿,包括跟很多这个国产芯片啊什么之类的做适配啊什么,其实也是在找这个算力上这个成本降低的这种办法。刚才说到这个 scaling 的好好几个阶段,这个对应到智谱的发展的过程中,你觉得有影响它的一些决策吗?或者是技术判断?这个应该是伴随着整个的研究的过程。所以刚才表达那个意思是说,对于 scaling law 这种就是你现象描述的所谓的现象描述的这种事情,我们并不特别迷信。
所以二三年当大家市场上都在说暴力美学的时候,你你们是心里是不屑的?嗯,我们倒没有说特别不屑,只是说在能力范围之内。我们该做的事情肯定会去做。那那个时候我们的模型的体量,那时候还是dense模型嘛,就是单体的稠密模型嘛。嗯,一直就是一千千亿,嗯,一直到二四年到Gem四的时候才把它扩到两千亿。嗯,就我们一直很克制哦,就没有像市面上很多其他那个友商或者是研究团队啊,上来就直接奔着万亿去了。
或者大几千亿的模型去了,我觉得我们还是非常克制的。那当时会不会觉得自己太慢了?这件事情其实并不取决于这个模型的参数量,或者是这个规模上。其实本质上还是你看最后的效果,就是你们有自信一个小更小的模型其实是可以有类似效果或者更好的效果。其实里面有很多工东西都可以做,很多工作可以做。比如说刚才说,你刚才说了这个所谓叫好的数据和有价值的数据这个事情,数据工程上它其实有很多事情可以做。
嗯,同样的参数量,你用不同的数据去训练出来的效果可能不一样。那我把数据量减小百分之二十,但是性能仍然维持,那不挺好的吗?嗯,那我可以用剩下的一个计算量再加。百分之二十的别的数据,让它在别的能力上再有提升,这不挺好的吗?然后我加了这些数据之后,有可能比如说不同的训练方式或者不同的数据进去之后互相干扰。
模型的能力会下降,那我们怎么样让它加进去的时候不下降?就像我们做菜一样,呃,各种佐料佐一点,确实特别想做做菜啊。对啊,放进去,怎么能让它味道更好啊?不是变得更糟糕?这里边很多的讲究。如果 skinny load 不是一个非常科学的描述,你觉得这个过程更像是什么过程?哎,这是个非常好的问题。其实我一直在想,可能也没有什么特别准确的答案。
我个人对这个事情的认知是说,我们还是希望从科学的角度来说啊,还是希望不管是从原理,还是从工程实践系统的这个工程实践这个角度来说,去找到说所谓的这个智能。和计算之间的本质联系是什么?本质关系是什么?今天解答到什么程度了?今天的认识是什么样的?嗯,智能和计算之间,反正我的感受里面是没有什么特别明确答案。
至少就是说,现在得到一个结论是说,现在的这种计算方式,计算的这种方式其实还不是最完美的,应该还不是最完美,还会有更好的方式。现在的不足是什么?消耗太大,计算还是有些复杂。那其实那个。唐宁老师那个微博里面其实也提了一个第一条,就说了全规模不一定是终极答案,很有可能会有更有效或者更。这个优美的方式,算法结构,来替代,嗯,这就是我刚才讲的,就是我们看到了这些事情之后,做了很多的尝试之后,发现。
其实这个问题真的好像还不是最终答案。所以基于 Transformer 这个架构,它的效果你觉得现在已经见顶了吗?我觉得见顶到也还没有。就刚才说的,就是能做的事情还太多了,因为这个战线其实很长,就很多是工程优化。对对对,数据,然后算法,然后微调,微调。嗯。你看那个 Transformer,它最那个重要的就是 Attention 吧,就是注意力机制。
你看这个 Attention 的这个这个东西,从二三年。从二二年开始到现在,对魔改史,魔改史,你看这个爆了多少东西出来?嗯,我经常会看到一些论文里面讲各种各样的这个呃腾讯的这种变种,还挺有意思的。DeepSeek也做了一个,对啊,有很多啊,反正做了很多,嗯,这些事情,我们也做了一些研究的这方面的一些研究的工作,嗯,所以它为什么还有这么多的可以爆改的空间?
其实就是在于它本身可能还不是那个最完美的答案,还比较粗糙,啊,还有很多空间可以去探索。你没有探索下一代的架构吗?当然,不是基于transformer的各种可能性,我们都都有在关注,都有在尝试。那现在在这个架构上下的,你说智能鉴定了没有?我觉得还没有。嗯,就是本来通过微调,对,本来我们今年或者说叫对今年上半年或者说。
去年年底的时候,我们觉得,哎呀,其实挺难的了。啊!但第一个,你看过完年以后,今年年初的时候,DeepSeek这个出现,嗯,其实又给大家打开一个新的视野。你看,还可以再往上提升,嗯,对吧?包括推理能力,包括工程优化,还可以往上再提。嗯,原来我们讲说 M O E 可能并不一定是个特别好的,为什么当时觉得不是啊?
我是说,之前的很多的这种认知啊,它并不是一个结论。后来就发现,其实哎,还是有很多空间可以去做。然后我们也重新打足了精神,开始研究这些事情。呃,开始我们自己的一些尝试,到今年七月份、八月份四点五、四点六、四点七的探索,你会发现,哎,你看,我们也把这条路也走通,嗯,我们也加入自己的一些想法之后,在这个新的这个架构下,ME的架构下,呃,我们也探索出来一个别人没探索过的一个空间。
一个路径证明,就是中国人那句话叫“柳暗花明”嘛,就别轻易放弃。所以,即使是在 transformer attention 就注意力机制的这个框架底下。其实还有很多东空间可以挖,嗯,还有很多事情可以做,嗯,现在就过了那个浅浅挖一挖就有金矿的那个时候了,就第一锤的果实已经被人摘遍了,嗯,那剩下的事情并不代表没有果实了。
你看我们二三年讲的是王慧文、王王小川,二四年讲的是 K B M Max,嗯,到了二五年 Deepseek 成了主要的旋律,嗯,就 Deepseek 让你们吃惊吗?Deepseek 还是对我们影响还是比较大的。嗯,就是冲击很大吗?呃,对对,其实是不管是从研究层面还是从工程层面。呃,甚至包括市场层面,我们其实都仔仔细细的内部都研讨过这个事情,是反思还是研讨?
也算反思吧。我们反正工科的人就比较的叫理性化,嗯啊,这些都没什么太大差别。呃,几月份讨论的?就二月份吧。嗯,就二月份,春节一回来,我们就在密集的讨论这件事情。嗯,确实是给了我们很多的这个启示。和提醒,对,也学习到很多东西。嗯,当时讨论的结论是什么呀?讨论的结论就是说,其实应该更开放式的,更打开一些自己的这个视野,开放式的看待这个大模型的研究和这个市场。
很多时候,呃,这些因素都搅和在一起,你你很难把它理的非常的清楚,或分隔的非常的开。嗯嗯。所以还是需要各方的协同,以更开放的态度来看待这些事情。然后我们自己的研究方向应该还要更坚定一些。有有什么是觉得自己不坚定的、不够坚定的?倒也没有,不是说这个意思,就是,呃,有一些事情我们会觉得说,嗯,比如说我们发那个 GM 四 Plus 的时候是两百多 B 的一个模型,我们感觉就做不上去了。
好多地方就做不上去了,成本也很高,嗯之类的,这种事情。然后 DeepSeek 出来之后,会提醒大家说,其实你看强化学习这一块,我们还下力气不够,对吧?然后它的主要的贡献就是,强化学习这一块有一些新的策略和新的方法出现。那是第一个,第二个,在工程优化上其实还可以做的更底层更极致一些。第三个就是真正的这个下一个范式的这种探索,我觉得应该可以更大胆一些,去想象一下。
呃,因为我记得我印象比较深的是 Deepseek 当时的技术报告里边提出来是说,他们尝试把 SFT 跳过去,直接在 base 上做强化,嗯,也能七七八八。你们选择这条路了没?我们做了一些尝试,嗯,后来得出来的结论是说,其实还暂时没有办法完全把 Midjourney 扔掉,所以可能还是会。呃,用一些
meta train 的这样的一些阶段、这些方法,post train 就是尤其是强化学习这一块要加强是肯定的,而且这里后面加强了 RL。
对,后面后面你看这个最近四点七,或者前两天他们那个,呃,在那个 reddit 上开了一个 ma,然后我看了一下他们当时聊的那个记录里面,还挺有意思的。然后,呃,专门他们也介绍了就是。给大家介绍了我们的这个强化学习那个框架,叫SLAM,那个框架,挺典型的、挺有意思的一个研究的成果,算法或者叫工程融合的这样的一套方法。
你怎么把不同的任务在同样一个框架底下去,不同的强化学习任务,嗯,融合在一个框架底下,然后有机地把整合到一起,一个框架去解决所有的问题,嗯,我觉得这也是在那之后,在这方面获得这个长足进步和研究成果的一个体现,也得益于这些这些东西基础工作的这种。做的更扎实,才会有后面四点五、四点六、四点七这个一步一个台阶的这种上去。
这个我觉得 DeepSeek 可能整个这个行业大家都带来了很多学习的地方。你们当时在想什么呢?有没有在想为什么不是我们做的?我觉得这种问题好像对工科男来说不是一个必要思考的问题。嗯,因为我们比较尊重事实嘛。那事实就是说这个事情不是你做的。那你想这个问题好像。那当然,对我们呃后续改进这个有帮助,有帮助,对吧?
就是人家做对了什么,为什么这个事情我没有做?嗯,你想清楚这个原因,下次注意,对吧?就就就行了。而且 DeepSeek 非常坚定的开源,它比较彻底的吧,就是做了一个这个开源这个事情。你们对这个有什么想法?开源这个事儿,其实我们也一直在做这个事情。但是因为呃,你们最是最早开源的,对吧?我们刚才也聊到了,对对对。
从二三年开始,我们就呃二二年开始,我们一直在做开源这个事情,包括千次卷六B啊等等。到目前为止,我们已经有将近六七十个开源项目,这些项目的开这个下载量。已经六千多次,整个开源社区里面还是算是比较知名的一个开源的系列,嗯,这些内容,所以开源一直是我们刻在基因里的事情。毕竟从学校里出来,还是觉得回馈大家的这个研究啊,或者是这些。
创新的探索,我觉得是我们必须要做的事儿。但是作为公司做开源这个事情,你看美国这些公司就很清楚能感觉到,就是它慢慢放弃这个事情,对,更多的往商业化利益去考虑。为什么闭源的商业化利益更高?因为它有这个技术上技术的溢价。那前提也是因为就是说还有一个认知是说,呃,开源和免费之间是不画等号的,是不能直接画等号的。
但是在中国这个市场话语体系底下,好像这个是被混在一起的。嗯,DeepSeek做的很彻底,所以这个事情上又被加强了大家这个印象:所谓开源就是免费。嗯,但实际上本质上在商业化市场里面,你会发现。其实这个事儿还不真的不能混为一谈。所以 DeepSeek 彻底的开源对于其他人有什么冲击吗?肯定会有一些冲击。
彻底开源的结果就是说,大家可以基于它的一些很多的这个研究的这个成果。和基础去做很多事情,嗯,对吧?但其实我我是觉得,可能大家能复现他那个结果的也不多。它的开源策略给你们带来了什么影响?你们给我们带来的影响就是说,除了刚才说的是技术方面的事情,然后,呃,另外一方面就在商业化市场上,可能对我们的影响就是说,有很多。
就很多客户的脑子里边,他就把开源和免费就划等号了。嗯,给我们带来的影影响就是说,哎,你那都开源都不要钱了,你为什么还要收我钱呢?嗯,他会问这个问题。那怎么办?那只能用时间来证明。就是他们会说,哦,那我原来本来要采购的这个预算。已经批下来了,本来要我们签,然后说,哎,你看这个对不起,开源了,好像比你们也不差,甚至可能在某些方面还更好一点,那我是不是可以不用买了,我直接用它就好了?
嗯,对吧?然后我们会告诉客户说,其实你不要把开源和免费这个事情划等号啊,你用这个开源东西没问题,也OK。但是,其实和你真正想要获得的是一个商业化的服务这件事情本身是不等同的。你不要把这个事儿混到一起。嗯。然后有很多客户就去自己去尝试啊,就什么,呃,什么DeepSeek一体机啊,什么之类的,自己去布这个所谓的满血版啊。
当然,有的客户他没有这个能力,他找外面的团队来帮他来做这个事儿,也问到我们这儿。也问到我们这儿,来,那帮我把这个东西部署一下。然后有很多的人其实也做了这方面的尝试,但是我刚才说用时间来证明这个事情,就过了一段时间之后,你会发现,大部分人都掉头回来,为什么呢?因为。DeepSeek也不提供商业化服务。
就算我部署了这个东西,我顶多也就是把它当聊天机器人去问一问,我没有办法跟我的这个内部的系统什么之类的去做整合。这个需要很专业的这种服务和人士去做这个事儿。这DeepSeek原厂他也不给你提供这个服务。所以你说服了多少客户回来?我觉得是delay了我们一些客户。OK,啊,这些客户有一些就是有一些客户他是就回来了来找我。
来做这个事情,你们中间在开源闭源中间有过摇摆吗?为什么先开源后闭源又开源?我觉得基本上没有摇摆过,一直坚持是走开源的。所以,我们你可以去查一查,就是我们基本上所有的关键性的。模型的更迭,包括技术的更新,都有相应的开源,嗯,版本或者开源项目。但是我们在比较早期的时候,二三年、二四年的时候,是很明确的把开源和商业化这两件事情是分得比较清楚的。
开源是开源,开源一个版本,对对对对。然后闭源的做商业化,对对对。我们开源其实的目的是把核心技术放出去,让大家能够用得上,能够了解里面的细节是什么。在此基础之上,大家去做自己的创新和这个探索,嗯。商业化那个事情是面向商业化客户的,我们提供的不是说只是开源的这个里面的这个东西,这个这个这个参数文件几十个G。
对吧?我们提供的是基于这个东西的一系列的产品、工具还有服务。因为你的商业化的目的并不是说买个玩具回来摆在家里好看,嗯,而是我真的要把它用起来,然后转换成我的生产力,转换成我的商业收益、客户价值。当大家想通这个商业本身它的核心的锚点是什么的时候,他自然而然会回来找我。后来真的不少的。这些想明白的客户回来找我。
既然开源从商业上面有好处,那为什么梁文锋这么彻底的开源啊?我觉得他想得很明白,我我猜大概率他也不想去做这些。to B做服务这些事情,这个市场他也不缺钱,他也没想着要靠这个事情挣太多钱,我我觉得这个是首先一个很关键的一个点。第二个确实,他也有很执着的这个技术上的这个理想,他也不想去因为商业化这个事情去分分分担一些精力去做。
其他的一些事儿,那集中精力、集中资源来做这个技术的探索就好了。我猜啊,当然我没有那个荣幸去跟他聊一下,这个是不是这个真相?因为朱啸虎说,DeepSeek对世界的影响仍然是被低估的。嗯,尤其是在开源上。嗯,你觉得他说的对吗?我不知道这个未来它会演化成一个什么样的一个事情,当然因为还在持续的往前进嘛。然后不应该低估这件事情,不用太过于高估这件事情。
嗯,因为开源这个过程当中,其实大家都有很多人在做这个开源相关的一些事情,大家都有自己的这个贡献。其实包括 DeepSeek 自己本身,他也承认说,他有很多其实技术上的这些东西也是来自开源社区,吸取了很多的开源社区的这些养分。我觉得他想表达的是,如果没有就是 DeepSeek
这么彻底的开源的话,可能嗯,全球大模型就是被几家商业公司垄断的,这样其实智力是不平权的,尤其是美国公司都不开源,然后 DeepSeek 带来的大多数中国公司都开源了。
就是如果开源这件事情是开启了一个新的局面,就是让这个更多的公司都开源了,对,更多公司逼着大家去出来开源,来来做这个开源这件事情,我觉得这个是有一定的道理的。但我觉得,嗯,即使不是他,也会有别人来做这个事。就一定会有人开源,一定会有人来做这件事儿。开源对技术影响力好。首先,他在这个怎么说呢?在赢得这个开发者和社区的这个情感的认同上,会更更好一些。
当你没有特别显著的商业利益的时候,它是会是一个很好的选择。是是是,所以所以人很复杂,人很复杂,对人很复杂。嗯,这句话好像蕴含了很多深意。嗯,你觉得开源可能会对世界的影响呀?甚至可能是全球,就比如说有的地区可能用不起美国的模型,然后他就用了中国的模型。你觉得对于就是全球的这个智力分配会有一些系统性的影响吗?
当然,开源可能是加速了整个这个刚才说的那个智力平权的这个过程。包括其实你看老黄也在讲这个所谓的叫主权AI这个概念,嗯,对吧?他认为。这个技术可能没有国界,但是这个,呃,最终的应用和人它是有国界的,嗯,对吧?利益是有国界的,所以这个技术肯定不可能只掌握在非常少数的这个公司或者个人手里。所以开源这个事情,包括中国现在常常大家都开源这个事情,其实给世界提供了很多的这种。
选择第二个、第三个,甚至更多的选择。但就算没有开源这个事情,我觉得最终的结局可能也会是美国走他的一条路,商业公司捏的这个顶尖的这种闭源的商业的这个。呃,模型,嗯,呃,以此来推动资本的这种积累运转啊,然后呢,全球的其他的这个玩家。呃,可能都会努力的去寻找第二、第三甚至更多的选择。嗯,我觉得中国的战略来讲,肯定不会放弃这个路径。
所以,即使不是开源,他也会走一个路径,说我会做这个技术的输出,我会做这个去帮助大家去做自己的主权的AI,帮助大家去获得这个权利,去掌控自己的。这个AI的能力,嗯,我觉得这个是个必然的选择。这最后会转换成国家影响力,当然。你们在最开始决定开源的时候是基于什么原因?那当时我们刚刚才讲那个,呃,二二年那个Gem加三零B开源的时候,其实就说过这个事情。
其实还是,呃,希望打开市场,有更大的这个市场的影响力,然后也知道中国的企业啊团队也能做出世界级顶尖的这个事情来。再到后来呢,就确实是整个市场它的整个的趋势它就是这样了。然后中国的大模型基本上都开源了,大家都开始来。大部分的大部分的就做开源这个事情。那对我们来讲,本来开源也是我们秉持的一贯的这个事情,也没什么好犹豫的。
那就顺势而为了。对,你们是有开源历史的。然后像其他公司,Kimi Mini Max是从闭源转向了开源。嗯嗯,对。我们刚才说到一些研究话题啊,就是呃,因为唐老师也提到,就是Agent的泛化性不好。现在你们有什么解决思路没有?我觉得两个层面,第一个层面就是说,Agent的泛化能力这个事情,可能还是要从这个数据这一端去做一些工作。
啊,如何能够快速的去收集这些数据?嗯,低成本的收集这些数据,高质量的数据,然后能它能去学习,然后就像你刚才说了一样,所谓的好的数据这个事情是探索还是值得去探索,做很多事情。另外一方面还是从算法的角度,AIGC本质的这个能力,它还是依赖模型本身的这个智力。和认知能力上限,那怎么去推高这个智力和认知能力上限是肯定我们要去研究的问题。
你比如说,我们的 LLM 可以操作五十多步甚至两百步的这个长城的这种任务,再长呢?或者说它不是一次性完成,分成很多段完成呢?它怎么来解决这个记忆的问题?嗯,对吧?你上下文它这这个创作有限,你太长长的任务你怎么办呢?人是怎么做到的呢?嗯,啊,怎么来压缩呢?所以这里边还是有很多这种基础性的研究问题,这些问题都会帮助我们在 agent 的泛化能力上,啊任务的成功率上,去提升。
你觉得下一个 scaling 的新范式有可能是什么呀?目前来看,现在的这个 scaling 范式其实就是在强化学习这一块。嗯,我觉得再下一步,我个人认为啊,可能新范式可能就是在这个叫。自学习这一块,在线的强化学习或者自学习这一块,online
learning,对对对,可能那个时候的,呃,模型的这个训练推理之间并没有特别明显的界限,就它可能是连贯的,啊,它不再是一个截然分隔的两个阶段,它其实把这两个功能统一了。
这个我说不好,是算法层面会首先突破,还是从工程实践角度能实现这件事情?嗯,就是,就是它它它会。比较闭环的形成一个完整的闭环,就是推理的过程和收集反馈,反反馈完了之后,我的反馈信号怎么转换成我的强这个强化学习的下一步的输入,然后整个这个东西是自动化的,中间它没有明显的这个。断掉的,嗯,离线的部分。我看那个唐老师也提到,就是这个文本多模态、多模态生成这种,把这几个过程全部统一到一个模型的这个,你们探索这个方向吗?
我们一直在探索这个原生,这很贵是吧?它还还是那个问题,就是主要是那个数据量其实比较大,计算。消耗的算力比较大,嗯,啊,这个确实比较
expensive,嗯,所以你们探索的多吗?其实我们还是投了不少精力在这个事情里边。你严格讲,就是我们从技术角度来讲这个事情的话,其实不光是你把视觉和语言混合这个叫多模态,嗯,那还有比如说你不同的文本的数据也可以是跨模态的,就比如代码,它其实和自然语言它还不太一样,嗯,它也是其实是两种不同的。
模态混合在一起,嗯,甚至包括我们刚才说的像,那个 agent 的像它的执行、规划和执行的那个步骤那些数据,它也模态也不太完全一样啊。然后会,甚至还有现在在做这个 V L A。怎么控制机器人?啊,你们也做 V L A 啊?V L A 在研究,所以这些其实都属于这个叫跨模态的,怎么来统一这个事情?你觉得这会是一个趋势吗?
一定会是个趋势,是终极形态吗?我个人认为一定会是终极形态。那它基于 transformer 吗?不知道,不一定,这个说不好。最近看了一个 DeepMind 创始人的访谈,然后他就讲 A G I 是三种独立体的结合体,包括大语言模型、图像模型和世界模型,需要把它们统一到一个更大的模型中。你认可他这个观点吗?
他跟我们刚才说的是一个事儿,对吧?嗯,其实说的是一件事情。嗯,就不同模态和你不同的任务怎么把它。真正找到一个统一的这个建模的方式,原生的把它融合到一起,而不是用系统化的方法。如果这个实现了,会是AGI吗?我觉得AGI就看到曙光了,应该再加上刚才我说的那个在线学习,可能他就真的就看到曙光。你可以想象这样吧,就首先第一,你造出来一个。
脑子这个脑子呢,其实各种能力都有,语言能力、对图像的理解能力,然后对物理世界的这种这种判断能力、识别能力都有。嗯,然后再给它装上手脚,它能去叫世界模型去解决这个问题嘛?就它能去预测这个世界发生什么事情,然后跟世界进行交互,然后呢,交互的结果再反馈回来。变成一个强化的信号,然后我又能立刻的马上的接受这个强化学习的这个信号,在学习修改我的模型,这样闭环起来。
那这样的话,可能就是那个谁说的,对,你要选择让人工智能在什么范围、什么时候开始授权,让它自己去探索这个世界。那个时候可能就近了。这你觉得还有多远啊?呃,我其实也说不好有多远。呃,好像我看了好几种说法,一个是说的。可能二七年要开始有这个能力,嗯,达到我刚才说的那个状态,然后剩下就是等待,然后看他自己去学,学到什么程度,嗯,能不能学到,比如说超过人或者什么之类,接近人或者超过人,接近人和超过人其实其实就是我们说的基本上AGI的这个目标就到了,嗯,那这个就二七年到现在还有,呃,两年时间,然后二七年之后可能还需要花几年时间去调整这个。
效率啊,或者是学习的这个成果啊,怎么安全啊,等等等等这些事情,嗯,可能我理性的判断这件事情,可能需要比如说五年、八年这样的时间。你们都会跟进吗?如果这个是 A G I 的真方向,会,我们永远不会忘记,我们的目标就是 A G I。你们马上要上市了嘛?我们来聊聊这个话题。因为我想了想,智谱有可能会成为不仅是中国,它还是世界上就是第一个IPO的大模型公司。
你们动作比OpenAI快,那为什么AGI到现在都还没有实现?你们这些都纷纷上市。确实,这里面好多的原因。首先,第一个这件事情,我们一开始说的实现AGI这事儿,我们从来不认为它是一件非常简单的事情。嗯。它也不是一个非常短期就能实现的一个目标,嗯,它可能是一个马拉松,是一个长跑,非常长的一个距离,所以你一定要。
坚持下去,那在不同的阶段,你可能用不同的方式去度过这一段。可能比如说在马拉松起步的这个时候,你为了要摆脱大家比较拥挤的起步的阶段,你可能需要加一点速,跑到前头去,嗯,跑到第一集团去,嗯,现在都跑到了,是吗?对。然后在中间有一段时间,大家都坚持不住的时候,你会要去补给站拿一些补给,然后把自己的体力保持住,对吧?
不断的这个平衡自己的消耗和摄入能量之间的这种平衡。嗯,所以在不同的阶段,你会有不同的方式去运转。一整个这个体系,所以上市这个事情对我们来讲就自然而然的到了今天六年半,呃,到了今天,在我们的第一天成公司成立的这个规划里头,大概也就是在。六年七年这个时间,我们就要去面临IPO的这个事儿。当时已经规划进去了。
对,我们当时就自己给自己做过一个模型,这个啊每年这么增长百分之一百到一百五,然后巴拉巴拉巴拉巴拉到什么程度,哪一年开始我们就来去进入到IPO的这个所谓三年业绩期的这个考核。到那个时间点,我们自然而然的就知道说,哦,这个事儿我们要注意了,我们开始做这件事儿了。所以到了现在今年。来报IPO什么也是很自然的就走了这条路。
什么时候开始认真启动上市计划的?认真启动你要按,比如说我们刚才说倒推三年业绩期这个时间,那就是按三年期的就开始。这么早?二二年、二三年就开始了。所以就已经开始规划各种营收啊、增长啊这些事情。我们要怎么去做我们的商业化?怎么去做你的收入?包括成本。投入怎么去控制,包括团队怎么发展?不仅是你们这一波公司的上市,你觉得对于AGI来说,它是会是一个什么样的路标?
我觉得,呃,具备的意义还是非常大的。首先,第一个就是说,从资本市场的角度来说,你在一级市场都算是没有离开这个学校,对吧?一级市场的学校,学习、培养,然后成长的阶段。嗯,到二级市场之后,它是一个更商业化、更接近这个市场的这样的一个。阶段,嗯,对吧?很自然,它是一个里程碑,整个行业来讲也是个里程碑,嗯,就是证明了一件事情,说这件事情它并不是一个镜中花,水中月。
他还是可以走到这样的一个阶段的,它是一个真的能走走到一个产业级的这样的一个事情。有没有一部分原因是投资人也希望就是能够离场,他希望能够落袋为安?我不排除有这方面的有人这么想这件事情,但是我觉得像我们的很多投资人还是跟我们一样,就刚才说的。是保持着同样的信念和同样的这个想法,大家一起走下去,取得更大的成功,并不是说简单的上完市我们就退掉,然后落袋为安,挣了钱就OK。
其实也并不是那么简单。你们准备怎么用你们这笔就是补给款?招股书里都有。大家会把你们跟MiniMax放在一起来讨论,因为他们也在争夺这个第一股。对,你们时间是接近的,所以你们会是第一还是第二?这个就不知道了,这个要看这个。交易所那边怎么安排?你有什么想对 MindMaze CEO 说的吗?我跟严老师说话其实最近稍微少一点,之前还挺多。
最近为什么变少?啊,就碰面的机会比较少。你有什么想对他说的吗?我觉得祝大家好运吧。你怎么看 OpenAI 的上市?对,听说他也在准备,是吧?嗯嗯,我觉得 OpenAI 可能是另外一个故事,或者说在美国那个大的环境底下,又是另外的一种逻辑,叫高风险、高投入。高回报,嗯,三高,他们是赚的是这种这种逻辑,嗯,你们呢?
我觉得我们相对来说更符合中国的这种情况,嗯啊,追求的是在高风险或者说叫高科技的这个领域里面的追求。这个稳定性和可控性、可预期的这种模式,因为我们这个访谈发生在上市之前,你现在的状态是什么样?就快上市了,说不好什么状态。其实我我我觉得,当然很期待,就终于走到这一天了。嗯,很开心啊,我们,呃,六年多时间能发展到这一步,感觉到很庆幸,就很幸运吧,能走到这一步。
呃,当然我心里也很明白的知道,就说上市并不是终点,后面还有很多事情,嗯,呃,很多路要去走,很多事儿要去做。也不会简单的停在这一步。我是个天平座的人,哦,天生很平衡。问一个尖锐一点的问题啊,就是怎么应对上市后的技术投入、算力投入和二级市场的资本压力啊?就是上市之后会不会反而让你们变成一家平庸的公司?因为你们要就不敢投了吗?
要给股东交代?我绝对不会。这也是我刚才说我们说为什么我们希望通过当然跟你的这辆。聊天,啊,更多的这种途径,让大家知道智谱到底是在想什么,是在做什么。大家理解了我们为什么要投这些事情,为什么要做这些事情,为什么有这么大的这个研发投入。其实大家就理解我们背后的这些事情,很多事情其实起源于人和人之间的这种认知的差距和互相的这个不理解。
最近觉得被误解的是什么?我觉得可能有一些人认为说,哎,这个你看他们就是一个做项目制外包的。这个这个是吧?是个to G的公司,这个这个为了政府赚的。我觉得其实不是这样,其实有里面有很很深很多很深层的这个因素在里边。你看从表面上来看,中国的前十大互联网里互联网企业里边有九个是我们的客户,哎,其实都是我们很重要的客户。
很大量的客户,嗯,然后我们有百分之六十是企业客户,政府这块还只占到百分之二十,很少。所以其实我们是一个,你要说我们是一个to B的公司,这个可能我认,嗯嗯,对,就是说并那个并不是我们很真正占大头的东西,嗯,大头的事儿,嗯,其实我们一直说我们是服务企业,因为是企业才是整个这个社会里边生产力最集中的地方。
转化最效率最高的地方,最主要的地方,嗯,呃,生产力变革级别的技术,你当然是要找到这样的一些地方去落地。我觉得这个是一个很 straightforward 的这样的一个逻辑,嗯,这也是我们这些做工科、做理科出身的人。他容易想到的一个事情,我和一个AI一点零时代的创始人聊天,然后他有一个评价,我印象还蛮深的。
他说现在大模型公司上市就是在大逃生,在逃生,嗯,因为大家可能会觉得二六年的这个bubble会破,这也是一市场的一个观点,就是大家对二六年的预期不好,所以大家觉得二五年底、二六年初能上就快点上,这是可能是一个窗口期,也有人会这么评价。哎,你看,从两个方面我可以大概对这个问题进行一个解释。首先,第一。假设它是一个 bubble,我们上市能救我们吗?
或者说能救 AI 吗?能救投资人的钱包?那那那不是救我呀,对不对?所以这个事儿其实跟它上不上市没什么关系。所以你混淆这两件事情混在一起,这么说,其实我是不太认。逻辑上它没有必然关系,这是第一个。第二个。它是不是 bubble 这件事情,最近也讨论的比较多。我很习惯的跟大家聊这种天的时候,就会反问一句:你怎么定义 bubble?
什么叫 bubble?当然,任何周期都有泡沫,就是当我们在开始讨论这个,肯定很担心的是,像以前那种周期里大崩盘的这种情况。它这个崩盘是因为什么?投资过热嘛?投这些东西得不到相应的这种收益嘛?好,那最近的泡沫是什么?你定义期不清楚它的本质没关系,我们就类比嘛。最近的泡沫是什么?互联网?对呀。所有人都会告诉你说,最近的泡沫就是互联网那那波泡沫嘛。
嗯,但是你看,互联网就算互联网那个泡沫破了。他留下了什么?现在大家用的很多的东西,享受的很多东西,是那个泡沫的时代留下的东西。网络的基础设施,很多技术的革新,包括这些产品,很多东西的产品,都是那个年代留下。你为什么要担心八宝呢?担心自己刚好是被戳破的那个。说白了,还是担心自己兜里的钱,投资人的钱包。
对,嗯,其实说白了还是这个,就是说我能不能及时的收回我的呃投资的这个收益,并不是真正担心说我投入的没有产生实际的这个东西,或者说产生实际的这个生产力,或者留下这个真正有价值的东西,对吧?嗯,其实你看本质上的分析分析,大家其实是因为这个。那好,那你说到这个角度的时候,那这个问题就容易解了。投资这个角度,你觉得美国够吗?
你觉得中国够吗?都不够。哎,这是你的认为对吧?如果投资都不够的话,那凭什么叫bubble呢?觉得不够的原因是因为离AGI还很远。那既然它不够,那那那它再回来,那那离 A G I 很远,那我们要不要去追求 A G I?它有可能不在现有的技术范式下,有没有可能?那我们如果不投资,它会自然发生吗?它不会。
那不就完了吗?所以还得投资。对呀,那不就完?你这是从历史的大势来讲的。对呀,那那你你你你这个历史大势趋势它就是这个样子。我问你的这个问题,所有的逻辑都是一环一环相扣的,你就回答这些问题你就知道了。所以你担心这个事情其实是没有意义的,它必然会就是你刚才说的,必然某个时间段它必然会有bubble,会有这个泡沫,嗯,没问题,只是泡沫大小而已。
就那我就问你大小嘛?你说投资够吗?你你说不够。其实很多人也认为不够,我不敢说美国那边够不够,反正中国肯定是不够。比中国少很多。对啊,少非常多,是美国的几十分之一。我看过一个统计数字,大概二十二十二十多分之一吧,很小,投入不不是很大,而且很多的这种投入都投到了什么基础设施,反正就撒胡椒面撒下去了。嗯,它并不是集中在像美国那样集中在那几家。
脑袋上,这样这个情况也不太一样。所以你要说有bubble,我相信,在资本市场角度来看,美国那个事情可能是有bubble,但在中国这事儿不存在,它是不够的。它是远远不够的。你看朱啸虎,他之前一直说大模型六小龙,连上一代的 A S 小龙可能最后都不如。虽然我们进入了第二代的 A I 这个范式,你们出来创业是为了第二代 A I 范式。
但从一个上市公司的角度,你觉得它跟第一代 A I 公司有什么本质区别?我无意反驳他这个观点。当然,我觉得他这个结论下的有点早,因为上一代的 AI 大型龙其实现在还健在啊,还健在。你看才几年?你要从二三年开始算,现在才三年;你要再往前推一点,你说从我们公司成立一九年开始算,也才六年多。这么早就盖棺定论吗?
我觉得还太早,所以他说的是个预测。预测这个事情呢,你可以不评价,我们就等着时间来证明就完了。还是回到那个点,他们觉得这个to B的你这个定制的商业模式不性感。呃,我觉得不是说呃to B就一定是定制,或者说。这个事情,刚才我下次在国内也不好,对也不好,就所以它,哎,这个东西你不能摆摆脱这个实际的市场情况来说这个事情。
嗯,我知道很多东西,包括定价模式或者说估值模式,很很多东西是从从资本市场的很多东西是从。海外过来的,从美国过来的,因为毕竟他们比较靠前,但是别忘了这些东西都根植于他的文化,根植于他的历史,根据他的经济、社会经济的状况。嗯,中国的事情很多时候不是按这个来的,硬套,可能并不一定是个好事情。嗯,所以你还是走的是一个更符合中国叙事的一个路线。
嗯,也许maybe我们一直是认为说天底下的路其实不止只有一条。嗯,很多时候。并不要用这个历史的很多的这个既有的这种经验或者说规则来框一些新的东西。很多时候,你的错失的一些机会和一些事情都是因为这个。你看大模型早期开始的时候,其实大家的判断也是一样的呀,很多人说。这不就是暴暴利吗?一点都不科学的所谓的优美。
那事实证明呢?当时的说这些预判的人,可能我不能说他错了,但至少他没预测对。所以这个没关系,说什么都会有。我们坚持。呃,我们所认为的,而且它背后是有一套逻辑的,来支持我的这个逻辑判断、我的判断、我的决策,然后我坚持做我自己的事情。刚才我们其实那个关于to C的问题没有聊完,你好像没有告诉我一个时间点,是你明确决定to C不是我们的重点,这是有一个关键的决定的时间的吗?
基本上DeepSeek那一波出来之后,基本上我们就不再。花很多的精力去资源去做推广哦,之前是推的,就是在DeepSeek之前是推的啊。当然也非常克制啊,就大家也很少看到我们的比较不多,看到我们的东西没那么多。啊,那个时候还是觉得有To C的可能性的,有一定的可能性,因为我们当时打的几个嗯用户群体其实也是挺明确的,嗯。
啊,上班族、学生、程序员等等这些群体,给他一个好工具,嗯,并不是说。创造什么心这个情绪价值啊什么之类的,我们不会去打这种点。这个也不是你们的基因对吧?对,做这种娱乐性的产品。那你怎么看到国内的这个to C市场?嗯,to C战场,AI to C战场,豆包啊,千问啊,DeepSeek啊。to C这个事情,可能目前来看,纯C啊,就是一般用户、大众用户,可能还真是互联网大厂的机会。
嗯,因为这没办法。大量的这个平台,还有流量,还有用户入口,都在他们手里,他们比较容易把这些都切走。所以,如果只是简单的一种,就产品本身的价值不是很那个什么的话,没有什么独特性的话。很难复制的点的话,出事的这个战场基本上就是他们的,短期之内肯定就是这样。我听过一个评论,就是在讲智谱的,嗯,他们说,嗯,因为智谱其实一直不算是市场上最火、最明星的项目,对吧?
嗯,就是都不是,就是流量关注度最高的一个项目,呃,但是是技术延伸的项目,然后你们是有视野、有技术,但是看起来会有点。Boring就是非常的现实,你觉得这个评价中肯吗?他给我一个描述说,就像水泥一样,没有那么的有趣,但是稳定性好。这个评论对你来说是中肯的吗?还算中肯吧,就像那个大家评价这个清华的理工男一样,就是boring。
啊,就是他很聪明啊,也很能干啊,这个,对吧?正经用途,这让他干什么事情,他能干的很漂亮,什么之类。但是,他就是没有太多的情绪价值。Kimi相对你们来说还是更酷一点,对吧?从外部观感来看,嗯,怎么说呢?他也是清华理工男。对,所以这个我就是,呃,这这就是我佩服智灵,当然佩服智灵的一点,他是很会抓住普通人的这个眼球,嗯,知道怎么去推广,怎么去理解普通人的这些需求和想法。
在我们看来,我们可能在这方面做的没有那么好。嗯,也跟我们的定位有关系。你们有反思过吗?你们有觉得更 C 一点吗?更新眼球一点,更酷一点吗?还是做过一些尝试,做过一些事情,想要做这些事情,一直在努力。嗯,其实,所以我们在,其实我们在这个,比如说像开发者、像这程序员、像这一类的人群里边,其实我们做过一些调查,大家对我们的口碑还是不错的。
因为你坚持开源吗?啊,对,当然开源是会有一批了。当然,包括我们的产品,包括我们的很多的优点,都是这帮人比较喜欢。嗯,踏实工程师文化,哎,这这么总结应该可以。就清华其实还是很提倡工程师文化。我觉得你其实是就是还没有很好的准备就做了CEO,并且被推进了一个这个大浪,这种你这三年什么感觉?你怎么知道我没有做好准备?
不过你说对了,其实这个东西,后来我们自己内部几个人一起。喝酒聊天的时候也说了这个事情。其实你任何时候都是没有准备好的,很多时候是你只要认准了这个方向,愿意去学习,愿意去不断的提升自己,愿意去做这件事情,呃,也不用太害怕,就可以去做。我觉得清华给我们最大的一个好处是教会了我们学习的方法,学习的能力。而且有这种学习的欲望,什么事情都愿意去学习,嗯,我觉得这就挺好。
当然不是说足够啊,这就挺好。这个过程中最折磨你的是什么事儿啊?其实还是来自于对这些事情很多事情的不熟悉。比如说我们开始大规模做商业化之后,呃,说实话,这里边,还是要面临很多的这种挑战。之前没有碰到过,其实也没有人能告诉你怎么去处理,因为我们做的这些事情也是比较新的,商业模式也比较新,用户也好,投资人也好,客户也好,对我们的看法其实也都非常的千奇百怪。
你怎么样让你的这个认知和对方的这个认知能够。对齐,其实这个挺 suffering 的,你要花很多精力去跟大家沟通、去交流、去拉齐这个认知,一遍又一遍地重复很多的话。跟客户交流是你的工作。对很多客户,其实我都会到一线去跟大家去讲。你刚刚也说,就是在治理上也遇到过很多困难,在成本控制上遇到过很多困难。这个困难比较大的时候是什么时候?
当时我们刚出来创业的时候,这个张院士算是见多识广,跟我们讲过一件事儿,我印象还比较深。他说,哎,创业企业啊,有几个坎。第一个坎呢是你五十个人,嗯,哎,一般的都能挺得过去,比较简单,你挣到钱就行,你只要有挣钱就行,亏不亏的不关键。第二个坎呢是两百人,第三个坎呢可能是五百或者甚至更多一点,所以这几个坎呢其实都就是决定你你生死的,可能任何一个坎你过不去,你这个企业可能就完蛋了。
但是我其实不是太理解这个。张院士为什么这么说,或者说到底这个坎是因为什么?当我们亲身经历完了之后,就回过头再去看这个事情,其实非常有道理。它其实关键不在于说那个具体的那个数字是多少,是几十个人,还是一百个人,还是两百个人,还是多少人?它其实代表的是企业发展的几个阶段。第一个阶段呢,就几十个人呢,就是说只要挣到钱就好,是什么呢?
是。你要给跟团队的信心要建立起来,就说你做的这个事儿,它是能持续下去的,嗯,别先散了,还没干呢,就是散了。这是第一件事,所以这个一般来说,第一件事情比较容易能出去,能能过去。第二个阶段呢,是说一百人或者两百人这个阶阶段呢,是企业到了一个新的阶段,是开始有一定的分工,比如说有负责商业化的,嗯,有负责研发的,有负责做产品的,有负责日常运转的,方方面面开始有分工。
团队分工之后,就会带来一个大家各自负责一摊,有带来一个就是互相沟通交流对齐,就是产生管理成本,管理上的消耗。嗯,如果这个时候如果协调不好。可能就分崩离析了,对吧?就协调不好,就可能各管一摊,就就就管不起来,就统不起来。大家的目的是不一样的,最后可能就分崩离析了。到了这个几百人、五百人甚至更多人的时候,这个规模上去之后,会产生另外一个问题,就管理学上的一个问题,就是你还出开始出现这个分层,出现中间的这些管理者。
它不再是一个很扁平的状态,你的信息的传导会变得越来越长,对其会越来越难,你管理的成本会越来越高,各种各样的合规、安全等等这方面的事情会越来越麻烦。原来我们在课件的时候,到大约一百多人搬到这边来的,基本上所有人我都认识,都叫得出来名字,干什么的我都知道。但是搬到这边来之后,两层,我的办公室在其中一层,嗯,自然另外那一层我很早就去,去的没那么多,那有可能一段时间之后。
公司里面就有一批人,我叫不全名字了,就不知道他在干嘛了。这种你心里会有落差?不是落差,就会产生这种就是其管理上的这样的一些空白的地带,就是不在你的视野之内。你靠你个人已经不可能cover掉了,嗯,靠你整个企业的这个管理的体系机制,运转感觉不在你的掌控内。但其实你是可以掌控的,这个就有一个,你说是落差也好,或者心理上的变化也好,也都可以。
怎么变化的心理上?你会要相信,或者说更花一些精力去在整个机制体制运转、定一些规章制度,嗯,这些方面去,而不是说什么事情都在我的视线范围之内。很多事情不在你的视线范围之内去发生,但你怎么让这件事儿都在你的掌控范围之内,不能超出一定的范围,都是安全可控。这个就是企业它发展不同的阶段,它需要的不同的。事情。
那现在我们又有个新的坎,嗯,要上市,那上市企业合规要求是很高的。让你很难受的是哪件事?难受到没有,就是辛苦一点,累一点。这个到有很多沟通工作,是沟通,然后包括协调,包括做一些调整。过程中有犯过什么错没有?还好吧,我们比较幸运,没有犯什么大的错误。在智谱的决策机制是什么样的呀?几个联合创始人之间?我们完成这个股改之后是有董事会嘛?
那大事情就是上董事会去决策了。然后日常的有这个管业务的有有专门的委员会,嗯,然后管这个日常运营的也有,嗯,专业的这个委员会,大部分日常的运营就是这些委员会会有几个人一起来决策对吧?所以还是相对比较简单。CEO、董事长、首席科学家唐杰老师,这这几个是怎么分工的呀?当然,唐老师这个首席科学家他肯定就主要就是在研究、科研这一块。
然后,有一些重大决策这些事情,他作为这个创始团队肯定会要去做重要的这个决策。嗯。然后董事长这边主要是帮助在对接像这个监管,嗯,政府。还有部委的一些事情,然后包括公司还有融资啊等等这方面的一些事情,他会花很多精力在这方面。然后我这边现在主要是花比较多的精力,就是公司的日常运营,尤其尤其是这个靠前台,就是市场化这一块。
商业化这一块的事情比较多,因为你们的核心团队都来自于清华嘛,会造成其他人加入智谱会有文化难以融合吗?如果他不是清华的,我们也还是有不少的这个核心的人员都也来自其他的,如果学校的话,比如说复旦啊、上交啊什么这些。呃,都有,嗯,北大还都有,然后还有来自大厂的,像什么字节啊、阿里啊、腾讯啊这些都有,所以相对来说。
还是比较 open 的一个文化。有人会叫你们叫学院派,你觉得这种说法中肯吗?挺对的吧,因为从学院里出来的嘛。就是学院派创业需要,嗯,就是你们有什么能耗吗?就是你觉得需要克服的不好的惯性是什么呀?学院派创业可能大家最多诟病的就是说学术气息比较重,大家对于技术研发、创新这一块看的会比较重,对商业化这块就相对比较忽视。
可能是大家诟病的比较多的一个问题,我觉得我们还是挺注意这一点。但还有一个原因,还有一个这个因素,我考虑是说,当时我说过,我们当时在实验室里面其实也就开始挣钱。也接触市场的这种机会其实也比较早,所以其实,在这一块多少还行,我们也还都知道这些事情怎么怎么去弄,大方向不会就刚才说的不会犯什么大特别大的错误。
走到今天,你对智谱的状态满意吗?对智谱的成长满意吗?你要说百分之百说智谱很perfect,我当然也不相信。这个毕竟,呃,一路走过来,确实时间还比较短,嗯,几年时间太快了,太快了,也发展的很快,所以这个中间这个你要说很完美,肯定不是有很多事情,我们觉得还是能够做到更好的,比如说,比如说,呃,有一些这个产品方向的决策上,我觉得我们可以更聚焦一点,今年可能好一点,去年的话做了很多的事情,多模态。
包括跟类似Sora的产品,就Co Co Video啊什么之类的,嗯,呃,也做了很多新的一些探索。这些探索到了一定程度之后,可能由于一些资源啊等方面的一些原因,后续的这个研究和推进就会相对的比较缓慢。或者说放慢速度,我是觉得可能在这一块的话,我们可以更合理的来规划一下。嗯,就是原来是敞开了,就全部都平行,大家一起来做这个事情,都来做。
反正只要想做,我们就一起来做。这不是所谓的自下而上文化吗?对,看哪里能涌现。是,其实可以更聚焦一点,就是我们把带宽缩小一点啊。那有些任务呢,适当的就是串行一些。哦,就做完一件事情再一件事情,这样的话,第一你资源的有效利用,第二呢也从时间和空间就做个平衡嘛,嗯,就控制一下自己的这。这个成本支出啊等等各方面的一些风险。
其实从去年开始,就是模型公司都开始分化了嘛。硅谷公司它都有不一样的 bet。我鹏还成为了一家应用公司,Anthropic 可能成了一个呃 to B,但是现在也在 coding 领域也做得非常好。那你觉得质朴的不一样的 bet 是什么呢?就是你说要收敛嘛?那你们要收敛在哪里呢?然后它有这种独特的下赌注吧?
呃,二五年初的时候,我们大概有三个预测啊。嗯,首先第一个就是基座模型能力持续提升这件事儿,甚至是。呃,多模态或者是多种数据融合的这种混合型的这种基座模型是一个大的方向。第二个是智能体这件事儿,它是会是一个很重要的这样的一个方向。第三个就是国际化。当时我们年初的时候就说了这三件事。现在回去回过头就来看,其实一一都验证。
从现在当下的这个状况来看的话,明年或者说未来,我们要继续 bet 只有一件事情,就是 A G
I。当然说这个事情比较长,如果你拆解到,呃,短期。首先,智能体这件事情,我觉得还是非常非常重要,它解决了这个模型到真正实际应用之间的这个落落地路径的问题,它肯定是一个很重要的事情。第二个事情是,还是我刚才说的那个新的那个 scaling law 的新的计算范式这件事情上,我觉得像 RL
这一块,嗯,这个事情它会持续的会有新的范式诞生,所以这两点是我们相信,我觉得也是。
呃,智谱在接下来这段时间里边,比较重要的要去发力的点,你觉得你们能被评价为一个理想主义的团队,还是一个现实主义的团队?我觉得我们还相对比较平衡。平衡,对,因为我我个人天秤座,对我是个天天平座的人,嗯,我就比较平衡,就是我们可以有很远大的理想,这个理想我们一直不会放弃,嗯,但是呢,又不是说我们只空有理想,也不知道,不知道怎么去做,嗯,但是真的,当我们把这个理这个要实现的路径、目标、阶段性的目标确定清楚的时候,我们会非常扎实、非常落地的去执行去。
达成这个阶段性的成果,嗯,我觉得这个是我们这个团队还是非常有特点的一个地方,一个平衡的团队。哎,那你你刚才没有回答我那个问题,就是你觉得中国谁真正在追求AGI啊?其实说实话,我不是太知道这个,我不好我不好去判断这件事情,因为我发现跟大家聊完一圈之后,大家对于AGI的这个定义的差别很大,嗯,所以大家。
你说你在追求 A G I,我就说我在追求 A G I。但这个事情你需要相信的不再是这一句话,是它那个本质。对于你们来说,本质是我们的本质其实用我们公司那个 slogan,其实还是挺挺好能解释,让机器像人类一样思考。对,其实但最终呢,你思考能思考的机器最终还是要反过头来去赋能人类,人类的社会,人类的这个历史,让那个人类社会更更美好,这是我们想要做的事情,这就是工程师文化。
唐杰老师是一个什么样人?唐老师是一个绝顶聪明、非常有执行力、很热情的一个人。一旦他想清楚一件事情,想要怎么想要做这件事情,他会特别的push,特别的有fashion的去干这件事情。嗯,而且非常的专注。他现在最push的是啥?拼命的push我们的团队把模型的能力持续的往上拱。所以你看他在微博上会在问说大家关心什么。
呃,想要下一个版本的模型,对吧?有什么能力?这是他可能目前最核心、最关心的也是。当然,这个上市的事儿他也很关心的。最近团队状态怎么样?要上市了,我觉得还不错吧。整体上大家还都比较精神状态还都比较饱满,得益于最近的不管是模型技术、模型的发布,还有这个商业化的结果。方方面面其实也都还比较如预期吧,所以大家整体上状态还不错。
作为CEO,你会怎么管理大家预期吗?你最近有跟大家说什么?嗯,我们团队内部经常会就每周会开会对齐,然后尤其商业化这一块,当然市场上是会什么这个一个一个变化,我们要怎么去应对这些变化?然后跟技术部门怎么样去研究部门怎么样去沟通,怎么让我们的研究和商业化的这件事情不是两张皮,能够更好的去沟通。这个内部有很多的这些事情,我觉得作为CEO是一个桥梁。
是搭搭台子,让大家发挥自己的能力、想象力、能力、执行力,去达成结果。嗯,所以很多时候是我也会很惊讶,底下或者说。小朋友们会做出来一些超出我们预期的一些事情,我挺享受这个过程的。什么时候能 break even 啊?这个财报里面应该会给相关的这些预测。嗯,应该我们会按照我们现在的整体的商业化,包括业务上的这个变化,整体上这个还是比较向好的。
包括我们的这个云端的这个收入很快速的这种上涨。嗯,然后 to B 的。然后,这个我们的收入也在稳步的,每年保持一个比较高速的一个速度的增长。随着我们的这个研发,包括这个技术本身的收敛、成本的投入,持续的在优化。所以应该来说,这个过程不会太长。最近上市背后有什么有意思的故事没有?我去参加了一下摩尔的敲钟的那个仪式啊,因为我们跟摩尔合作还时间还挺长,让他们也邀请我过去,然后我就顺便去上海又去了一趟。
然后我我跟他们说,我说我来学习一下,看看那个敲钟。学习怎么敲?对对对,敲钟是个什么样的过程?嗯,哎,挺有意思。跟他们也聊了一下,其实呃。呃,挺感慨的,因为他们也是北京企业嘛,离我们不远。嗯,但是他们也创造了一些历史,确实大家都很不容易,这一波非常非常的不容易,各自有各自面临的这种难题,然后挑战。能走到这一步,走到这个今天的,可以说都是英雄。
做一家实现了AGI的公司,和做一家利润很高的公司,这两个二选一,你选哪个?当然实现AGI的公司嘛,这个不用想了。哪怕实现了AGI,然后挂了也可以吗?说这个话就太不吉利啊!那这个,这个当然我们不希望呃挂掉,而且我相信,如果我们能够实现AGI,我们不会挂掉,我们也会是一个很伟大的公司。仅仅从商业化上来说,也会是一个很伟大的公司。
这两者并不是对立的。你觉得智谱如果做成什么样,你是不满意的?往后看五年,只赚钱没有技术的产出,或者说对这个行业的这种贡献,我觉得我就肯定不满意。你觉得你们的技术理想主义和比如说梁文锋的技术理想主义有什么不同?这个问题还真没有。特别的去思考这件事情,可能我们更期待说我们自己的这个技术理想主义,我们能把它变成现实。
就像我们那个slogan里面讲一样,我们不光要让机器像人一样去思考,还得让它思考完了之后,反过头来能用得上,产生实际的价值。所以可能我们要的更多一点,想要做的事情更多一点。除了在实验室里面,我们我每天对着这个屏幕敲代码,然后做实验,然后对着这些机器去折腾,也会卷起裤管、撸起袖管去跟客户的现场去去做商业化,去跟解决大家实际的问题。
不是说你买了我的东西,拜拜再见,是真的让用户说,哎,你这东西挺好用的,解决了我实际的问题。那个我们的成就感就完全不一样。我觉得可能在这点上,我们想的会丰富一些。你刚刚一直说,其实回望过去六年半,蛮感慨的。嗯,有没有一些就是自己感慨的瞬间啊?就自己觉得比较动容的瞬间?还是有的。我有这一闪过,这过过去这几年里边,其实还有很多的这种瞬间的。
正好我们在二一年底的时候,在深圳注册了一家分支机构,是为了深圳的一个比较大的一个客户。一个事情,我就孤身一个人就跑到深圳了。七月份,然后一直待到年底,因为要融资啊等等这些原因,不得不回到北京。嗯,在那边待了小半年。那段时间,你想,正好碰上我们灵璧,嗯,开源发布、融资一系列的事情。而且我回去的时候,并不是空手回去的,我是带着几千万的合同回去的。
是客户合同是吧?对,就基本上就是我一个人去,然后啊,在那待了半年,不停的在想办法促成这件事情,所以那时候挺挺感慨的。给公司赚钱是一种什么感觉?还是挺自豪的。哦,就是证明我们还是有这个挣钱的能力嘛,就我们的技术还是有人愿意买单的,能给我们的客户去创造价值。会觉得自己苦哈哈吗?苦哈哈,我觉得倒不怕,就这这这这个,我觉得吃苦那个事情,我觉得倒倒没啥,只要有回报,我觉得都 OK。
这是一个瞬间,对,当时这个我自己倒没感觉啥,还还挺平静的。后来回过头,那年年底的时候想想,我觉得还挺不容易,真的挺不容易的。两点线都不能三点,但是最终把这个事情达成了,我觉得就就还非常了不起。再然后就是我们开发布会,他们会我说,然后你上台去发布一下我们这个手机的这个智能体,现场。让智能体给大家发个红包,我的印象也特别深。
其实出了一点小小的 bug,嗯,出了一点点非常小的一个
bug,就是那个红包的那个金额,它填错了一位数字。但不影响,不影响,我们还是发出去了。那一刻我也是觉得,但后来有人评评论嘛,这个是AI给人类发的第一个红包,还是挺有成就感。再往后,今年的应该是七月份发布我们四点五这个模型的时候,嗯,又是另外一个感觉,因为那次发布zxj我们开了一个比较大的发布会嘛,就是一个open
day的一个活动,现场来了好几百人。
然后今年七点五发布的时候,其实就没有太多人。可能现在也就几十个人,嗯,也不多,然后我们也没有特别大的去做这个发布啊什么之类的,呃,比较低调,嗯,主要是在线上上线,然后。开源了,然后现场就是我也就很平淡的跟大家讲了讲,大家也没引起大家太多的这个关注关注,嗯,但是在线上,在海外很多评价很高,因为第一你开源,第二效果确实不错,从四点五开始那个效果非常好,后来就陆续发生很多很魔幻的事情了,就是。
什么美国公司来套壳我们?像那个 WinServe 啊,什么这些用我们的,不是套壳,就用直接用我们的模型嘛。嗯,Servas 他们就把请问下了,然后上了我们的模型,专门给 WinServe 他们服务。嗯,然后后来还有,据说还有一些什么什么厂家拿我们的模型开源的模型去去蒸馏、去裁剪,然后套壳用它就。装做他们的模型去去给客户提供服务,后来就发生了很多的这样这种事情,就当时觉得挺感慨的。
你看,你看,就我们。发布上,宣发上,其实我们并没有做太多的事情。现在技术上就不需要发布。对,其实你本质上你还是把这个事情做好,大家认可你,自然而然这件事情它还是会有这相应的这种回响。所以后来到四点六、四点七,你看我们其实都没有做特别大的,不像不像以前动不动就开个大发布会,妈现场几百人一起来嗨一下。没有,这其实某种程度也是 DeepSeek 教大家的,对对对,也算吧。
嗯,就是可能大家在有点审美疲劳。就对这种事情有点审美疲劳,嗯,就是你无论如何你吹的怎么样,或者说宣传的怎么样,最终还是回归到实际的应用效果上来。所以其实大浪拍过来的时候你是毫无准备的,然后就被这样很魔幻的走过了这三年。是是,像我的数学导师,其实他当时跟我们讲了一句话,我到现在还记得,他说机会永远是这个留给有准备的人的,就哪怕是。
你在海上漂着,有一块木板从你眼前飘过,你也要扑腾两下,才能把它抓住。所以你还是要有准备,时时刻刻都有准备,做好这个准备。这个事情我也在想怎么来做。你要想精准的预测清楚未来会发生什么事情,什么时间点发生什么事情,这个很难。所以你不可能有针对性的准备,不可能针对说我知道明天要发生啥,我先准备一下,嗯,不可能。
那你什么叫做好准备呢?只有是日复一日。年复一年,坚持认为你觉得正确的事情,不要懈怠,不断的积累,不断的去做这些事情,沿着这个你认为正确的路走下去。而且不要被噪声所干扰。当机会来的时候,你就有能力去抓住它。所以我觉得我们一方面是幸运的走过来这几年,公司六年多,时机、时间、各种的环境、大的环境,其实你可以认为都站在我们这边。
也认识了很多朋友,志同道合的一起来做这件事情。另外一方面呢,也得益于我们一直在积累。一直在做好准备,能抓得住这些机会。中国人讲叫天时地利人和,可能你要成就一些事情。这个东西,缺一不可。敲钟好像就是是那个手感还是挺神奇的。你准备重重的敲还是轻轻的敲?不知道。你准备用什么力度?现场去看一下那个钟有多大。
开玩笑,开玩笑。一百年后,如果智谱会出现在人工智能的历史书上,你希望它是被怎么撰写的?可能从我个人角度来说,我希望它能够在这个智谱的注脚里边有这么一句话。智谱是 AGI 历史上的一个先行者。你看,我们做这个事情也非常的早,嗯啊,投入这个事情很早,包括我们成立公司做很多的事情,包括技术上的突破,很多时候我们都是在吃螃蟹。
但最终,大家的可能留给大家的这个印象里边,我觉得这么一句话还是挺早对你们来说重要的。为什么不是创新者,而是先行者?先行者一般就是创新者,就开路的人。好了,今天的节目就是这样。这里是商业访谈录,是一档由语言及世界工作室出品的深度访谈节目。你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是语言及世界,Language is World。
我们希望和你一起从这里探索新的世界。