Hello,大家好,我是明浩,图乐之树的主播,也是今天赛博赶海的串台主播。对,然后今天非常有幸邀请到两位嘉宾聊一聊现在这个时间点可能很热门的一个话题。当然,我觉得今天的节目可能跟大家最近一段时间频繁听到的很多节目的切入角度有不太一样的角度,啊,我们可能更多会集中在偏数据这一层面去解读最近一段时间AI行业最热的话题,关于Agent跟龙虾的这个议题。

然后,要不我们今天先请两位嘉宾做个简单的自我介绍。OK,好的,我先做一个自我介绍,我姓刘啊,刘华阳,然后是一家企业的数据库架构师,也是这家企业的数据库部门的负责人,戴老师啊,大家好,我是那个戴涛。目前在 Oceanbase 负责 AI

相关的解决方案。对,听到两两位老师的这个背景,大家应该知道,我们可能会集中在探讨,呃,AI 这种范式今天,尤其是二六年初这个时间点突然带来的新一波浪潮所引发的对于数据的讨论。

那先问几个这个小问题,比如说两位老师都养自己的这个 OpenClaw 吗?或者说这个有有有什么在过程中遇到的比较有意思的事情?无论是你们的,还是你们听到,还是你们朋友的都可以。嗯,OK,好的,那我先来哈。嗯嗯,作为这个企业里边的一个,作为服务数据库的一个一个部门或者是一个机构,嗯,其实我们对这个 Open Cloud 的这个产品是有一些看法。

嗯,我们先不说养不养它,就是在这个整体的 Open Cloud 的这个设计当中,其实在企业的落地里边,我们觉得可能会有一些问题。嗯。对,尤其是在呃数据的这一对,所以今天会聊这个问题,会我我们做比较多的延展在这一身上。对,然后嗯,主要是数据库,其实其实还是要说到老本行啊,就是数据库。我这三句话离不开数据库,就是。

啊,无论是AI还是Agent,嗯哼,我们都是要有数据的。当然,没有数据的话是不能做这些事情的。是的,那么现在OpenClaw的一个最大的争议的地方就是它对使用数据的一个。啊,范畴域安全性的一些问题啊,这是我们可能待会儿要深入去说的。是的,啊,这个部分。那其实我们特别想的就是说,就是OK,现在养龙虾的人都是人,他不是企业。

是的,就是我们为什么会很少听到哎,某某大企业去。集体仰攻下,对这个是因为 Open Cloud 在数据端,呃,尤其数据库这个方面,它可能有很多的,确实因为它是个开源的软件,是的,所以一个人做的。对,所以说其实我们就是我作为一个企业的数据库负责人,我其实特别。想这个,跟我们的戴老师去今天多多沟通一下,多多学习一下。

就是您觉得,就是 Open Cloud 这一部分,比如说在数据库端,呃,如果我们企业想去真正的应用这个部分,那企业应该怎么去做?这几年其实每一年的年头呢,都会有些新的出现,对的。你看咱们二三年出又 Chat GPT 嘛,对吧?对,基本上它是二二年底开始的。然后呢,去年呢是做什么 DeepSeek, DeepSeek、巴巴格曼那是出现是吧?

今年呢就是说 Claw,对,龙虾就是变得非常非常火。就刚才其实像那个刘刘老师谈在一一点啊,龙霄呢,其实他的创业的一开始这个本质上解决问题呢,他是个个人助理,是的,而且他不是面向企业端的,他所以呢你会发现他很短时间之内,GitHub上他那个Star数排在第一嘛,对吧?他解决了很多。就说梦幻中的那种叫数字贾维斯的概念,对对对,对吧?

我跟他说句话,所以它不是个物理实体嘛?跟他说句话,他就帮干活是吧?它其实是个数字贾维斯,它是偏个人东西。企业这侧呢,它一定会跟进。嗯,我们现在很多客户已经在跟了,对他们会问您什么样的问题呢?他们跟的时候,他们会很谨慎。对,当然他们会发现呢,比如说龙虾什么是个人助理,企业要的东西啥呢?企业要的东西呢,其实是个数字员工。

对,嗯,他要是说我能把我这些员工的经验把它沉淀下来,是吧?一定的范围内替代我的员工,甚至说你让员工更高效,是吧?或者说,其实我有更多的一些员工之后,我能做一些更多原来做不了的事情,他就这样一个态度。然后呢,他要东西其实跟目前提到这个 OpenClaw 的这种东西呢不完全一致,嗯,所以在企业端要做很多事情啊。

然后比如说我举个例子啊,比如说像数据对吧?对,我们的客户就会提出来,就说你像 OpenClaw 的东西是吧?它是存在文件上面的,不安全。我上周见客户的时候,客户基于我们一个大厂给那个 Oceanbase 布了一个东西嘛,对吧?他就问那个问那个 Oceanbase 他怎么问呢?他说:“请你告诉我,你 talk 的没必要。

”嗯,结果啪,我一看,我截屏一下,哎,就出来了,就出来了是吧?那当然,我上次也给它展示了一下,比如说我们蚂蚁上次搞了一个数字医生嘛,对吧?展示一下,问问了同样的问题,哎,我回来的很好,说这是个机密问题,有有有有围栏,有限制。所以发现没有,就就是一个C端东西直接部署给企业,嗯,很容易有个安全问题,是吧?

蚂蚁做那个B端东西来就好一些,是吧?所以第一个是安全问题,第二个问题就涉及到说呢,有大量接入。因为你像你,我们可能你不说个人电脑上,相对简单是吧?那你说权限一开都好了嘛,对吧?企业里怎么怎么能?对啊,是啊,每个企业有少的七八张系统,多的甚至上上上千张系统是吧?我怎么怎么开?是啊,这东西你说我能把全部开放出来吗?

是吧?而且就那企业内网,别说是把系统开放出来,哪怕把你一个电脑权限一个IP权限开放出来,都是可能都有一些问题。所以你发现说他们对于这个时候企业级特性这个个人特性这个问题是吧边界啊,其实其实有很大的一个顾虑的。所以你发现国内很多企业,他是去把人家冻禁掉的。对,是是,就现在只能做的方式,更多是合理方式一刀切嘛。

禁掉的,对吧?他就是这样一个模式。所以你说你刚才你问我说我们养不养是吧?我们办公电脑是不能养的,当然办公电脑被禁掉了,你只能在云上搞个东西是吧?或者家里面搞个像像现在叫什么?麦克Mini,麦克Mini啊,麦克麦克Mini还没有用,就买个什么迷你主机,对对对,哎,可以搞个,或者家一个费用电脑可以做。其实你会发现说,目前前端它就是这样的一个一个样子。

现实这个问题确实,在过去这一个多月时间,它就是这种冲击跟碰撞的这个过程中。其实,其实今天我我我插我插话了,不好意思。没关系,就是你看啊,现在这个我们做各种项目啊,其实我觉得它其实就是一个历史的一个重复。我们经常会遇到几个问题,比如说啊,在数据的传输当中,数据丢失了,是很很有可能的。就是说,比如说我们在清洗数据,或者在数据传输当中,由于某些原因,数据可能缺少了。

嗯,或者是比如说在数据的传输当中,数据传输不及时,然后导致我们最后汇总到大数据里的数据可能是不正确的,那么我们可能还要再去重新的传输、重新的清洗。当时大家都特别欣喜大数据来了,然后又特别期盼大数据来了,然后大家后面又特别恨这个东西,因为太难用了。然后,但是到了现在,就是大家可能会很少再提这个事情,因为为什么?

因为可能现在大数据的解决方案里边有单一的,或者是只有几种数据库的存在,就是相当于它的整体的架构变得简单了。那其实我特别想问,就是现在就是AI特别热,大家都特别想进入到这个里边,企业也非常想进入到降本增效,是不是?我就特别害怕,就是回到大数据那里面的问题,就是我们的这些AI的产品里面,比如说现在又引入了矢量数据库,嗯,包括我们的,比如说可能把声音、把图像再转成对转成这种,比如说那个拼靠这些这些产品,就产品又太多了。

然后这里呢,最后呢,我们需要把这东西又进行RG,然后再喂给。我们的大模型,那这里可能是不是又会出现像我们大数据里面的,比如说数据缺失啊、数据不准确、数据一致性的问题等等等等,而且还有一个特别让人头疼的问题,也是大数据曾经遇到问题,就是。成本的问题,我这儿存一份,那儿存一份,还要存一份副本。大数据里边又要存一份,可能 ETL 的软件里边又要存一份,然后这个成本居高不下,就是单位有了之后上完这以后。

叫苦连天。刚才刘老师问了一个非常好的问题啊,其实这个问题呢,你发现了,就IT这几十年以来呀,就是会不断重演一个循环反复一些故事。嗯嗯。你刚才刘老师问的问题的核心点在什么呢?就是说你会发现呢,新的这个技术浪潮出来之后。企业里面会形成新的一些数据孤岛,嗯,然后甚至说不因为不同的技术栈嘛,对,不同数据隔离嘛,是吧?

核心其实这个问题,嗯,所以你发现呢,就是都是先就说一开始新东西出来是吧?百花争鸣,嗯,然后的话说慢慢会觉得是需要治理,因为就刚才有人说了不舒服是吧?用的不好,是的,就要治理。比如像前几年,像我们有些名词嘛,像业务中台这概念是吧?就是试图想从从治理的角度上去处理问题。现在AI的话说也是非常非常明显的。

嗯,我举个例子,比如说咱们,基本上二四年左右国内开始谈RIG嘛,嗯,RIG agent开发嘛,对吧?嗯,你发现其实你看就两年左右时间,企业里面就引入了很多套agent,有开源的,嗯,开源不同版本的,对,不同开源厂商的,对吧?商业化的,是的。然后那个RIG也一样,所以刚开始技术初期跑起来时候呢,问题不大。

你为尝鲜嘛?对,因为技术里面它有一个说现在这个成熟曲线嘛。作为那种说刚开始是接触上一阶段这种新技术理念的人是吧?是没问题的。但是呢,真正的企业里面大量的受众,其实是需要这个技术相对成熟以后,它在它有更有收益的,是吧?所以你会发现说,我们现在客户已经提出来了,你说AI两年一年是吧?对,重复造轮子,所以他们也会会提出也有些治理的概念,虽然这个这个名词不完全正确啊,但是我觉得有些思路给抛出来啊,比如说他们提出来。

要构建AI中台,嗯,但这个中台是不是业务中台,是数据中台不一定啊?但是意味着什么呢?它系统是从从基础上。统一各种的一些调用,各各种能力。嗯,别我我我刚举个例子是吧?我现在企业里面每做一个应用里面一个阿里自己的应用,那里面带自带了一套H的框架。嗯嗯,怎么维护呢?每个框架里面底层数据库也不一样是吧?技术不一样,所以呢,如果说有一套中台是吧,它可能不是业务实体的,但是说也做偏技术中台这种东西是吧?

偏I的一些能力的,比如说怎么切片,怎么统一存储,怎么怎么搜索,包括怎么做整体编排是吧?包括像像做小龙虾是吧?统一小龙虾的这种调度对吧?统一搞出来是吧?这对企业来说它很有价值是吧?所以我说这第一个概念说呢,这企业发现了它要说要做的东西,但做。最后形成结果呢,未必是人家中台,嗯,但是我说统一技术栈,减少这种说技术上的这种说叫,这种多技术栈引燃是这种多技术是架构的复杂度嘛,对吧?

第二点呢,其实刚才其实刘老师也谈到了,就是说什么点呢?数据。因为你想,你统一记录站之后呢,你原来是因为多记录站造成的,说是数据它也不是统一的。对,那你发现 A S 了之后是吧?其实我们的经历就从原来,像原来程序开发是是什么模式?先看需求,嗯,需求之后呢做面向对象设计,然后呢做表设计,也是做开发模式是吧?

嗯,现在你想做我们未来开发是啥?我给爱群特是吧?我给那外部客户,我给他个需求,需求直接结果了。我管他怎么实现,后怎么实实现吗?我管他这个面向对象怎么做吗?当然,大系统、核心系统不行。对,但是你说一个千万级系统是吧?业务团队大量千万系统,它不需要这么这种东西。那这时候你发现说,它需要什么?它需要说是一个能支持它敏捷、快速变化的这样的东西,能把我企业里面各种稀奇古怪的数据是吧,全部存起来。

而且话说呢,能支持我实时访问,支持我一些这种批量去分析是吧?支持刚才说的我向量分析各种这种花式东西是吧?所以你会发现的是,对于客户用户而言,如果你要结合。H的开发或者Web开发这种概念之后啊,你会发你会发现呢,未来的这种数据形态呢,它变成说对企业言,就是一个统一大数据湖库的概念,对对吧?各种数据。多模态数据,嗯,统一存储,嗯,各种负载,嗯,我管理TPIP向量是吧?

是统一处理是吧?而且那个各种那种图像、图文、音视嘛。图像文本音色水平是一起是吧?嗯,你不要还考虑说文件什么文件系统啥的,统一给我是吧?我来帮你处理,我来帮你存储。嗯,那对于未来呢就非常有帮助。企业现在已经发现这个问题了,他们试图就做一些治理,而且也提了很多新的想法,比如统一数据底座,对,比如像 AI 中台的概念是吧?

而且其实像我们这个产品厂商,其实也在往这方面一些努力。也是不是说,其实通过一些更好的技术方方向情况下,能在我们看得见的未来的这种三到五年里面,是吧?更好支持这个目前这一波 AI 的发展。嗯,大家。呀,就是今天这个时间点,大家都说关于这一波发展,三个要素:算法、算力跟数据。似乎在这个时间点,如果我们只看过去这一段时间跟未来短期内来说,这三个要素里面。

对今天这个时间点,业界发展边际影响更大的应该是数据这一项。就我来我来提一下吧,因为刚才你说三个话题嘛,对吧?因为今天正好今今天是二六年嘛,对吧?AI出来正好是五六年出来的,嗯,到到今年正好是七十年,对,是的。哎,刚出来的时候呢,因为毛氏会议嘛,对吧?它的核心其实个算法。对,是算法。当时是研究各种算法,是吧?

对对对,不管你是符号主义、连接主义,讲的是算法本身。是。然后呢,什么时候发现注重这个算力呢?嗯哼。八十年代,英特尔CPU。嗯。包括说九九年英伟达CPU,是吧?你会发现你需要一些新的些算力解决问题,是吧?嗯。但是你会发现这十来年数据面很重要。嗯。一个标志性的一个一个里程碑就是李飞飞去搞他的他个ImageNet。

因为有了InfiniLight,才有星盾做那个两个GPU连在一起做,还有星盾搞出来现在的所谓的这些对这些计算模式嘛,对吧?对,才会有有了全分布式模型这个东西是吧?是的。所以你发现呢,二零一一年开始,你会不会去搞这个所谓的刚才说的InfiniLight嘛?对。但但他仍然是在说偏研究领域,对,是的,偏这个说互联网产业领域的,是的。

然后呢,对于企业而言呢,就像您谈到的,企业而言呢,就因为去年还有事件叫DBC嘛,对,DBC解决了说这种。超海量算力使用成本的问题,对,训练问题是吧?这时候你发现呢,其实我们对算法不是很焦虑了,对,我们对算力不是很焦虑了。那做企业的焦虑点发生了,或者聚焦点什么,就数据。所以你说现在AI的这三个角里面是吧?

对,现在就变成说,你真正到企业应用来看。看数据,而且企业每家企业它的经营的最核心的东西,除了它的管理制度以外,在数据上面对。所以现在做千万点之后,就跟你谈到说,为什么我抢这个话题的时候,你发现呢?我们的很多企业它它动起来了,嗯,由于DBC的推动,由于国内各种芯片的推动是吧?对,由于各种这而且推动之后它动起来了,而且发现说它的数据很有价值,不管是训练还是推理情况下是吧?

或者或者说把企业数据,比如说能做一些更加智能化的情况下,都动起来了。所以我现在看得到这个趋势是很明显的。刚才戴老师这个,这个这话给我这个展开了我的思路哈,我又有一些新的想法了,就是我在想。就是AI是不是又能带火一段数据治理这么一个事情?因为现在AI要投喂数据,那么这些数据都是从企业来的,那么现在企业的数据的准确率。

是不是准确的?那么我们的企业的数据散落在各种地方去,对。然后我们其实实话实说,我们把它收集起来,我们对一些数据的准确度,我们也不太去完全保证。那么我们如果把如果把这些不完全保证的数据喂给AI,让AI产生了一些结果,比如说像经常在网上看到的这个仓库啊。删了数据啊,误操作了这种事情,我觉得就,就不太好了。

当然这些可能是比较表面的,当然更深层次的,比如说我们通过AI来推演公司的未来的发展的一些模式,或者是推演公司发展的一些这个啊未来的数据,那这个推演错误了,那这个事情多大了?所以说我我现在又回到了这个事情,就是OK外行看热闹,就是大家都在养龙虾,就是现在听说这个六十岁的老太太都想去养龙虾,我觉得这件事情就有点有点这个有点过,有点这个失控了。

但是我觉得企业现在不动,或者是动的非常的慢,其实有他们的考量,就是。可能在AI的方面,可能已经稍微的成熟了,在在企业应用里,但是数据的这块儿,数据的准确度,我们用什么去存这些数据?比如说,我们有图形、视频。等等等等这些,那这些应该怎么去处理?因为现在的这个产品太多了。是的。那比如说,作作为一个比如说数据库的负责人,我不可能说我引入一个数据库,然后不经过测试,这个,这个,这个长期的一种一种投入,然后就就把它弄进来。

然后,假如说它的版本有问题。或者它有 bug,那这些都是对企业是毁灭性的。所以说,就刚才像戴老师说的,就是我特别认同,就是架构一定要简单,不要说跟我弄十个八个,就是什么矢量数据库、图数据库,然后 ES,就是哎呀,那个那个成本高,咱不说,就是整体的,我觉得这个东西可能数据的处理上已经要失控。嗯嗯嗯,基本上是是这样的,因为刚才呃刘老师谈了几个观点啊,第一个就谈到其实是数据治理的问题啊。

这个问题呢,我再给你拆拆来看一下,其实它分成宏观、中观跟微观的视角。宏观视角呢,你会发现啊,其实去年咱们中国提出“互联网加”的概念之后啊,你发现其实说我们的顶层设计在搞什么高质量水利机。你发现高质量数据核心其实就决定是属于治理问题,嗯嗯,他要从国家规范上面是吧?包括说一些行业上面去推这东西,因为只有高质量数据,只要数据质量是高的,才你才能决定说你这个训练推理是好的嘛,对吧?

对,嗯,这我说是宏观上问题是吧?就国家已经动起来了,因为我们也会看一下一些国家课题上面确确实有些上面一些打一些指引嘛。第二就属于是中观嘛,嗯,中观其实主要企业在策对。其实你发现呢,其实梳理这个自己的话题呢,它不是一个新话题,嗯,很多年前就就在讲,但是呢,由于历史上是吧,各种原因、数据烟囱、各种什么问问题是吧?

真正把它做好的呢,你发现不多。但是你发现这个问题呢,在AI时代呢,它就它会很要命,它放大了。必必须我们得做好,它很要命是吧?所以你会发现,其实我们很多客户就提个概念是吧?他要做数据治理,就说他要需要什么工具是吧?比如说,我说数据治理有典型的几几层嘛,统一的数据存储,嗯,统一的数据加工,嗯,对吧?还有一些比另外一些,比如像像血缘跟踪啊,各种一些数据工具,嗯,对。

然后呢,你上再把数据服务暴露出来是吧?对。所以你说可能说它是一个大平台,也可能是很多平台共同组合起来,嗯,来帮你解决这个企业里面我说中观数据治理问题。它呢可能不完全是某一个层单一层面能解决掉的,嗯,但是像比较O B Oceanbase这边呢,像我们有一些像梳理这的一些这个能力和经验是吧?但我觉得大差不差能把这个图来拼起来。

然后我说,在微观层面上呢,有可能企业呢现在可能不是马上呢,我就要做企业级数据治理。嗯嗯,因为因为企业它它跟人一样,它有性格。就说呢,它可能是它是尝鲜型的,为啥?因为老板想尝鲜,是吧?对,老板觉得说我现在先追AI,因为我他怕错失嘛。然后这时候你说我先搞一两年做数据治理,嗯,来不及。对,是的。那这时候我可以在一个局部上面,是吧?

嗯,我在微观上面,比如说我先这个某个域,你看你的生产域。营销域,嗯,销售域是吧?或者说你在这个 I T 开发是吧?每个域我先做起来,嗯,每个域我先做一些局部的一些 A I 东西。这话说是两不误,所以说你不是不做是吧?你可以另外一条线来推,但是你另外然后你可以单独一条线会在一些局部上去做一些试点。其实我们这里发现,你说企业推AI,它节奏呢,大概你说先先从先走零到一,嗯,它总要走第一步嘛,对吧?

对对,比如很多企业是IT是吧?IT搞个知识库是吧?或者是营销,营销搞一个说,比如说这种说营销生图是吧?生生文的东西是吧?嗯。现在就走第一步,走第一步之后呢,然后你然后你走呢,就是从一到十,嗯,那你要考虑到说,我可能我在我的各各个主要板块是吧,我就铺点进去,搞点智能体啊,搞点知识库啊,搞点说真正这种说提效东西是吧,或者降本东西,或者说我能增加收入东西是吧,这是第二步,第三步之后呢,有可能就要跟他说的结合。

AI中台、土地税里做,或交税这里是吧?我做进一步推广,嗯,所以它它一定是这样一个迭代的一个一个过程,嗯。嗯,所以我觉得这个事情呢,其实我觉得是一个自然规律,嗯,是吧?咱们也也不到几亿的吧?说呢,弄着呗。虽然AI说发展很快,但是我觉得伴随这个发展,它的企业信息化真正一个成熟的,是有点周期的。嗯,特别刚才说那些龙虾嘛,对吧?

我在说是需要点时间,那让它成熟。对,然后我这边其实,嗯,有一些同事,就是之前的同事,其实也问我们企业这个在AI方面有没有推进,然后他们发现一个问题,就是。呃,现在的数据库只要是加上向量,他们就说是AI数据支持AI的数据库。这个这种,我作为一个数据库的这个。这个从业快二十年的这个人,我不太认同这种概念。

我觉得这是个综合类的这个产品才能叫这个AI数据库,而不是说支持。向量就叫哎,现在是向量数据库。这个概念呢,其实我就是就是一个缝合怪,缝缝合怪。因为因为我说你得从时间上倒序来看嘛。嗯嗯,向量数据库不是说因为大模型出来之后对才出来的,是的是的。它其实十几年前就有的了。其实Web三那一波的时候也在套这个。

对,它其实十多年前它就出来这个产品的。它其实解决的不完全是一个说大模型的问题,但它有它的价值,因为它把一个。不是因为应式数据嘛,对吧?变成一个高维空间一个点,这样话就将来在这个高维空间里面求找相似度嘛,对吧?他解决这个问题,对吧?对。但是为什么大模型出来之后呢,就发现呢,他就膨胀非常快,嗯,因为你发现说有模型之后是吧?

我可能语因为最开始出来的模型是大语言模型嘛,我可能语语它会有语语义,因为传统的语言的搜索呢,其实是关键词搜索。它是一个 keywords 嘛,对吧?这样一个搜索型方式嘛。所以你发现,在大模型出来之后呢,它引入叫语义搜索概念。对,有语义搜索之后情况下呢,就会把这个所谓的向量数据库呢,就就就激活了。所以你发现向量数据库它有几个流派,对吧?

纯向量的、关系加向量的,然后呢就说 RAG 加向量的。嗯,然后我说这里面差异在在什么呢?因为你发现其实你在做,特别是现在结合现在这种从 Web coding 啊也好,龙虾也好,是吧?你的很多这些需求。你让AI去做情况下是吧?其实你很难,它是一个跨领域需求。嗯,它不是说这个事情只有一个说一个向量需求,或这个事情它只有一个说文本检索。

那以那个社区,它以偏文本为主导嘛,对吧?加向量的。你发现没有,它是一个多模态需求。你发现没有,就是说单纯的向量,或者说原来数据库里面这个外挂这种这种分货怪啊,它解决不了它的它的核心的性能问题和价值问题。我觉得也很有意思,就是就是现在很多企业还是。在掉入缝合怪的一个状态,那比如说像现在,就是我们的这个向量的数据在数据库里面,我们的标量的数据也在数据库里面,可能我们的一些音频啊、视频啊等等等这些图形的数据都在各种各样的数据库里。

所以我们现在就做了这样这样一些东西,我们内部的东西叫什么呢?叫混合搜索。嗯嗯,就前两天 Google Map 欢迎来了史上最大一次更新。嗯,它现在主打就是 Ask Maps。它举的案例就是说,比如说我要就这附近找一个适合约会、宠物友好、人不太多,我马上就要去的一个什么样的。懂意大利餐厅,嗯,然后最好能提前预订。

就是当然,我们听到这个需求之后,你还是可以用传统的关键词、tag来去解。但似乎就这种需求,当它变成一个没有边界、没有办法用传统意义上的说关键词跟tag方式去限定的时候,你还要给他结果,还要返回合适的方式的时候,那似乎对于比如像 Google Maps

团队而言,要做的事情就是刚才您说的。所有这些事情,而且你肉眼可见,这种趋势会随着AI大模型推进发展之后,这种需求会越来越多、跟常见,甚至可能成为某种意义上的新的用户的。

界面的交互的范式,对吧?那那当我们都要去面临这样的解决方案的时候,那对于在做相关业务的公司跟企业而言,那似乎就要有一个新的。底层的配套的,无论是数据也好,架构也好,去适配这样的需求嘛?那似乎确实在往这儿走,对吧?确实看上去,而且我看那个广告是 Google Map 什么十十年以来最大的更新,就是他把这个这个 Ask Map 放到这样一个高度,就代表确实,呃,可能最先进的这些厂商在面临这样的。

这个问题,刚才他他那个广告,我是我们二四年就已经二四年我们在用户大会上是吧发布的我们的产品特性的时候加这个举例的,对,一开始说搜索五百米之内是吧,那那就说各种价格、各种类型的,而且。好吃的一个餐厅,就这样一个事例,就是说这个事情上,Google Map做一个重大特性提供嘛,我们也把这个这个这个事例呢也搬到我们的官网上了。

我们官网上有一个东西说基于高德地图去做的啊,你就能说,比如说在杭州是吧,苏州说是呃呃几几百米之内最好的一个什么一个酒店啊啥的,我们现在官网上就有这样事例。我们正好就聊到聊到这个业务落地的角度,我们业务落地,我觉得第一个问题是关于搜索引发的这样的一些垂直应用。那我们聊第二个问题,可能关于是AI这模AI这波大模型,包括最近龙虾热,大家探讨比较多的关于记忆的事情。

嗯,因为大模型出来之后,大家都会说。它的上下文结构一直是很多厂商在突破的一件事情,但上下文我觉得是一个这个问题的狭义的展现,它不仅仅只是这件事情。然后这种龙虾,是不是很多人也会说,呃,在龙虾的整个的架构创新过程中,其实对于纯跟进模型业务发展比较多的人,他还会觉得。呃,他并没有做特别多的零到一的创新,但是他做了很多工程上的架构的设计,尤其在

Soul 点 M D 那个文件的设计上,大家会觉得有很大的不同,也是带来了个人用户在用过程中会觉得,龙芯阿哥我们去用一个普通大模型聊天,它确实在记忆这层有比较大的区别。

那似乎双引号的记忆这个问题,也跟这一波大模型发展的过程中越来越热。那我们再把这个问题放大,甚至记忆本身其实也是数据的。范的数据层面的问题,只不过现在厂模型厂商们在做的是把自己本身的模型的上下文在做扩扩,在不断的在加大那个数字,对吧?然后那当然就会出现了引由此引发了很多问题。那同时,可能这个市面上也会有一些专门针对AI这波大模型引发的呃记忆问题做我们叫记忆的外挂,就像刚才说,我们做记忆的单独的外挂系统,你来去解决,或者是来去在很多固定或者说特定场景内解决。

模型本身带来的记忆的问题,对吧?那这个这个包括龙虾用搜言d来去解决某种程度的问题,包括用markdown这个格式,可能我觉得也是一种。妥协之举,对吧?它也绝对不是最后的标准答案,对吧?那但是它至少这个方案本身,可能在这个现阶段,可能就比较匹配当下的发展状态、技术方案、呃成本各种各样的实施,对吧?那就是G这个问题,大家如何看待这轮发展?

包括对相关厂商的要求,提出什么样的要求?其实我特别想接着刚才那个话题说哈,比如说我我不是第一次来了,我是第二次来了。那第二次来,可能我我上次问过,哎,对,就是可能我这个问题呢,可能有一些这个,这个这个标记,比如说上次我是一个人来的,可能这次我还是一个人来的,那他推荐的这个这个产品。是不是有记忆?就是他得记我上次来过。

OK,那我根据他上次的推荐,加上他这次的这个又提出重这个重复的问题,那我可能。通过AI来给它计算出来一个啊差不多的这么一个一个部分,那就说那我需要去把之前的信息要存储掉。对,但是现在这个部分其实我觉得对AI来说可能会很简单,但对企业来说非常的困难,因为我们真的不知道这个数据会存多少时间。因为我们的企业里面数据会定期清理掉,比如说OK这堆数据我们标定它存三年。

嗯,这堆数据存五年,嗯,它到了时间我们会清理的。对,但是AI的数据我怎么标定啊?理论上应该一直都存着,是吧?就是我我到现在我没有办法去标定,我说这个数据我什么时候要删,没没有人能告诉我。那可能就是现在有一个最大的问题,就是我可能要。存的时间很长,同时呢,我还要调用它,那这里就会牵涉到很多问题了,比如说像成本的问题,我怎么调用问题,怎么存储问题,什么接口之类的一堆的问题。

谈到这个企业这种智能体agent的时候啊,因为它基本有个公式嘛,哎,怎么理解agent呢?就是大脑。加记忆,对加工具推理,加工具,对,嗯,所以发现记忆呢是一个非常重要的一个环节。就刚才明浩说的,其实问题呢还有很多解法,对,嗯,摩建厂厂商的话说,就是无限的增扩展。就他那个窗口嘛,对,嗯,因为说白了,因为他他是按按着 talking 算钱的,嗯,对,对吧?

所以他是他恨不得真的越来越大,是吧?你想你再大越浪费越好,再大你想你有极限,对我我给一个大一百克全全书是吧?我给个磁盘给你,你能处理吗?还是处理不了嘛?对吧?虽然你总是有些极限,虽然你从企业的或者这个架构治理角度上看呢,理论上模型呢最好变变成说是说无状态的。嗯,这是最高效的。嗯,然后呢,所有这些记忆,因为记忆它有非常多的一些类型,是吧?

对,是的。应该通过一些外部的解决方案去解决。目前看,其实企业很多种,刚才您谈到的,像龙虾里面拿八个大文件,是吧?这其实一种。或一些本地的一些缓存嘛,对,我觉得那么个叫叫本地缓存是吧?本地存储是吧?还有什么解法呢?其实你像之前谈到的RIG,嗯,RIG去理解其实也是一种记忆,嗯,对,只不过它处理是企业里面的大量这种文档,对,嗯,文档知识的这种这种记忆嘛,对吧?

它就是一种解法。第二种呢,就是还有一种,它虽然因为从去年开始谈这个,就一个叫记忆体的概念。对,就是我可以把一些,就是说不是这种文档,偏这种对话式的东西,或者偏这种说喜好偏好型东西,是吧?我把它变成一个说一个解决方案,它叫记忆体。就对我们来言,话说你像你就看你要处理什么样的记忆。如果说是知识的记忆,嗯,就说像这种企业一些特定知识,因为模型它是面向泛行业的嘛,对吧?

嗯,你企业内部的一些特有知识,我个人的一些特殊文档这种记忆,你通过AI去解决,嗯,对吧?我把那些本地文档啊、本地的一些东西啊,去解决掉,是吧?但他现在还有新的一个流派,就是说我的一些技能的记忆是吧?我从 skill skill 来记,嗯,对吧?我本地一些一些 SOP 的做法是吧?它不是一个知识,可能是个技能,嗯,我把它变成一个一个 skill,一个知识嘛,最后也是一个解法,对吧?

第二种情况下,就跟刘老师谈到的,嗯,这种我多轮对话。我人机交互,嗯,然后呢,我给模型交互是吧?我搜索这种多人搜索之间这种记忆,嗯,你刚才说通过记忆去理解,嗯,那解什么问题呢?就是说。记忆里面分长期记忆管理、短期记忆管理。嗯嗯,因为记忆就短期记忆是吧?短期记忆刚才说的可能跟人一样吧,你就你忘了就忘了,也没事是吧?

对。很重要的事情,然后呢,平常被很麻痹起看到东西是吧?也会把它记住,嗯,把短链记忆变长链记忆。还有一种东西,比如说叫私有记忆,是吧?嗯,就我自己知道东西,我谁也不告诉,对呗?嗯,是的。还有说,比如说是团队级共有记忆,比如你多个智能体之间是吧?它要它要共享记忆,所以你发现呢,其实我需要一种记忆体的解决方案去解决刚才您谈到谈到的这种不同场景下面这种记忆的处理。

比如刚才说,你落到API级别嘛,就是说你记忆的新增,嗯,然后你记忆这种追溯是吧?嗯,记忆更新,对对,记忆淘汰机制嘛,对吧?就是这样一个一个状态。所以你看,我们呢其实呢也针对不同场景呢推出了不同的一些解决方案,嗯,比如说刚才谈到说,针对这种说企业级这种知识库这个场景下啦,其实我们呢做了一个叫PowerEdge的一个软件。

它是一种企业级,因为又结合我们 O B 更强的这种混合搜索啊,统一这种存储能力是吧?嗯,咱做了一个说企业统一 I G 能力,然后针对这种记忆体呢,我们做了一个 PowerMemory 这个软。嗯,你刚才说的是呢,而且它是呃跟开源的那个 MapReduce 零啊 MapReduce Zero,专门做记忆的 API 是一致的。

你 MapReduce 零去年是这边出来的嘛?对,我们跟它 API 一致,但是提供了一些更强的一些功能。嗯,这个情况就是说,不管是你的这种说纯的知识记忆是吧?嗯,还有这种说偏对话这种记忆啊,都能做。再给你举个例子啊,你像比如说在淘宝里面的话说,它去年出了个新功能,淘宝 APP 里面啊,嗯,叫 AI 万能搜,嗯。

哎,万寿就是说说呢,他是个收退场景。嗯,每次我就收,比如说哎,年底呢,我给老哎,我给老众人带来礼物是吧?然后呢,我该送什么礼物?哎,我问他东西是吧?那就是呢,他能把你原来问的东西,他把记下来,然后呢就是说第二次再重新推给你。对对,是的,这是一个完整的叫收推的方案。收的方案里面,它那个记忆体是吧?嗯,其实都基于OB做的。

刚才说它还不不是基于我们的PowerMemory,是基于说是把OB变成一个向量存储之后是吧?嗯,然后呢把这一个去小知识库上是吧?能能去做些一些检索嘛?对吧?电话是我们去年呢,蚂蚁去年推了推了一个很好玩的一个应用,叫个蚂蚁阿福,嗯,不春晚上还还上了吗?是吧?蚂蚁阿福应用呢,它的定位呢叫什么呢?叫呃家庭的医生,呃私人医生,对。

但是阿福刚推出来的时候呢,它是没有记忆的。每次你就问他问题,他就单次的。你发现这新病人,就是每次都是新的,是吧?窗口新病人新医生,是吧?这个不行,是吧?这个东西你你我请个私人医生,你还不还不了解我,这个不行,是吧?所以你发现阿福呢,他也会得跟OB一些结合嘛,是吧?叠加一些技能能力,正好你发现他说他就能提供一些这种偏,说能把你些历史上你你问的问题是吧?

比如说哎,我今天我不舒服,今天我母亲不舒服是吧?或者说能帮我一些血检报告。我传个学习报告给他是吧?嗯,这个情况下记下来,记下之后,你想他第二你在未来再问他问题的时候,他能带出这些关键信息给他,啊,就多好了是吧?对对对。还有你说像互联网企业,他们做那个什么陪伴,场景是吧?我们做的那个,哎,陪伴嘛对吧?

那陪伴场景之后,你说,你说你都能去去对话是吧?你说原来怎么做?原来是把多了的话,全部给它模型,对,哇,搞死成本,搞死了都。你加个机体之后是吧?加一些事件提取,把这关键信息提取出来。比如说,哎,我哪大学毕业的,是吧?我是哪天参加工作的?我什么什么时候去过哪里玩?嗯,这些记下来之后,其实你每次只需要把一个很小的窗口给大模型。

用了节能 token 是吧?又怎么?虽然我说的这些东西呢,不同的一个解法,嗯,然后来决定说你的成本。对,戴老师今天给我扩展思路,这样我们就能节省这个使用 token 的费用了。是这样,很多企业都在谈这个问题,用不起啊,真的是用不起这个。我们后面就聊这个。我反反正我们的现实案例是,我们是一家,我们公司其实是一家做社交的公司,确实在 AI 上的尝试也是这个逻辑,就是。

确实,大家会认为传统的就是或者说基本的大模型,更多是在做普通的语言的。如果我们加一层情感,它要做更多的、更复杂双引号情感的表达,那这种表达看上去。它用通用模型能力的计算文本就是解决不了,嗯,就是它就没有办法这个事情做偏。那你当然可以用一些提示词工程去往这儿调一调,但是那个成本就像你说,那个太就我们也试过,发现成本真的扛不住,就是因为现在用户也没有办法直接付钱,尤其在国内,海外可能还好一点,对吧?

所以大模型厂商现在都去这个板块,大模型厂基本都在海外做,国内不太做。然后,所以B大我们没办法,中间尝试过那种方式。一一定阶段,为什么我们会自己在做自己一套自己系统?就是刚才你那种逻辑,既然在这个场景下用通用大模型的上下文的记忆能力解决不了,或者成本太高,那我们就自己做一个,做一套。或者说只限定在这个场景内解决我们现有面临问题的这一套东西,然后这套东西你会发现,其实市面上也有一些做相关G系统的公司都在解决类似的问题,就是针对一个固定的场景在。

已有的上下文跟模型能力通用的基础上,在这个场景下,无论是提高效率,还是更接近人的感觉,还是降低成本,反正你有一个原因,以及在这件事上深挖做出来一个东西,现在看上去已经有一些效果在显现的过程中,所以似乎我们可以看到。呃,马我还是认为,马道今天我们看到这是一种中间态的妥协的方式,但是这种方式让大家已经看到了它相较于通用的一个我跟一个常规的 ChatGPT 或者是豆包去聊天的巨大的区别。

那再往后推,那似乎应该还会有更好的,我们能够体感感受到更容易提提升这个感觉的一套自己的东西的演进。所以我觉得,确实它在往这个方向在走。嗯。其实,其实刚才明浩老师说的那个 Markdown,嗯,作为公用的,我我觉得 OK,对。但是今天,今天作为企业的这个用户,我我们实在是没有办法接受,原因原因在于这个。

就是每个企业都是有这个安全数据要求的。你比如说我们企业,比如要过两万、一万四等等这些,那数据是要经过审核,我们每一个操作都要审核,每一个操作都要记录,每一个这个数据的存储都是要有一个安全的一个范围之内的。都是有人去检查你的,而现在这个 Open Cloud 这个企业没法用,一个最根本的原因是企业它真的没有办法拿这个东西去突破这个真正的安全的数据的防线。

那如果用完这个以后企业数据暴露了,那比如说我是个乙方,那甲方直接就要投诉我,我我就没有办法去干了。数据审计、安全合规这都过不了。对,这根本就过不了。所以说,我就是我还听说这个有一些其他国家的这个。这个案例啊,直接就禁掉了这这个产品。其实我们对产品的这个数据,在这个方面的安全还是。比较看重的,或者是这是一个没有办法逾越的这个部分。

这对中国企业来说,这是个非常重要的命题。嗯,因为你看龙虾出来这个三个月了嘛,对,你发现其实现在中国的热度比美国高,嗯,超级高,对吧?对,你说中国的大量企业这边有互联网公司为为牵有牵引嘛,对吧?嗯,就是各种的龙虾,各种玩法。反而当时你看看美国的那几大AI公司是吧?比较安静,反而特别安静。嗯,这里面我先不说这个路线这个问题,因为传统上都认为中国的场景更丰富嘛。

对,那在于说现在如果龙虾作为一个主流,我们很多一些企业级客户,对吧?不管是出于公心私心,比如说交际的一个需要,嗯,他要看看这个龙虾是吧?秀一下,对的。研究的需要是吧?要自己去去玩一下是吧?嗯。或者说现在企业内部很多说也提出来一些需要是吧?对,嗯。所以发现呢,现在我们能看得见,今年啊,你今年是三月中嘛?

对。你看呢,今年这个事情呢,现在是一定是一个大话题,嗯。而且而且有可能龙虾变成一个。入口,为什么入口呢?你看,你不管是你嵌入到微信、嵌入到钉钉、嵌入飞书里面是吧?嗯,它变成就就是刚才刚说一个数据驾驶。对,然后呢,我会把我的原来的所有的搜索。传统知识库搜索,传统这种说企业制度搜索,嗯,然后呢,我一些定时任务,对,然后呢,还有一些比如说一些应用之类的,Web coding这些写代码是吧?

包括一些这种是问数,对我全部都丢给他,嗯,他就变成说其实一个应用入口了,就从他这走,对,你想跟ChatGPT一样,对,它是一个对话框式一个应用入口。嗯,所以这时候你看,这时候呢,如果我们现在已经看得见,很多客户也这么想嘛,对吧?对,也这么想去规划这么做。那这时候刚才您谈到这个问题就来了,对。那也是我们想马上谈的第三个问题,安全跟隐私的问题。

做完你咋搞,对吧?对。你说,你说,你刚刚才我举了个例子嘛,是吧?你说,你就问人家一个东西,一下一下出来了,是吧?这这哪行?这哪行,是吧?所以就是我我会觉得这一轮当当然可能也是因为逐渐的成熟,这一轮关于龙虾热之后的安全跟隐私的探讨,其实是比想象中更热烈的。甚至很多有一个侧面是说,很多用户可能都没有装,但他会提前担心是的这个事情,哪怕是个人用户是的。

所以所以我觉得这个议题就变得更加。所以反过来讲,为什么是中国这些安全厂商对这件事情这么的突然间的?你像老周富盛其实都是做安全的,他为什么突然间的脑袋亮了一下的感觉?就是因为确实这个问题,他把。就是我们真的走到了,因为我还是那个观点,就是我们从原来的纯语言走到了 agent,对吧?就是从语言到行为,走到这儿的时候,确实模型本身看起来能力已经 ready 了,我们真的要去做行为了。

那行为必然会面临权限、数据别围栏,所有这些事情。然后龙虾相当于是一个极端,按我比如说,他把这个事情推到一个极致,说我完全不 care,就百分之百的开给你,我们做出来这个东西,所以他当然会在某一部分人群内得到巨大的欢迎。是的,但是他因为他是个个人软,个人他是开源人,他他当然可以以他的方式把这推到这,告诉大家模型现在已经能做到这个样子。

但是问题在于他推的那个地方。太不安定,跟太开放,双引号的开放了,所以我们需要是说,我们当然承认这件事情已经走到这儿了,走到行为,走到event了,但是龙虾的示范不是一个。双一号好的示范,对,那我们要在中间,找到一个合适的方式,适合无论是个人还是企业来去把它真正意义上继续让那个事情往前推。所以似乎我觉得安全是一个太宽的话题了,就是它里面涉及到的数据安全、隐私、权限、账户乱七八糟这套整套题,本来网络安全就已经是一个百花齐放、产业链非常复杂且有非常多公司在做的板块。

那今天似乎把这个议题又推到了一个。就是你要知道,原来那个行业的分工已经武装到牙齿了,然后今天框给了给相当于给了一个全行业的统一命题,让大家去解决,嗯,那就是这个问题被推到了这种程度之后,你会发现这个问题。好难解呀,好难解呀!是是的,其实从我们企业的这个角度来说,其实我们更希望能更简单的来使用呀,并不是说要加那么多东西复杂。

比如说,我们其实非常熟悉SQL。嗯,那么我们有没有可能说,哎,未来使用AI的查询,我们其实还用我们原来的那套现有的方式来去,哪怕就是稍微的去,哎,改改,但是你不要就是说整体推翻它,然后让我重新再重来一遍。这个,嗯,从人员的消耗上等等,这些都是问题。那其实我觉得,从数据库厂商是不是可以考虑到,哎,这个是不是一个切入的一个点?

就是我们把这个企业的一些简单使用AI的需求融合到数据库里边,融合到SOHO里边。去做这个事情有没有这种可能性?嗯,我回应一下刚才刘老师题目啊,就是我们今年把我们的产品愿景改改了一下,嗯,就是我们现在不完全定义成数据库厂商了,嗯,数据库厂商,其实我们现在定定义成叫智能数据平台厂商,嗯,对,为什么这么说呢?

就是。嗯,database它也不是个新东西,是对吧?五六十年年代出来的,嗯,一直到七十年代、八十年代,从IBM的DB2、Oracle出来嘛,才正式开始搞的,嗯。那不,Oceanbase之前呢,就说我们这个产品创立的一个基础呢,其实它是以分布式数据库。没起。解决海量交易,对,因为原来淘宝的需求嘛,淘宝、支付宝嘛需求嘛,它这样的一个场景嘛,对吧?

对。那那企业端时候,你发现没?我们其实不断的往小做。嗯,淘宝是一种海量大集群,可能三地三地三活的状态嘛,对吧?嗯。那企业端的话,可能你没这样基础设施,所以我们变成叫三副本。会这样,两副本加上一个这个这个监控节点啊,嗯,这样个这样个架构是吧?嗯,然后我们又推出来叫什么呢?推出一个叫主备架构,嗯,单机叫主备架构是吧?

因为因为企业里面有有有应用,你也不需要三副本。对成本上很高,对吧?是的。我们去年还推出一个子产品叫 CQDB,嗯,它解决那种嵌入式跟端的场景。因为 OB 是一个云的一个产品嘛,对吧?就大分布式为主嘛,云产品,所以在端上我们也来做。所以你发现其实我们是通过不同的一些产品组合呢,去解决这个说传统的这个 AI 搜索的问题。

所以它的产品真的定义叫AI数据库嘛?嗯,偏这种举例上刚才说的AI搜索、混合搜索是吧?或者说一些叫AI函数这概念,它提供的是各种各样的一些AI搜的场景。但你发现你再往下走之后呢?显然它就不是个路数,嗯,就是说你需要啥呢?你需要其实说是一个叫AI数据湖库,刚才说了嘛,可能叫那个Lake Base,嗯,或一个Lake House,嗯,它能统一处理你的各种一些数据,而且呢,包括那种图文音视数据是吧?

嗯,这这这么来来处理。所以再回到刚才说的,你说呢?就是说,个您问的问题呢,因为分了几个层面嘛,嗯,第一呢,其实说那个C++呢,作为底层而言,它是一个通用语言,对的。我们会继续以这种 SQL 为一个基础语言,来使得它就是数据做越来越强。从刚才说的说 AI

数据库的概念。到AI数据湖湖库的概念,嗯,和增加各种文档啊,这种数据的处理啊,这些环节啊,变成,而且呢,它肯定是SQL base为主的,这种肯定会拓展一些新的些语法,来做成一个一个大基础。

第二话,说你也会发现,嗯,其实我们很多业务用户不需要了解 SQL,嗯,对,您是专业用户,还是古古灰级的专业用户,对吧?对。那所以这种用户呢,就说呢, SQL 呢,就说这不管数据库也好,数据湖库也好嘛,我们我是定位一家数据数据智能数据平台公司,嗯,就是它其实是针对您这样的客户呢,就是说来提供一些标准服务的是吧?

嗯。但是我们其实上面还有一些中间件层,嗯,中间中间件层你发现呢,就是说它是解决说传统这种什么呢业务用户,嗯,业务用户其实。Cycle还是蛮难学的,是是因为Cycle的底座它是关系代数,对对吧?你要没一点关系代数的基础,你理解起来还还挺麻烦的,是吧?虽然你说真的要花点时间学呢,也还是可以,但是呢,你对于那种普通用户咋办?

是普通用户,你发现就像说的说,他会基于龙虾作为入口。知识库加Web coding是吧?加各种东西的话,变成它一些工具,Box SQL嘛,变成各种工具,它会这么一些用AI。这AI之后呢,又回到刚才的问题,就是说呢,它需要一个统一存储,嗯,统一这种调度是吧?统一的这种过度负载在一种情况下,所以呢,我们会以。

传统的叫树立智能数据平台,再加上各种应用中间件的形式,来满足这种客户的一些一诉求。嗯,当然这里面就叠加出来干企业级的一些安全啊,企业级很多东西啊,我们都会做是吧?嗯,你看,比如刚才你看谈小龙虾,我们现在也在做我们自己的小龙虾。哦,不是给我们内部做啊。给用户来做哦,就说呢,在一些我们那些大客户上面是吧,他也可能也需要这东西,因为觉得企业级安全问题嘛。

嗯,比如刚才说到说,mark大文件不不安全是吧?嗯,把它放放到数据库里面。哦,是吧?然后呢,本地不安全是吧?嗯,我放在云上三箱跟内部三箱里面是吧?对,还有你的skill文件是吧?嗯,你skill文件。也不能说随随便改的,是啊,有些是给有些个 SOP,对,就就是这样的,你不能动。我把 SQL 文件也放数据库里面,因为数据库它好管控啊。

对对对,所以在我们的结合本身一些标准的一些数据库、数据湖库这些特特色是吧?嗯,结合现在小龙虾的一些本身一些东西需求嘛是吧?嗯,把它变成说即云上沙箱的这种说的一种标准服务,而且结合安全安全管控,这么去处处理一些问题,嗯,这话就很好好做一些,对吧?就是,呃,现在的这个数据库,如果要是就是咱们刚刚说的是一种这个理念哈,做成数据库平台,那么。

我还是一个比较爱国的人。有没有可能我们以这种方式超越国外的,就是那些老牌的厂商的那种?哎,就还是那种哎单体的怎么样怎么样?就是在上面。就是增加一些功能而已,就是这种产品,我们有没有可能就像我们的这个军工产品一样去超越?嗯嗯嗯,这个是非常好的一个话题。嗯,因为呃,技术的替代呢,其实它有多个维度嘛。嗯,有可能是说,因为你结合现在大的这种说宏观、这政治经济形势来看啊,嗯嗯,其实呢,刚才话题是一定是成立的。

对,因为呢,其实你在传统情况下是吧?你回到三十年前,甚至二十年,甚至十几年前,嗯,我们所有数据库基本是美国的。是的。那那这个时候你看,现在我们呢其实也会代表着新的技术路线,对中国的产品是的。然后呢,世界的会在第二级或者第三级是吧?就你会发现,其实说我们会在国内市场上会有很多。不管出于供应链安全也好,还是很很多说避免对美国依赖、独家依赖情况下,它一定很多一些企业或者说一些一些区域市场,他会选择某种第三级的产品或者中国一些产品。

嗯,其实中国的很多产品。我说中国市场很卷嘛,对吧?对,超级卷。卷出了产品之后,你发现它的质量是非常牛逼的。嗯,这个现在我在这边这我这种市场上,我直接产品已经好了,是吧?你说,你看看。你说我比如谈金融板块是吧?你说有哪个银行有中国这些六大行是吧?这个成长体量它没有的是吧?一般我们最好的案例,你看像运营商是吧?

拿回来运营商有什么?江苏移动、浙江移动、广东移动这么体量大?对,没有的。所以说你把我们的案例拿出来之后,说直接正面竞争,进入这样的市场。所以我说刚才您问的问题,我们觉得我们的愿景是我们希望我们成为一家。全球知名公司,嗯,然后明浩老师,我我还想问您一个好问题啊,就是今天我还是本着一个小学生的,一个别别别别别别,就是交流交流,就是如果从投资的这种角度来说,假如说咱们。

去找这个好的数据库公司,那么去投资。那么,如果您是一个资深的投资者,那么您以哪些指标,或者是以哪一些方面可能?去判定,呃,上一次跟那个咱摩斯面CTO的时候,其实也聊到这个议题,就是首先呢,国内的意识上看,公司还是大家会把To B跟To C作为一个比较大的分隔。那数据库厂商可能或者说偏软的公司,或者偏呃,甚至包括SaaS公司,可能算我们叫To B这个市场。

嗯,然后呃,To B这个市场其实过去十几年一直都是有不错的基金持续在看的。嗯,但是国内的To B市场遇到了一些现实的挑战跟问题。嗯,啊,这种挑战跟问题,前两天那个美股那边很多SaaS公司,包括我们今天提到什么Snowflake啊、Salesforce都在暴跌嘛。嗯,对。然后前两天那个美团的原来二把手王慧文说过这句这样一句话,我觉得说的很好,他说。

大家原来的投资逻辑是说,我们看到了美国非常丰富且繁荣的To B的生态,嗯,对吧?企业服务To B SaaS云,所有的厂商都很大,长得都很好,都无限的扩展,对吧?他们也做并购,变得越来越大。我们原来也期待中国也会这样,嗯,但是过去的十几年,似乎基于我们这边所熟知的移动互联网的语旗下产生的这配套的这些公司而言,并没有得到那个好的结果。

嗯,我们原来期待是说。我们这些公司会涨,或者说会类似他们那么大,但现在他们暴跌之后出现的问题是说,因为AI的崛起,似乎看上去,美国那一个公司会像中国这些To B公司一样不太值钱。哦,这是一个玩笑,但似乎带来另外一句话是说。新能源时代出现之后,无论是 Web coding 的演进,还是厂商对 AI

能力的拓展,还是说我们言论更更大的话题是说,今天所有的事情都怎么都被值得被 AI 重做一遍的,还是这种议题而言,你似乎发现今天去以 To B 跟 To C 去区别看待一件事情,可能本这看待本身的方法就出现了挑战。

第二,我们似乎会觉得,因为 AI 的能力的提升。组织公司的形态,包括他们去采购相关的服务这件事情的流程跟状态,在中国可能也会出现变化。我觉得再举个更现实的例子,比如说,这就是我还是觉得这种龙虾的兴起,让我们看到了很多不一样的苗头。大家原来会说中国的用户是不愿意付钱的,无论是to B还是to C,嗯,对吧?

就是会有一个通用的这样的感。对,但你发现这轮龙虾出现之后,厂商的coding plan是要限量卖的,当然他们有算力的限制,但更重要的你会发现,其实面临新一波的技术浪潮的时候。个人也好,企业好的复运院,其实某种程度上是比原来那个最悲观的结论上要好一些的哦。这个度我们不知道是多少,但肯定不是那个可以所有人都拍一个最极端的不行的结论的。

嗯,就这个的天平的偏转,我觉得再往这边偏,就这是一个看得到的。事情,然后再落到比如说偏数据库这个角度,因为我不是这个专家,我只能说,偏软件或者偏SaaS或者偏云或者偏to

B服务这样的公司,常规态大家来看的,无非就是那些方式,那些更战术层的操作指标。收入对吧?市场占有率在各个行细分领域的影响力、口碑、品牌、历史的投资者,然后发展速度,嗯,然后影响力的变化、占有率的提升,就是它其实是一种偏常规态的战术层的讨论。

但是,我还是那个观点,就是这种战术层的讨论,在过去十几年其实被证明是不太,至少那一波厂商是不太work的。但是AI这波来了之后,这件事情因为刚才我们谈论这么多话题,就数据这件事情的地位跟状态,它已经不单纯只是一家纯。软件公司那么简单的事情了,对吧?我们的运营变了,我们不是一个软件,我们变成平台化运营的方式。

平台化运营方式就理应应该用平台企业的方式去衡量了。那如果这个逻辑跟这个天平能。转到这边一些的话,那似乎这件事情就出现了变化。所以就是我觉得就是所有这些我们刚才聊的角度、评判标准、逻辑框架,或者说加权评中的这些权重而已,都是一个度的感觉。度,它它没有明确。当然你可以去写那些明确的指标,但那些指标都是滞后的。

滞后就是很多这种度的天平到了一定的阈值之后,它可能就把局面打开了。我觉得某种来说,我们从往前推大模型到。多模态到去年DeepSeek到这轮Agent,其实某种上也在把这个天平往这边推,而且随着这,而且我还是觉得就是。某种来说,回去回看过去几年的AI行业发展,基本上是符合某一项技术到了一定程度之后,它就会打开一定的东西、一定的局面。

无论是开源软件、to

B的生态,还是个人用户的什么变化,就这个事情已经证证明了好几次了。那这轮更是,就是它就是因为纯底层技术模型的能力到了。嗯,你在做之前是不知道的,但他到了就是到,然后突然间,无论是开源软件,还是一个什么特别的方案,还是一家公司做的一件什么事情。它就打开了一一波窗口跟一个局面,然后再以这个方式扎,就说再做延展,然后再就是,然后你要在过程中,这个底层技术还在更新,它会再打开、再更新、再延展,所以那似乎我们就看到了这样的一个趋势的演进过程。

那反过来,为什么衣市场中国的衣市场一样,美国衣市场过去几年?对AI的投资是越来越多的角度,也是这个原因,就是它不断的在证明,不像之前我们谈论的很多,比如什么Web三啊,什么元宇宙,甚至包括当年的大数据,就是它不像那个时候,它变成了一个可能三年期结束之后,大家就没有人讨论这件事情了。是,它今天看上去不是这样,它在持续的打开很多事情。

而且你像刚才讨论过程中,我们不是强调了成本的问题、算力问题。你像今天我们真的去回到今天我们讨论最开始龙虾引发我们今天所有讨论。你说今天这个世界,哪怕这些厂商这么狂推,这么用力的去各种各样的策略,今天真正意义上,比如中国的,在本地也好,在云端也好,部署了龙虾的用户量级。还是一个很小的数量级,对。可是你要知道,这么小的数量级平摊到这么多厂商身上,云厂商、模型厂商、互联网公司,你会发现大家已经遇到了瓶颈。

哦,那才刚刚开始,对吗?很多事情才刚刚开始,还远远没有到说。那你就想,你直接上来想,如果未来真的每一个用户都有一个嗯 agent也好,个人的类似贾维斯也好,还是那样一个什么东西也好,他真的他的能力可以到像科幻电影演那个样子的情况下,那你需要在今天的基础上涨多少呢?复杂多少呢?这个一提,当然这么说特别的看多对吧?

特别像那个糊大忽悠对吧?特别像一个讲故事。但事实你想,其实就是这么个逻辑嘛。所以那如果是今天只是个开始,只不过是因为模型能力提升到了一定程度,打开了Agent这一轮的探讨,并且Agent这一轮走到这儿之后,需要我们底层的记忆也好、数据也好、数据库底层也好、存储也好,所有东西一直相配套。那你发现上面那条路才刚刚开始,那就。

就再往前走呗,对吧?我们今天就收束到最后一个问题。今天确实,我觉得个人已经非常焦虑了。那企业主其实也是,包括你们在做跟你们面对的客户。那今天如果真的给到一些。面临今天AI浪潮来了,有非常强烈的焦虑,想让自己的业务跟AI产生关联、产生绑定的这些企业主也好,他们的CTO也好,还是他们的CIO也好,有什么好的建议,哪怕是一碗鸡汤,哪怕是一个案例,都可以。

嗯,那那我就先说吧,就是我希望我们的AI在使用之前。它是安全的,嗯,并且它的数据应该进行,哪怕是部分治理,它也是治理,嗯,戴老师,其实。AI因为今年七十年嘛,它其实基本上每十多年呢,它就会有一些浪潮,又会有寒冬。嗯,但是这一波呢,看起来呀,就说可能会真的会持续改变我们很多东西。嗯,所以我说,如果以终为始的思想思维方式去看的情况下呢,企业主也好,还是我们大量这些用户也好。

它最好是一种偏,说思维方式是一种偏主动求变,对,要快速进化的思维方式。是的,不要迟疑,是吧?对。现在渐渐想想说AI能帮助我们解决什么问题,快速用起来。但用的时候呢,不要说一一上来就过于激进。嗯,小步快跑,小步快跑是吧?小步快跑,因为企业呢,它的它方式跟员工不一样。个人用户呢,尽量最激进方式去拥拥抱AI。

对,企业的话说小步快跑方式是吧?也一步一个节奏的方式来推动AI在企业里面大量一些落地。然后呢?其实也真正说把,因为刚才也谈到嘛,说数据是更重要的一个话题。所以,我们也是说,最后呢,也是希望说企业呢,说以类似像采用O B这样统一数据底座的方式,是吧?真正把这个企业的数据发挥更大的智能化A

I价值。在我们也希望在这过程中的时候陪伴企业一起来成长,感谢感谢感谢大家收听《赛博赶海》的第一期博客节目,今天时间在这里,然后大家有什么想说的或者想两想对两位嘉宾有什么询问的,欢迎大家在留言区评论,感谢感谢,嗯,好,多谢两位,谢谢谢谢谢谢。