Hello,大家好,我是明浩,图中之树的主播。啊,今天想聊一个可能最近我一直有一些疑问的话题,就是关于数据的问题。啊,这一轮AI大模型发展到今天这个时间点,我回看了一下我在去年十一月份做的年度总结,我说AI大模型这一轮的公司在二五年解决的问题更多的是三个问题。啊,激励模型的问题、记忆的问题跟

benchmark 的问题,然后在这三个问题的基础上,我其实总结了一下,我说大部分问题可能都是数据层面的问题。

然后在二五年的话,大家如果回头来看整个 AI 大模型领域发展,很多人会说二五年是强化学习的一年,然后进入到二六年的初始这个状态,也有很多业界的观点会认为,大家往前推,可能在期待的比较共识的是,呃强呃强化学习之后的事情变成了 continual learning 或者叫 online learning 自主学习的这个过程。

然后,关于这个事情的概念跟定义,似乎也有很多的分歧啊。每个人对这个概念定义都有各各自各样的标准。当然,这件事情在过去这三四年,整个的这波发展当中,无数的新名词出现的时候,都是这样的。就是概念都是不清楚的,每个人都有自己的说法,但是我们追根溯源来看,或者说以我自己一个观察者角度来看,似乎如果能够想在,呃,无论是强化学习的进步演化,还是 online learning 的。

呃,真正这样的出现的时候,似乎在我们看整个 AI 大模型现在发展的三要素里面,呃,数据、算法、算力的角度来看,可能数据的重要性会非常的高。然后又因为过去几年大家一直在强调,其实这一轮 AI 的爆发或者 AI 的发展,本质上来讲是工程能力代表的。东西,而不是纯研究代表的,那这个工程,双引号的这个工程落地到真正意义上,比如这些公司到底在干什么,他们每天在干的活本身来看,似乎也跟数据的关系越来越大。

所以这个角度来说,那到底这个东西在干什么?用什么样的方式?呃,很多公司在到底在做什么样的事情?呃,这个东西到底对模型发展有什么样的意义?可能是今天我想探讨的问题。然后今天这个这期播客可能跟我之前的播客不太一样。呃,我之前博客一般都是自己来讲,自己做个 PPT,然后跟上大学上课一样讲一百多页的。然后今天这个问题实在不是我,我是不那么了解,所以我今天请了几要几位比较有意思的嘉宾。

然后我先介绍一下今天的几位嘉宾。啊,今天的第一位嘉宾是这个蚂蚁旗下的开源的数据库的公司 OceanBase 的 CTO 日照老师,跟大家打个招呼。哎,大家好。然后还有呢,啊,我知道 OceanBase

其实已经连续五年组组织了一个数据库的比赛,对吧?然后针对在校生的,然后这已经是第五年。然后今天很荣幸请到了今年的比赛,应该是昨天刚刚比完,然后这个冠军队伍跟亚军队伍的负责人,两位这个非常鲜的小鲜肉跟大家打个招呼嘛。

嗯,大家好,怎么称呼?呃,我是杨同学,来自来自华东师范大学。OK。然后你们的成绩是?我们的成绩是亚军。OK。嗯,大家好,我是来自北京邮电大学编程高手团队的吴洪涛,嗯,就是吴同学。OK,你们你们团队的名字叫什么?呃,我们团队叫抽空就干,抽空就干。为什么起这样的名字?因为我们团队就是来自五湖四五湖四海吧,然后我们各有各忙的地方,所以是抽空把这个活儿干了。

对,但虽然叫抽空了干,我们其实可以叫抽空了干,呃,也叫抽空干,对吧?对,可以,可以。那你们起这个名字怎么想的?是我们觉得我们的编程能力很强,还行。OK,然后这个。所以就是那刚才我们回到这刚才我聊的话题,就是大家会说这种AI模型主要是数据、算法、算力三件事情。那今天这个时间点,我想第一个问题问这个日照老师,就是因为你们是做一线在做数据库系统,而且做了很多年的这个实真正意义上的工程实施的工作,而且有很多的客户做了很多的真正意义上现在这个时间点真实企业发生的案例的这个执行。

那你是否认为今天这个时间点,比如说AI的能力的提升,再从比较看重模型能力到数据能力的这个这个事情的提升,在边际增强,就这个趋势是否是一个我们可以在二五年底二六年初来去给这样一个时间点一个这样的说法?嗯,就这个问题我觉得相当好啊。就是首先我们还是回到这个问题的本质。嗯哼,就我们今天回到这个本质啊,它还是先看数据。

以及呢,这个对 AI 的一个应用,对,因为我们从这个数据也好,从应用的角度来也好的话,AI 它第一个阶段啊,解决的一个问题是对公共数据的一个应用,就是训练那些,对对对,我们什么 ChatGPT,什么 Coding,Coding,本质上它所有的数据其实。大部分企业的 coding 用的代码

GitHub 那也是差不多的,对,所以它比较容易做成这种 To C 的 application 去把它给通用化,也比较容易在一些这个企业它没有差别的去应用泛泛泛泛的去应用。

那到了这个二五年开始,也是去年开始,包括今年开始,一个非非常大的一个变化还是说。这个 AI 的一个应用啊,它会有一个完全就基于公共数据的一个应用,也是增强模型的能力,慢慢到一个在这个不同的企业里面,大概私有的,对对。那私有数据的话,它的一个特点就是它一定不会被训到大模型里面去,对,它是每个企业最核心的资产。

那这个时候呢,最大的一个挑战在于说,怎么把这些私有的数据真的给管理起来,以及呢,跟这个大模型通过公有数据形成的大模型,它有一个很强的智能、对推理的能力,这两个东西怎么结合在一起来,这个一家一家企业或者一批一批企业,真的把大模型用到企业的业务流程里面?对,到今天为止,我觉得。这个大模型在一些 coding,在一些聊天这样的这个依赖公共数据,包括就纹身图啊、纹身视频等等,都是依赖公共数据啊。

这些场景其实,呃,落地还是相当好的。但是呢,在企业的核心业务流程里面,现在目前来讲还处在一个非常早期的一个阶段,所以你看去年 Q3、Q4 MIT 不是发了报告说那个百分之九十五的企业其实投的投到 AI 的预算最后的实施效果都不是特别理想,所以当时有一轮这个比较大的关于泡沫的这个探讨出现了,当然也会认为确实你想嘛,二二年底 ChatGPT 出现,二三年大家开始在追大模型的技术能力。

到二四二五年开始,真正意义上做实施、做部署、做企业应用,确实,我觉得哪怕只是纯从实施的角度来说,它也需要一段时间的这个过程,才能让这个东西融合的好。那似乎二五年也不是一个特别好去。说我们就没不行的这个事情,因为还比较早,对吧?从从从时间执行角度来说,确实也需要时间。而且现实问题在于,确实,呃,公用公用数据,就大家所有人都会说,今天这个时间可能预训练的。

或者说,在线能够被公开挖掘的数据喂给大模型这件事情的预训练的这个事情,可能看上去已经编辑效应非常的低了。嗯嗯。那再下一步,无论是模型能力的本身的提升,还是真正意义上我们把模型或者AI的能力附着到To B的企业跟行业当中而言,似乎我们要编辑上选择那些更有效果的板块。那似乎无论是企业内部的数据,还是已有的东西,还这些东西看上去它的编辑的位置就得到了。

加强,对对,逻辑上来讲就是这样一个过程,对吧?是,这第一个,其实我觉得这个预训练它的数据肯定,如果是在这个语言这个这个类别,它应该是基本上都用的差不多。对对,但是除了语言以外,其他的什么 word model 啊,什么嗯 embodied 啊,类似这种巨算智能等等,这里面其实这个数据还是相当有限的,就是这里可能需要用更多的一些方法。

那同时呢,即使是面向语言这样的一个模型啊,虽然说数据它其实都已经用到了这个大语言模型的预训练里面,但是怎么用好这个?对,那可能不是你们干的活吧?对对,也也不全是我们干的活,因为它只是这个大模型预训练本身,就是怎么把这个预训练的数据的质量真的做好,把里面的很多这个数据。用数据的一些 bug,或者说用数据做的不好的一些工程的细节给解决掉,这个是大模型公司要做的事情。

其实这个东西呢,现在可能。可能也有很大的一个挖掘空间,因为你你应该到前一段时间,Google Germany Suite 对吧?这个效果是比较好的,非常强,非常强。它最核心的一个这个做得好的点,可能是预训练。对,是。你也用了这些数据,我也用了这些数据。那为什么它就比别人好?对,因为它里面的这个工程细节做的每一个数据。

或者说用这个有很多比较细微的琐碎的一些技术类的活,把每一条数据给调好,它需要你这个算法工程师去调这些数据。那同时可能也需要一个很好的一个 infra,一个很好的底层架构去支持你比较稳定的能够复现结果,能够很好的快速的迭代。那它是因为这些东西做得好,它把预训练的效果就比别人好。那可能未来的这个 Google Gemini 四,可能或者五六七,可能它还有什么强化学习的一些改变,甚至可能还会更大的。

就所以它就变成了,就是大家经常这个行业就讲踢运动嘛,就是对,经常左脚踩右脚就飞上去了。我尤其模型能力提升、数据训练,然后呃预训练、强化学习,甚至包括后后面我们可能会聊到从基础数据到合成数据的这个,也是一脚踢运动的状态,有可能。似乎我们可以被期待中的 AI 模型能力的提升是可以通过这些方式来去做。那似乎这个问题就变成了:那是不是某种程度来说,在今天呢,我们就要?

呃,以工程化为代表的这轮 AI,我们我们抛开那个纯学术研究的角度,我们纯以今天是业界在用的工程化的 AI

能力的提升这个角度来讲,呃,本质上来讲,数据这个我们或者说泛数据这个系统的。呃,叫我们叫它的角色,从原来可能是一个辅助跟边缘的服务角色,变成了一个很重要的,我们不说心脏核心的一个位置的状态,似乎是不是可以这么,或者说再直白一点,今天就是一点世界上最头部的这些 AI

的相关公司,包括美国那些公司,包括中国的巨头,包括蚂蚁,都是大家都在做自己的模型。

那为了要提升模型的提升,似乎在未来一段时间,数据这件事情的位置,是不是要被放到一个更。加核心的位置上来去做,我觉得其实数据啊,它对一个互联网公司,或者是对真正的那种最一流的科技公司,它其实一直以来都是都是最核心的位置。那今天可能说大语言模型它带来这个不同在于什么呢?在于说它把原来用不了的一些数据也能用了。

原来用不了什么呢?因为原来可能我们主要用的数据更多是一些结构化好的数据,是的。那可能原来比如说对很多的这种呃文本类的一些这种视频类的呀,这种音频类的,它是。它的这个使用的是比较有限的。那今天大语言模型它有一个泛化的能力,它能很用一种通用的做法,而不是针对每一种类型的数据写一个不同的算法,直接就把这些给用起来。

那也就是说,今天能够用的数据它是比以前要多很多的,所以我们就有了CPU,还需要有GPU。对对,但是呢,呃,以前的结构化数据也是他们的中心。今天可能除了结构化数据,也有这种半结构化、无结构化数据也会加入进来。那这种数据数,我觉得对于比如说像你们这样的数据库软件提出了什么样的嗯新的要求?因为原来的数据库软件可能更多是基于偏结构化数据的这个体系构建的。

那今天这个时间点呢?我觉得呃有有两个点嘛。那第一个点在于说,这个因为它的这个趋势就是会把更多的半结构化、无结构化数据,它会引入到整个数据处理的体系里面,是的吧?那数据处理的体系,我觉得最核心的两个组件,一个就是数据库,一个是大模型,嗯,对。那不管是这个数据库还是大模型,它都会去处理这种就是多模态的一个数据,对吧?

那从数据库的角度来讲,第一方面,它自己需要能够处理这种多模态的无结构化的多模态的类型的数据,对,因为让用户会更加的方便嘛,会有一定的这个控制的能力,这是数据库的优势。那另外一个方面的话,数据库去做这件事情的时候,也需要跟大模型去结合在一起。它需要去利用一些大模型做得更好的一些能力,反过来帮助自己的,反过来帮助自己,或者是帮助用户做得更简单。

哦,那这个引发另外一个问题,这个问题也是一直可能最近,反正我想比较多,就是原来大家会说,比如这轮大元,呃,这轮大模型的发展先是语言嘛,嗯嗯,啊,就是纯 chat 或者是图文的呃文本的这个结构的东西,对,然后到多模态的兴起,图片、视频,其实是其实图要比语言更早一点,其实,嗯嗯,图片、视频、语音,甚至今天的 world model。

然后大家又会说,coding可能也算是一个重要的一个板块。然后原来大家就用这个,我经常一个比喻是像打德州一样,这个主桌看上去有三桌或者两桌半,语言、多模态和coding。嗯,但是呢,发展到今天的十年,尤其比如这轮Gemini三出来之后。你会有种感觉是说,其实他们是一桌,嗯嗯,就像您刚才说,就是说原来文本,我觉得还是偏可以用结构化处理的,嗯嗯嗯,对吧?

就像你们比赛现在面对的题,很多都是偏文本的结构为主,那图。Transformer 架构之后,他用的另外的方式来去做,然后到视频,到 word model,然后到 coding,然后到今天我们用,比如我们用最新的世界上最好的这一波图片生成模型的时候,你会发现它的图本身带着逻辑,它的图本身带着推理能力,它不是一张画个画就结束,它是带着前因后果,带着搜索的结果,带着逻辑,带着故事,带着所有这些东西。

那是不是如果未来再往前推演?因为刚才您说的就是结构化、非结构化本质上是要最后变成一起来处理的,嗯,那似乎是不是应该是一桌,就是其实它是一个一起的一个一一个一个东西。我不知道你怎么看这这个,我觉得从用户的视角,它肯定是一个大作,对吧?虽然里面可能因为技术限制啊,可能会有各种各样的。做法,比如说,因为我没有办法具备泛化的能力,所以我是用户的角度,我看到就是一个大众。

那可能你每一个角度用这个做法,那个角度那个做法,是是是。但是我用户其实本质上不关心,只是在等待什么时候能有一个泛化的做法。包括你刚才讲这个图啊,这个视频,其实它里面的做法也有不同的流派,是吧?语言是统一了,这个还没统一掉。所以,所以这个是一个,我觉得是一个,反正,呃,这轮大模型发展到今天十点,其实已经过去三年多的时间,呃,它的技术发展的,我们叫分叉,已经多的乱七八糟了,对吧?

各个板块都已经多的非常多了。那哪怕只是在数据这个量,这个这个事情上,也分了很多的角度,对吧?然后大家在做的各种各样的工作,每家公司在 BAT 的事情其实也不太一样,对,然后。那我们就真心聊一聊这个这个这个比赛的事情,聊点比赛的一个事情,对吧?然后这个这个,那我们就聊就是这一轮,比如说大家都说数据是瓶颈,那这个瓶颈到底今天是它卡在什么位置了?

然后比如说在你们就是日常的这个工作过程中,有没有遇到一些实际的问题?通过AI的模型能力,包括数据库的这个能力提升,解决了一部分的这个阶段遇到的这些瓶颈的问题?嗯,我觉得这个呃瓶颈还是比较明显的,就是。大模型这个东西,其实一般的企业它是要需要很高的这个技术能力才能把它用起来的。对,就是今天我们这个,尤其是前一段时间 DeepSeek,它把这个大模型的成本降下来,降很多。

所以每个企业都说,哎,我要用大模型。那用大模型的人其实都是 CEO,对对,他不是这个 CTO、CIO,对 CEO 说我要用大模型,然后其他人说我不知道咋用,对。然后这个时候呢,我们一定是需要这个底层的系统需要有进步的,比如说以前我们把这个。IT或者说把这个信息系统用起来,是因为有数据库,数据库是因为有标准化。

对,那今天到了这个企业用大模型的话,其实没有标准化,就什么人没有,我们都不知道到底什么是对的,因为你没有一个所谓的评估体系是是标准化的,它是 case by case

的,也没有一个所谓的标准的这个语言、标准的构建的方式、标准的解决方案。其实这些东西都是随着时间的发展要去摸索起来的。所以,我们想做的更多还是说,哎,这个数据跟这个模型怎么结合在一起,融合在一起,的融合在一起,对,慢慢去解决企业在真实去用大模型里面遇到的一些问题,让它用起来更简单。

那当越来越多企业都基于我们这种数据加模型的方案去使去去用这样的一些 AI

技术的时候,慢慢它自然会形成一些行业的解决方案,甚至是一些标准。那比如说,你们这看到这个趋势跟。这个演进的过程,包括你们这些实施,是否也在影响?比如说,这五年你们在大赛上的这个出题的这个变化的演进呢?过程对,因为其实我们我们去年的题目其实是呃向量数据库,今天的题目其实更多是一个混合检索,因为我们在去年的时候,当时大模型能力比较弱嘛,对,所以呢,我们更多是通过向量,通过做这种呃基embedding至于做rag的方式来去增强向量数据库的能力。

那到了今天,其实业界它肯定会由这种简单的通过向量去做embedding来去。呃,演进成为一个更多叫上墙工程的一个一个这样的一个解决方案。那上墙工程的话,它就不仅仅说是去用向量做的embedding了,它可能会有向量,有这个全文,有这个图,也也可能会有以后有更多的一些这种。啊,标量啊,这种半结构化数据的一些索引跟搜索的一些方式,以及呢,怎么把这些这个呃数据的一些能力跟这个模型的能力结合在一起?

对,所以我们也会有一些类似AI function这样的一些方式,在数据库里面直接去调一些AI的一些能力。对,所以今年的题目就是一个混合检索。我们认为说,混合检索,向量检索它肯定是一个。我们做这种,呃,数据跟模型融合的一个初级阶段,是那最终它一定是要通过这种各种各样的、就不同的方式的混合,给用户提供这样的一个工具,然后呢。

帮助用户去基于这样的工具构建一个很好的解决方案,然后慢慢成为一个数据模型混合的一个标准。对,那你们感受到今年的这个提的跟去年的这个,或者说之前几年的状态的区别?大吗?嗯,就是感觉今年它那个混合检索的部分还是蛮新颖的,然后还增添了一道 React 的题目,然后这一块让我们因为我本来是个传统做数据库的嘛,就是现在是对 AI 相结合了,啊,这样做起来还是蛮有意思的。

因为你刚才咱们聊的时候,其实你已经在,你其实你已经在上班了,对吧?你已经在做,你真正意义上的现实世界发生的业务,是,而且是偏也是偏数据的,对吗?按我理解,原来,呃,可以这么说吧,就是一些银行的业务,是银行业务,然后银行业务也跟数据就结合非常紧嘛,嗯。那今天时间,当你看到这个,比如说考题题目出来的时候,你会觉得,比如说跟你现在在做的工作之间的,比如说区别或者差别或者是,这个这个状态的这个异同会怎么样?

呃,感觉嗯不会非常相关吧,因为我们这边是一个底层的数据库搭建嘛,就是数据库的内核制作,然后我们那边主要是一个数据库的使用,这两个一个是技术难度也是非常不一样。但是感觉业务线这一块,就是你需要去理解他们的产品怎么用的,然后这些数据你该怎样更好的传输,会给他们用户更好的交互。主要考虑是这个方向。然后内核这一块的话,我们可能考虑的更多是,呃,我如何去让用户更好的拿到这份数据,然后让他没有感觉。

然后一个是性能要快,一个数据要准。所以今年的题就是刚才日照也说了,今年的题是一个混合搜索的一个一个决赛的题。对,所以你们从因为从最后的结果打分上来说,就是看谁的性能更好,跑分更高,然后结果更短,是是这个这个角度来去做这个这个评判的。是的,你呢?呃,就是。对于那个,rex赛题,就是我觉得,嗯,就是混合检索加全文,就是特别的新颖。

就是我们在做的时候,实际上我们也有考虑到,就是大模型它如果没有上下文的话,它可能生成的答案非常的模糊、不准确。然后我们就用到了就是大赛那个混合检索能力,然后同时我们会就是我作为学生的角度嘛,我们就去参考一些,就是实现一些工业上比较。粗糙的那种方式,就是我们实现了,就是比如说,呃,对,呃,用户的问题进行重写,就比如说让他的那个语义更加清晰化、模啊显显鲜化,然后就更便于我们检索嘛。

然后所以你在用户需求发出那一层又做了一层,就是我们对把用户的那个问题进行重写。然后就把它的意图更加显性化,这样子就更便于我们进行检索。然后对,然后检索到的问题呢,我们就后面又进行了重排序,就是啊拿到更更加语义准确的那块。对,评委,你们前后的这个决赛。接到题目到真正跑通,大概这个流程是怎么样的?当时,就是我们,就是有一个整体的那个思路框架,然后我们按照这个这框架什么时候什么时候想的差不多了。

就是我们队员开了一个会,然后一起讨论了一下。你们队员构成,你们几个队员大概?我们有三位队员,然后都是同学吗?还是对,我们都是一个学校的。然后我们对,就是怎么组队的呢?就是分分队情况嘛,对,不是就你们怎么组合在一起的?是原来就认识还是?对我,我和我和我和我,我和队长是原来就认识,但是还有另外队员是我们在学校的论坛上就是相识的。

OK,然后当时是怎么去把这个框架差不多定下来的?啊对,就是我们开了一个会,然后就觉我们就参考了,就比如说各每个人想一部分,然后就参考了一下有业界上的做法,然后我们只把它实现了比较粗糙,那就是可能没有工业上实现那么细,但是我们也达到了一个比较好的效果。对,所以你当时框架想完,包包括初期跑完之后,就对这个比如说结果跟,呃,最后的成绩有一些预期吗?

对对对,就是我们感觉能参考还行是吧?对,就就那,你参考了谁吗?我能不能?啊,就是,就是实际上就是参考的 OceanBase,OK,主要主要是,OK OK OK,可以可以可以可以。你们呢?你们当时是怎么组组队?因为你们是来自不同的这个地方的。呃,我们这个就比较有意思了,就是我最开始我有点就想当自己一个人参加了,solo 是吧?

对,因为实在找不到人。嗯,然后后来我想了一下,我之前参加的一个开源社区就是 MiniGO,然后我想我去问连那边的老师能不能抓一点这边的人参加,然后就在上面发了帖子。然后当时有一个同学报过来,我就觉得我终于不是一个人打比赛了。哦,我我有个新的问题,那你当时想找的这个人的要求你写了吗?呃,就是我当时要求没有非常高,就说要有足够的时间,然后最好是还有一点 C 加加的基础,就可以了,就可以了。

哦,今天这个这个这个这个门槛已经这么低了吗?这个随着模型能力计划门槛已经这么低了,那我们这些文科生已经快要去摸到那个地方了,是吧?嗯,也也不能这么说,因为社区里的人他都是对开源有贡献,基础都是够的、达标的。然后那你们组在一起了,嗯,那远程大家远程在线聊,然后去确定方法,然后做实施。嗯,对,我们基本是没有固定的时间吧,就是我们做着做着想到了什么东西,然后就发消息在群里,然后就觉得需要聊一下的话,我们就会拉一个会议,对。

哦,那我想问,就是比如说这个比赛的过程中,它其实是一个有没有一个明确的时间点?是比如说我们要做好东西提交,然后在那时间点要等,比如说评判的这个过程,是这样一个过程是吗?有,呃,对,有的。OK,那在这个比如说做的过程中,遇到过一些什么样的,比如说卡点,或者是难题,或者是争吵,或者是什么吗?呃,就是。纠结呀,或者是一些弯儿啊之类的。

嗯,我感觉我们这边还是比较和谐的。不过当时是有遇到一个难题,就是我们开始最开始做出来六百来分的时候,就觉得已经差不多了,已经到上线了。然后看到,然后就是晚上两个同学去玩了会儿游戏,玩了游戏之后回来一看,哎,不对劲了。有一个叫“不要有小情绪”的队伍,他一下子飞上来,好像是一千三还是一千六了。然后我们就在说,他不要有小情绪,我们有小情绪了。

你们是有一个能够实时看到所有人都打分的状态的,对,是的。然后从那个时候我们就开始,就是你正常的传统优化在这个上面,就是你最高就是差不多六百七百的样子。像他们绝对不是一个通常的优化思路。然后我们后来是从执行的流程上把它整个优化掉了。你们后来跑了多少呢?七千七哦,哇哦,七千七千一好像,七千一还是七千二?

那你们呢?我们是接近七千一。那你们中间有遇到什么波折吗?对,就是就是有很长一段时间,然后我们的。就是我们的性能没有得到提高,然后后面是就我们队长他就想到一个方案,然后把我们的那个性能提高十倍,然后我们顿时就非常有信心。是个什么方案?大概就是做了逻辑上是怎么样?嗯,就是做了呃索引层的交集的那个嗯操作,然后就把速度能提高大概十倍以上,然后。

从从从那时候开始,我们就立住了,对,然后我们就更有信心去往前冲了。那你们解决了这个开始,就到了一个阶段之后,后面再做事情是什么?就再优化吗?对,我们后面就是,呃呃,那那是索引层,我们后面还做了那个,啊,就是下面的全文扫描那那一层的那个能力啊优化。对,我们是一层一层的往,最后几层大概对,最后用整体的方案,最后做了几层。

呃,大概是三层到四层。OK,对。你们了解其他的伙伴们,或者说其他的队伍,他们的比如实现方式啊、架构啊、框架这些吗?呃,我们在就是最终答辩的时候,我们就啊,对,听他们就是我们发现他们的做法和我们就是其实是大相径庭的,就是不太相同。就每每个队伍他都有自己的实现方式,对。这是不是也是这轮?就是因为原来大家会认为数据库就是一个严格的结构的东西,它是它已经不能再结构的话,甚至是一个非常趋同的一个发一个一个状态。

但是因为就是无论像数据库模型能力,嗯,然后各种各样的信息的这个这个样子的变化,导致这件事情变得没有那么。严丝合缝的被封在一个地方了,嗯,这个是不是也是一个一个一个一个一个变化?我觉得数据库肯定会更加开放一点,就是因为原先数据库它主要用来做交易跟做分析嘛,对,那处理结构化数据呢?而且因为数据库它经过这么多年的一个发展,很多理论呢,它都会有一些比较成熟的一些经验,所以呢,在原先做交易做分析里面,可能是经过了好长时间,会有一个比较大的突破,会有一个方法性的一个变革,是吧?

那到了今天,这个数据跟 AI 结合在一起,很多时候它变成了一个搜索问题,就是你怎么从这个上下文里面找到,你跟大模型能够匹配的更好的一个东西嘛?它不是个百分之百准确的,对对,它有一加一等于二,有一定的这个非精确性。再加上这个东西属于比较早期,所以很多方法它没有定型。所以有的时候我们发现,包括我们在座两位选手,也包括这个我们现场那些选手,他里面会想到一些方法。

可能凝聚答辩的那个,我我是评委,对,可能也我们也不一定就是会想到那样的一个思路。所以这里面也有一个互相学习的一个过程。对,所以现在你看,AI 很多时候是年轻年轻人的天下,AI 数据库也很多靠年轻人,不是我们这些老登的天下了,我们已经被拍在沙滩上。然后还想问一个问题,就是,呃,因为大家会说这轮模型出现之后,没有办法解决的是幻觉的问题。

然后大家会把幻觉的问题,引发到数据层面的问题,因为刚就像刚才我们说,它没有办法百分之百精准,那它必然会有一些问题出现。那这个事情,当然也有人会说,我们可以通过路由的方式把一些问题分到,就跟最近那 DeepSeek 那个那个论文不是在解决类似的问题吗?那这个事情您您怎么看?就说幻觉,然后能不能解决,以及用什么方式解决,或者说这件事情真的需要解决到那个程度吗?

我觉得幻觉其实就基本上这是一个比较关键的问题啊!你要做好幻觉,肯定就像我们的大脑一样的,我们大脑它可能刚开始有了比较强的一个推理能力,但是这是不够的,因为你还有类似海马体这样的东西,对吧?所以说,DPC 它确实是尝试把一些东西结合到这个模型的底层。对,那也可能是说,因为它结合的底层也是一加一这样的方式,它不是搂到那个参数里面。

它是放在外面的一个挂件里面,对吧?所以,在它跟外面在数据库去跟这个模型结合在一起,里面用的一些这个方法跟思路,有的时候可能也是一种这个。有点像是本质是差不多的,嗯,对,就你需要有一套这个数据库的比较能力,你把有一些这个固定的东西给记下来,然后就放在那,对,就放到那,然后就去那儿拿。对,它第一个是解决了经济性的问题,第二个是解决了这个成本跟效率的问题,因为不需要每一次都去都跑跑一遍嘛,这个是没有必要的。

比如在你们,因为你们这次的决赛问题就是一个混合搜索的问题,那不可避免的会出现幻觉的这个情况,你们怎么去?比如第一次遇到的时候会。很烦,然后怎么去解决把这个事情变得更好一些?啊,就是我我先说吧,就是你先说啊,就是我们我刚才已经说过了,就是我们先把问题用户层那一层,对,就先把它重写,就是可能说有那些语义相似的词进行替换,然后或者说有些缩写还有它的全称进行这种替换。

哦,我问一下,那这次搜索这个就是它搜索这个需求的题目是固定的,对吗?就是他,就是他搜索的这个,就是用户发出的这个需求的这个地方,在题目里是固定的,对吗?啊,对,但是我们不知道,就是啊,对啊,是盲盲的,是吧?盲盒是吧?对对对,这个来讲是个盲盒,是是是啊。然后您继续啊,就是我们做了这一层之后,然后我们还对呃就是混合检索之后的输出,再进行了啊重排序,重排序这个操作就能大幅度的减少那个啊减少那个啊就增大语义的相关性,然后减少就是模型的幻觉,然后最后输输出出来。

但这同时过程中也要兼顾兼顾效率的问题。啊,对吗?就是它又不能让这个工作变得更复杂,或者变得更更更难,不能让整个路径变得非常的庞大。对,呃,我们这边就是。开始是看到了那一份答案,就是输出问题的答案之后,我们比对他的回答是非常的对,但是他的那个我相关的文档和页号,就是感觉一直在飘,他有好几个,然后我们当时就去问了那个嗯这边。

那个出题的人,然后他说他们会增加一个视觉模型去解决这个问题,然后但是他加了之后,我们还是还是飘,然后发现才是我们自己这边,就是他能说的对,但是他来源不对,然后感觉这个其实在业界应该会是一个。非常严重的隐患,因为你要知道它是哪里来,然后你才能给出真的正确的答案,而不是他猜出来的一份答案。然后我们就首先对,就我们通过我们的创客去对文档进行排序,先选择了。

嗯,最可能出现答案的文档,然后再通过这个文档里的页号去定位最可能出现的页,就还是要做几层的确定性的位置的确定。嗯。然后最后结果还可以,呃,我们的结果感觉是数据量大了之后,我们考虑的没有非常的周全。嗯哼,嗯,因为我们后面时间有点不太充裕,所以在这套赛题上我们是做的比较差的。总共几道?几道题?两道,两道。

好,那另外一道呢?内核的做 Q P S,这是混合检索这一道。所以你们是出了谁出的题?这个是我们团队的一些一些工程师出的题。嗯,这个我觉得这个题出的也,我我会觉得出题的这个这个题的范围、角度、深度跟可能性真的是蛮难的。对,因为你们已经做了五年了,每年要根据行业变化、技术趋势啊,包括现在学生的能力,去去综合考虑出这样一个东西。

对,因为它第一个是你出题的方向,对这个我们可能整个团队会大概讨论一下。比如说,哎,今年我们觉得要往哪个方向?我加AI类的,对吧?那第二个是这个出题的难度,以及到底像考察的点是什么?嗯,对,这个点是比较关键的,因为你不能,你一定要有区分度。那同时你也得这个刚好是这个考察的这个点,跟这个数据库的内核,以及跟当前的一些应用场景是能比较结合在一起的。

就我们这个比赛,虽然今年我们是加了一个叫 AI 相关的一个一个业务场景,对吧?但这个比赛到现在第五年,其实它一直是专注做数据库内核的,嗯哼,所以它也是说基于这个 AI 场景的这个内核怎么去优化好来好这样的一个场景。所以我们还是希望通过这样的一个比赛去培养这个,呃,底层的一些针对数据库内核的一些基础软件研发人才。

那延续这个问题,因你们做了第五年,就是这五年看走下来,你感觉这些参赛选手他们的画像有什么变化?我觉得今年跟去年吧,我可能印象会比较深一点。我觉得有两个变化,第一个变变化是今年有两个本科生的团队进入了前十名,就整个学什么呢?选手们他相对来讲会更年轻一些。他他们本科生学什么?也学本科生学计算机的,OK,也是学计算机的,对,也有学网络安全的,但是本质上也是基本上计算机相关的啊。

那第二个是今年的选手,他可能他在做这个题目的过程中要去理解这个题目,理解源代码,甚至可能要做一些 coding,它里面会比较大量的采用一些 AI 相关的技术。那就延续的话,就是你们用吗外部 coding 的工具?你们感觉就是,当然这个可以抛离开这次比赛啊,就在你们日常的,无论是工作、学习、做项目的过程中。

这一年,或者二五年,这个这一年走过来之后,你就发现,比如 AI coding 对你们的,或者你们怎么看 AI coding 这件事情,怎么用,用的程度。对他的认可程度乱七八糟。呃,我先说,嗯,呃,我在参加这场比赛之前啊,我还是比较偏向于那种传统手敲代码的选手,对,因为我就觉得自己写的东西会比较牢靠,因为我本身是 ACM 出身的嘛,所以就是更更那什么了,是吧?

更古典了,底底子好一点。然后对我最大的冲击是我有一个队友,就是我当时社招招来的一个队友。呃,他叫吴静华,然后他当时在我们做那个 mini OB 的时候,他就开始用那种 AI 的工具,就是开始做了。我开始就觉得这种做的是不会理解的不清晰,然后但是这个我们通过提一个 PR,然后我们大家都可以看到修改的地方,然后我们都是每个人都是学习过对方写的代码,然后才会去合并这份代码。

然后到了决赛之后,他这个优势真的就是完全发挥出来了。他结合 GPT 把那个代码分析完,然后用 Cloud 把那个代码,他直接就做出来了。我在那里看了好久,我都还没有搞明白这个东西前因后果怎么样。他已经做完一版的功能发出来给我们看了。那你现在开始用了吗?我包开始用了,就从他这一下给我打机打完,我就开始觉得他是 AI 使用的大神,然后就一直跟着他学,然后就听他是怎么用的。

他说只要把问题讲清楚,需求描述清楚,对他的 AI 就可以做的非常的好。你我我其实比较早就开始用 AI 了,就是可能从二一年、二零年的末尾,就是 GPT 四出来的时候,我就开始用了。然后就是我我在我在这几年中用用的时候,我就感觉今年和以往最大的不同就是。很很多一些啊,编程 IDE

的那个工工具出现,它增强,它直接能读取呃整个代码源码的那个上下文,然后这样子的话,就是我们去就是编程就更加方便,我们不用不用把每个片段摘出来,再粘贴过去,对对对对对,这样子。

其实非常大的便利,我们啊开发者去阅读源嘛,然后去做开发,对。那那就大家那边的问题,那未来似乎。肉眼可见,coding 能力还会继续再提升。对对对,那对于原来的手艺人们怎么办呢?呃,手艺人有手艺人的优势嘛,就是我们 A A I 改完之后,它肯定是会有一些报错。对,如果你要是直接去让 A I 完完全全的去改,它会用掉很多的 token,然后就是费用会比较高嘛。

但是像有一些其实很简单的问题,我们直接扫一眼就觉得,呃,就这里它没有写对,然后手动改完之后再跟 A I 说,这边这个部分我已经修复了。它其实也能提升一部分的性能吧。还有一个就是,呃,你全靠 AI 写的话,你对这一块的代码会会非常的了解。对,像我们自己这种他写完,我们会很仔细的去过完,了解它的整体的执行流程,这也是我们后来反超的原因。

可以,那你们怎么看?嗯,就是手艺人们怎么办呢?纯手抠的怎么办呢?呃,就是我我一我一我就是很长时间都用AI,我我已经迎接了是吧?对,我已经拥抱离开,对我完完全拥抱AI了。似乎我会觉得这一代的。在座的都是这样的,嗯,就是他他不会像我们有那种对吧?有那种类类似那样的情情感的东西在。嗯,我觉得是一种新的手艺。

对对对对,新的手艺,然后把这个AI用好的手艺,那有几类,就是第一是说这个手艺它有些新的技能,你得去还是得与时俱进学习,对吧?第二。呃,这个AI它毕竟是现在才是抠拍了,对,它能够帮助你,对,怎么用好其实是需要你经过这个传统手艺的一个这个,可能是一个修炼,最后你才能用好这种新的手艺,对。你们内部。怎么看?

我们内部这个 AI coding 的使用率非常高啊,就基本上我们的这些这个代码。呃,尤其是写代码这个方面,我们是大量的采用了这个 AI coding。对,AI coding 它在一些这种前端,一些这种。生成一些这种实验性的代码,那效率是极高的,包括做一些中间件啊,这些都还是极高的。它在,但是它做一些特别严谨的代码,其实还是有比较大的一个问题。

现在是,然后再加上这些 AI coding 它做的这样的一些代码的话,它最终还是需要一个比较好的人去 review 它。对,对,它直接做出来的东西呢,里面是有坑的,要去 review 它。啊,所以呢,第一是怎么用好这个 AI coding,第二呢是,这个怎么基于这个 AI coding 这个建立一个更好的开发测试产品协同的一个方式,嗯,它也会发生一些变化。

所以我觉得到了今天这个时代,肯定有了这个好的工具,我们是要去适应这样的工具。但,呃,这引发另外一个问题,大家也会说,因为 coding 毕竟还是一个对于任何一家公司而言都是一个很核心的、很重要的一个数据资产。对,但如果我们用了,公开的 coding 工具,那似乎会有安全呀、隐私啊、乱七八糟这种这种这种问题。

那这个,你们作为,因为你们本身上,除了你们是一家开源数据公司,本身上你们也是一家一千多人、有不少业务的一家。一家公司,那你们怎么看待这件事情的这个这个问题呢?对,就我们最核心的代码都是完全 open source 的,所以对我们来讲,就是 OB 的最核心的资产其实是我们的员工,而不是它那些代码。嗯,对,就是最终你还是要不断的去创新,才能在这个场景有竞争力。

就是比如说 OB,我这个团队形成的这个组织能力,使得我不断的能够通过创新来去更好的解决用户的问题,当用户遇到问题,我能给他兜底。那这些东西他都不是说我以为纯代码的问题。合理,合理,可以,非常合理。然后我们再聊一个这个这个这个更更热、更更新的名词啊,就是进入到二六年,大大家都说,反正至少硅谷的共识是说,这个自主学习,对吧?

Continuous learning 是一个趋势了。那,这个就像我们刚才在前台的时候说,就是“肯定论”这个这个词这么热,今天的时间点似乎对这个词本身的定义也还没有非常的清楚。但是,也有一派观点会认为,这件事情真的想实现的话。可能更重要的还是数据的问题。嗯,你怎么看这个这个观点或这个角度?嗯,我觉得这个这个今年确实有一个词比较热门,肯定就是 learning,肯定就是 learning。

它是在两个层面去做,第一个层面是直接模型去模型本身内化,模型本身内化去肯定就是 learning。第二个是。模型跟这个数据库结合在一起来去做,叫玩上去玩工程。上因为数据库它本本质上就是一个能够实时读写的一个能够持续的进化的一个东西,对。但是它跟模型的机制又不一样哈。第一种方式在模型里面直接去做的方式,到目前为止啊还是没有一个很大的突破的。

就大家在试,可能有些新的工实验室在试。对,有那个 Thinking Machine Lab 嘛,他们在试这样的一些东西。但他们出事儿了,那那个再说了,就是,但是本质上就是这里面它确实有一些比较大的挑战。这个挑战在于说,比如说我们今天拿到一个模型。我们去做这个微调,对吧?去做 LoRa LoRa LoRa,搞几次以后开始,哎,这个结果到底是什么?

基本上你是不可预测的,需要人去看它,对,所以它很难找到一种自动化的方式去做好这件事情。那到底是这个有一些理论上突破了就能做到呢,还是说可能说这个不一定,可能是这里就做不好,因为可能根本做不好,对吧?那我们我们是一个比较实用的做法,我们实用的做法,我们还是。首先,我们先把这个基于数据跟模型结合在一起来做,肯定就是那你这件事情玩明白。

嗯,其实基于上向工程去玩明白数据跟模型结合,我觉得已经没没搞明白。对,已经已经是很前沿的事情了,已经很前沿的事情。那所以,那你像呃传统数据库,嗯,到向量数据库。对,到向量加上下文加加加所有东西,那这个是不是也在匹配这个趋势的变化?对,就是我们今天这个,不管是 OB 还是这个 DB,我们在讲这个混合搜索,其实它解决的就是通过持续的迭代的上下文来去。

实现这种让模型跟这个数据结合在一起,不断去进化的这样的一个过程。对,那这个过程,我至少认为这种方式。虽然我们也现在没有把整个事情完全玩明白,嗯,但是它一定是一个正确的方向,而且不管是对这种大企业还是小企业,其实都是非常有效的一个方式。因为小企业你来了以后,你第一件事情就是要把数据管起来,才能把模型用好。

你需要有好的 tool,你需要有数据有变化的,我得随时去迭代我的这个能力,嗯,是吧?那就是我们要的这个 OceanBase 好,ClickDB

好,加这个模型的能力。所以,其实你们在做的也是在匹配这个趋势的状态中。虽然大家不知道是不是,比如说纯研究角度会突破,也不知道今天是也基于更多工程上的努力也能走什么线,但至少我们在匹配这个浪跟这个趋势的状态,再往前去做我们数据库相关的工作,能够让这个事情往前更走得。

更好的一个一一个东西,对,而且我们的所有的东西,包括我们的 C 核 D B,包括 O B,也包括我们上面还会有一些探索性的一些工具,比如说 Power Lake、Power Memory 啊这些东西。我们其实都是全部 open source 的,全部全部 open source 的,而且是 Apache 二点零的。

就是第一,呃,我们是认为这个方向是对的;第二,我们认为说可能业界有一些人也会用我们这一套的 tool,玩玩的更明白。因为因为因为那个我我记得那个蚂蚁开源每一段时间会发一个那个整个 AI 领域开源的那个趋势的那张 map

吗?嗯嗯嗯,对吧?就是。你明显感觉在可能在二十四二五年之前,嗯,业界对于开源领域的这些趋势变化是没有那么多,或者说这些东西变化跟纯真正意义上的产业之间是割割裂的,嗯嗯,就是可能技术研发或者开源世界在玩一套东西,对,业界在研究另外一套东西,对。

但是在二五年,我印象特别深,蚂蚁开源是第一次发这个报告,应该是去年六月还是几月?就是它的那些比如说 agent 的框架 infra,包括数据层的那些东西。的趋势变化,GitHub 的新的这个提升以及研究的热点,跟业界是完全匹配在一起的。嗯,就是就是这个状态似乎也代表今天时间,大家会说开源其实并不等于公益。

嗯,开源并不等于没有商业化。嗯,开源今天这时间似乎史无前例的跟真正意义上业界发展。再绑在一起来做,对,就是因为早期这个AI,它其实是还是更多做一些创新嘛,对,所以它跟原有的这个技术栈、原有的系统,它其实是有一定的这个gap的,对。那今天AI,包括你说的半年之前啊,它其实已经开始说,我甚至一些传统的应用怎么去做智能化,那它跟原有的这个技术栈,它是要去结合在一起,结合在一起,它自然而然呢,原有的技术栈也得想办法去拥抱这个AI,因为这个趋势现在是非常确定的。

这个的状态也会让,呃,因为大家也会说,可能二五年整个业界是强化学习年,但中国如果换一个关键词,其实是开源,就是,嗯嗯嗯,如果我们去只拿一个关键词和标签定义二五年中国AI行业的发展的话,嗯,那可能很多人会讲到开源这个关键词是。就是无论是模型层面的开源,还是整个生态的这个,这个这个变化,那为什么?就是我之前写 PPT 时候,我说,嗯,我说过一句话,说我说,开源可能是结果。

也可能是原因,就是引发我们这轮跟中美的 AI 对抗、乱七八糟这些事情,它可能是结果,也可能是原因。你怎么看这些事情?就是中国公司为什么我们在开源生态突然间这么强,就这么拥抱,而且看上去正确,就双引号的正确?我觉得有很多原因吧。那第一个还是说,这个跟中国的今天的商业环境,嗯,跟中国整个技术在全球的一个影响力,也包括比如说很多 AI 的一些东西,毕竟还是美国人他把这个算法先发明出来了。

那我们更强的地方在于说是在工程能力上做的更好。他对一个。你不是第一个做出来的,但是你是在工程上优化的更极致的一个这样的一个产品,最有效的方式就是面向全球市场去做开源,对。让生态帮你继续发展的更好。对,你们一直在践行这件事情,对吗?对,OB 我们一直都是完全开源开放。OB 之前应该是蚂蚁的一个内部项目吗?

还是?然后后来变成公司化的,OB 应该是二零一零年我们就开始做,那前面的十年它都是蚂蚁内部的一个项目,然后二零年之后我们才是正成为这个公司,公司化之后第二年我们就马上就,那个开源出去了,到底是谁做的决定?开源其实是我们建立这家公司的时候,大家就讨论好了要开源出去,嗯,只不过是筹备了一段时间。因为其实开源它并不是说你把内部的代码直接一发布就行,不是的,开源要做的事情很多,比如说有很多。

比如二零二零年,我们当时成立公司的时候,我们就想要开源要做的这个事情一二三,对吧?第一,可能就是对蚂蚁的代码的依赖得去调掉,去把它给调掉,对。第二,就是有些写的不好的代码得去改一改,文档啊等等。要对外了,要要见公婆了,对吧?对对,很多活要干。那我有另外一个更好奇的,就是说,本质上讲,因为原来我们相当于是做内部支撑的一个,嗯嗯,一一个一个一个一个东西,嗯,然后今天我们要把它开放,甚至我们要去。

找客户要找不同的,就是这个过程,对一个原来是一个偏,因为我为什么?因为我们有公司,我们公司内部也有一些嗯 team 在这个时间想做类似的这样的,但是你会发现特别难,就是因为你的角色、你的状态、你的位置,然后你的目标嗯完全不一样了。明白?我觉得这个首先还是你这个产品的初心是什么?就是这个产品创建的第一天,它的是为了什么创立的?

OceanBase 创立的第一天是要讲做世界级的数据库。虽然是二零一零年,当时只在内部,但是,所以我们的所有的底沙也是朝着通用的去做的。第一天发薪就决定了,对,可以可以,这个这个回答很好,非常好。嗯,老师,好,我们再聊一个另外一个话题啊,就是想问问两位同学,就是你们现在就是,我知道你们现在都是研二,对吧?

你也在工作,你可能马上也要面临这个工作问题。你你觉得今天这个时间点,当然可能因为你们已经站在这个浪潮的最前面了,对吧?那你们怎么看当下这个时间点AI?比如说对于尤其你们还是学计算机的,或者说计算机相关的专业的,就是你觉得 AI 这波浪潮对于你们这些,无论是你们学的东西,还是你们未来。要做的事情的影响跟变化会有什么感觉吗?

嗯,我先来说吧,就是我感觉 AI 就是能大大大幅度的提高我们学习速度的,就是学习的速度,然后就让我们接触到更新的东西,他们教会我们非常快的去教会我们东西,这样子就让我们。就是更快的那种推力,让让我们前进。但这是努力积极的,那有不努力不积极想躺的怎么办呢?呃,就是。就是如果你我我感觉啊,如果你不去接受 AI,就是你可能就是会被在 AI 时代被淘汰。

你你像你去学安全的,对对,安全似乎更,我觉得离这件事情更尖儿上,就更在那个尖儿上的位置。因为关于 AI 这种安全的探讨变得更复杂,因为传统传统的安全,因为我原来也搞,传统的网络安全还是一个偏就跟传统数据库一样。它是一个基于定式的、个结构化的、有相对固定套路的一条东西。但是今天来之后,你会发现,它变就那个口子被打的无限大了。

对对对,就是就是犯的不能再犯了。对,现在 AI AI 就是我们现在接触到的 AI

行业,它已经不再是原来不是安全行业,已经不再是原来传统的。是的,当然,它现在已经引出了,比如说大模型的安全啊,对啊,是模态的安全啊,就是。对,所以我们就是我们的口已经被拉得很大了,超级大。对对对对对,就很有感受。那你们就是说这个过程中,因为之前你像之前有很多年,就大家总讲的例子是说,那个一些某个美国的汽车公司把那个

AI 的客服能力放到他自己体系里,结果那个一个用户就通过 hack 的方式,八美金买走了一辆汽车。

就是大模型的幻觉加各种交易的环节的乱七八糟,它就理论上是可以实现的。那这些问题,在AI之前的年代是不太可能出现,尤其对于安全板块来讲是不可能的。但是今天,因为你的口子被放到了,因为我们在追求通用,我们在追求泛化,嗯,然后但是企业内部的,无论数据库、网络、呃交易系统,本质上讲是一个封闭体系的。那么大的口子,那对安全的这个要求,我觉得,我的天,就是我会觉得,就是这一波,因为今年其实讨论安AI泛安全的问题也特别的多。

就是,无论是大模型本身带来的各种各样的,你还是因为模型跟传统企业之间的业务结合产生的新的安全的问题,这个议题似乎也不小,是吧?你们就是作为这个这个这个算真正意义上在一线,比如说未来你工作想找什么方向吗?就是可能,啊,也也差不多是这个大的,对,做大模型的安全这类的可能。这个事情在国内目前是大概什么样的状态?

就是我在学校就是接触到,就是现在很多特别新颖的,就是科研成果,就是都是呃这个叫安全,对,大模型安全,或者说语音模态啊,那个那个。呃,其他多模态的那个安全相关的很多很多,而且这个看上去这个问题也没有收敛到一个。有比较明确的几件事情的这个状态里,它还是一个很宽的。对,它现在还在,就是感感觉是在快速的发展这个阶段。

对,你们,你你一直是做编程,然后今天时间其实你已经在你已经在干活了,对吧?你觉得,因为你还在一个银行,我觉得是最。说也好保守,最当然他他他保守是有原因的嘛,是吧?对,那但是今天来之后,似乎对这个冲击也蛮大了,我觉得。呃,就是我觉得我那边还算是稍微接受度高一点的公司了,就是他们也已经就是在内部使用AI去编程了,但是他们的需求就是有点,我本来是个后端工程师进去的。

然后我现在,我现在变成了一个 Java 也会, C 加加也会,哎 React 也会,就是有点变成全栈。然后确实,你通过 AI,你只需要去描述你相关的需求,你只要能把它运行起来,你就能去实现这么多功能。那这个对未来有什么想法吗?或者说想学一些什么新的东西吗?呃,我我其实对我自己的未来非常的非常的模糊啊,就是没有一个。

固定的方向就是还是在摸索吧。嗯,我我听说你们员工里是有很多原来参加比赛的这个这个学生进来的。对,嗯,就是这这个当时是怎么怎么是机缘巧合还是就本来就有一个想法啊?因为其实我们的比赛的题目好多还是涉及到数据库内核的开发嘛,对吧?所以呢,呃。所以呢,这个有一些他本来就是做数据库内核研发的同学,那他其实加入 OB 对他来讲,往往可能就是一个最好的选择。

是,对,当然了,OB 我们举办这个比赛啊,我们不全是为自己招揽的,而且我们最早二零一零年当时做这个 OB 的时候。当时其实国内根本就没有能写数据库,没有能写数据库的开发人员,所以我们当时招人是挺难的。所以我们慢慢有一个想法是,哎,我们通过一些比赛来挑一挑。对,来去培养人才,培养人才,可能有些人就会跟这个当年 NBA 不是刚才耐克跟阿迪主办这个。

小球小球员的比赛是一样的,就是先看一波,然后再说,是吧?嗯,当然这个一般来讲,参加 OB 的比赛的同学,他会比较喜欢来 OB,但是也不是每个都来 OB,基本上是会分散在整个行业里面。就我们的比赛的含金量是比较高的,比较热,比较热。他只要能拿到好的成绩,最终基本上这个大场的 offer 肯定是一点问题都没有的,而且基本上都是比较好的 offer。

那你像你像刚才我们聊过,你像今天这个时间点,无论是呃向量数据库,然后多模态,然后可能 online learning,还是 AI 模型能力的提升,对这一轮我们叫数据库人才的画像本身上是有一些变化。嗯,那这个变化似乎我们是能够感知到这个这个情况。那其他那些不是专门做这件事情的厂商们,他们怎么看这个,或者他们怎么去评判这个事情呢?

呃,我觉得第一个对数据库人才画像,我觉得有变与不变。嗯哼,对,首先这个不变的东西还是原来有一些数据库的一些基本的理论呢,包括我要真的把这个 AI 用起来,是需要把这个需求的理解描述的很清楚。很清楚,对这个东西,对数据库的一些基础理论的一些培养啊,包括一些基础的 coding 的这个老手艺学会了,才能随心所欲,这个东西是一定的。

然后这个东西完了之后呢,可能确实需要这个研发数据库的同学,数据库虽然它是软件里面最核心的一个这种基础软件,但是也一定不要固步自封,要比较开放,比较开放的去有好奇心的去接收新的一些东西嘛。对,明白。哦,你们两个就是,因为这个比赛是你们参加过一次就不能再参加了,对吗?嗯。但是你们的,比如说师弟师妹们,会有可能再再参加。

就是你对这些,比如说比你们小一点的。哪怕是刚刚入学的学生,有什么想跟他们说或者建议也好,或者说想给他们提提醒,或者是避免一些弯路之类的。嗯,我先说吧,就是,嗯,就是我觉得,如果学计算机的话,你就。啊,就是要自己去多多探索探索。对,就就像今天,很多人会说,或者很多家长会被教育是说,在这个AI的能力条件下,就不应该让孩子学计算机了,尤其不应该学coding。

你怎么看这件事情?嗯。就是你,你学不学 coding 是一回事,但是你得去了解,慢慢的去接触一些新东西。就是你,你,你肯定得跟得跟得跟时代去接轨,不然的话,是肯定这样子肯定不行的。对,你当时为什么选择这个专业呢?啊,我选择安全专业,呃。这个我选择安全专业,其实呃是是因为,嗯,就是就是刚好到了就就所以就来了。

OK,也没想那么多,老师。对对对对。OK,那再对,比如说,如果你有师弟师妹想参加下一明年的比赛,你对咱们会有什么建议帮助?就是。这个比赛的周期大概有两个月左右,所以就是,你中间可能会遇到各种各样的挫折,你可能会因此就是感觉到很挫败,就是可能你的性能没有提升,你可能你的效果不好,那你在这个路上你就要一定要坚持下去,你就坚持走到最后,然后你你不管结果怎么样,你反正你就自己是感觉到不会后悔的。

对,呃,我说一句话吧,但虽然现在不太合适啊,我想说,代码始终是人写的,就是你只要用心去看,迟早是能看懂的。但现在 AI 写的代码是是有点多,而且越来越多,看起来。嗯,但是它主始终是有逻辑可以寻找的。你是之前一直参加 ACM 的比赛,呃,我就本科这期间是一直参加。你本科学什么?也我本科是计算机的,然后研究生是大数据。

哦,就是现在有很多这种用 AI 用的好的一些人,包括我们团队内部的一些人,都是那些原来这个写代码写的比较好的 leader。哦,对他并不是说,哎,我没有写过代码,我最后就把 AI 能用的凭空的,是,不是的,对。因为写代码就是我觉得写代码这个过程,从这个高校的角度是应该去培养的。因为即使 AI 能写你,但是呢,你没有经过这个过程,学生他是不会有那个逻辑的能力的。

嗯,就写写代码是最好的训练逻辑能力的一种方式。包括你一参加 ACM 对吧?嗯,那个东西就是怎么确保写出来代码又快又能保证它永远是正确的。就这个东西,它不仅仅说是这是一项技能,它更多是锻炼一些能力。嗯,这个很重要。所以,那似乎就是当然,这可能都是偏正。但你们会不会有一些什么担心呢?或者说,在过程中遇到哪些坎儿,觉得真的过不太去了?

无论是这次比赛过程中,还是比如跟AI的结合过程中这些事情。嗯,我感觉啊,和和 AI 结合,就是我现在感觉 AI 的能力就是越来越强大了。嗯,当然。然后对,然后就是说,可能你给他直接提一个需求,他可能就做的已经很好了。就是对于我们现在学生角度来说,对。怎么样?嗯,因为北邮是一个,因为你是北邮,北邮已经是我们在整个互联网里是最先锋意志的代表的一一一个学校。

就是我我我不太确定你们比如学校内部对这种AI的看法,或者比如他们从一些对学生的要求、或者实施、或者建议上有什么变化?对他,他我们学校也是比较支持,学生就是使用 AI 的,就是 AI 确实是能很大幅度的提高我们。那在日常教学中有什么实际的这个变化吗?呃,因为因为我已经就是已经不在课堂上听课了,你二楼对对对,所以这这块不太了解嘛。

嗯,因为我听说之前有哪个学哪个学校是给学生发算力的。哦,对,我们我们学校有算力中心,我们可以用学校的那个算力,但用的多吗?人就用的人多吗?这个应该挺多的,对。北邮可能还是一个比较特殊的,但是我上次听是另外一所高校,就是校长说我发了那么多,但是就很少人用,他很担心,因为那已经是中国最好的学校了,嗯,但还是觉得这个比例不够,不够高,所以他他他表达这个这个。

对,但北欧确实不太一样了。那你们呢?在过程中,嗯,我感觉就是确实吧,现在 AI 真的很夸张。我们答辩的那个 PPT,甚至只是对,我们把我们那个思路说给 AI 听,然后让它生成一个文档,然后再把这个文档丢过去,它生成的这个 PPT,它那几张图,我觉得是我这辈子都画不出来的,震惊了是吧?嗯,这个多想,就我是常年就是你们代码很强的,你们是手抠的传统手淫的代码的手淫。

我是传统的手艺的 PPT 的手抠的手艺人,就因为现在 PPT 能力真的,就是我会觉得,我们这种真正还在坚持手抠做 PPT

的人,真的快成非遗了。因为尤其这轮这边的三的拿不拿得出来之后,尤其这你看,就像你刚才说那个,就跟我们最开始讲的是一模一样,就是它不是画一张图,嗯,不是帮你做的,它的问题在于你给他讲了一个逻辑,他帮你把这个逻辑的可视化做的符合你讲的逻辑,就这个能力是一个,我我就是本质上来讲,PPT很多时候做的工作其实是一个排版的工作。

它不是一个创作,它是个排版。排版就是说,我要一二三金字塔啊,什么对吧?它是一个那样的东西。那个东西是个可视化,它是有逻辑、有框架、有跟你内容匹配的。它的核心是那个。不是帮你画一张花,画一个草,不是那个,但你想,今天的AI能力是基于文本、多模态、可视化表达、逻辑框架,帮你做出来,你真的会觉得,我可能一辈子也做不出那样子。

然后我们这些非遗的坚守,最后那个手抠的,真的越来。我原来是真的非常坚持,每一页我都是要自己就对齐、找字体、标号、涂色、配色,全部都是一点点摁出来了。但是今天我因为我每大概两三个月会做一次P

P整,我最近在做的这一次里面,就里面出现大量的应该做的配图。因为就是它真的就是又快又好又准,就是就跟代码的发展是一模一样的,所以就是人类在坚守的那个东西变得空间越来越小了,就是越来越被挤压的,这个感觉非常的非常的强烈。

就是代码是一层,然后今天我发现 PPT 这个战场也守不住了,对,然后。我看我们今天聊到最后,聊到一些这个这个,我们聊的更更更发散一些问题啊。因为对二六年有什么期待吗?比如说你们作为一家开源数据公司,在当下这个时间点,在AI模型发展到今天时间,数据被提升到史无前例的高的情况下,比如对二六年有什么期待?

无论是你们自己,还是对业界,还是对技术发展,都可以。嗯。我觉得二六年,首先我还是比较相信这个 AI Agent 它是会在进一步爆发的。嗯,那基于这个 AI Agent 进一步爆发,它会把这 AI 能力真的在企业里面,它的业务流程里面就用起来。对,那所以在这样的一个趋势之下的话,我觉得不管是对 OB 还是对业界,我们肯定希望说我们真的能够探索出一条数据跟模型结合的一条路来。

对,并且通过产品化能沉淀到产品,沉淀到系统。把帮助我们的企业真的去把这件事情给趟通,嗯,对,然后这样子的话,只要二六年趟通了,那未来几年它可能它就会进一步去做复制,对。然后这个就就我顺延一个,因为agent也是二五年一个很核心的一个关键词,嗯嗯。然后又因为大家会说agent要做规划、执行,呃,数据使用,然后到结果反馈这样一个过程。

然后又因为我们从大语言的模型从语言到agent的行为,嗯嗯,这个跨越过程中你会发现,呃。上一个阶段似乎只是模型公司的事情,嗯嗯,但是到了一阵,你发现这个事情变得异常的复杂,对,因为它要跟外界环境产生交互,要跟数据打通,嗯,无论是企业的私有数据,还是要有数据库的权限,嗯,要各种乱七八糟,就是这个事情看上去它就不可能是一个快的事情,嗯,因为上一个代事情它本质上就是一个堆算力理论上差不多就可以搞定的事情,对,但是到这个似乎。

就是,大家会说,二五年 Agent 元年,但也有人会说这个元年可能会元五次到十次,就是每年都是一个年。你怎么看这个这这个这个角度的?它就我觉得两类吧,就一类 Agent 或大模型,它一定是快,因为它本质上它是一个完全通用的技术带来的一个通用能力,对吧?A卷它分两类,一类是那种通用的A卷,通用的A卷现在不都是说一年增长十倍嘛,对吧?

那个东西就是很快的,那个东西它是一类新的创新。那还有一类是你要把这个A卷跟这个企业的业务流程结合在一起,这个东西它一定是是一个比较要长周期的一个过程。那这个时候就需要底层的这个数据类的系统啊,这个模型的一个整个的应付的能力合在一起,让企业就用起来行政解决方案、行政标准。它这个东西它不会特别快,但是也不会慢。

它可能说,这个有点像我们做To B跟To C的一个区别。如果你能完全通用化,你本质上是一个To C的逻辑;你不能通用化,你是个To B的逻辑。但是有了AI之后呢?比如说原来的To B它的增长速度,假设是百分之二十,有了AI可能会变成百分之三十、百分之四十,但是它不会说变成百分之两百。哎,所以也是快的,因为,to B 的特点在于说,它能让这个百分之二十呀、百分之四十呀,它连续增长二十年。

嗯,to C 可能是两年,对吧?就结束了,所以没关系。我觉得,以你们的经验,比如在哪些行业看上去趋势会更好一些?因为你服你们服务很多类型的客户,嗯,我觉得,嗯,一个是场景,一个是行业。嗯哼,那场景的话,今天可能说在很多这种。泛搜索呀,风控啊,在这种客服啊等等这些场景,应该来讲都是在一个这个。有点像是在大规模要去采用的前期了,这是第一个。

就你们是能感受到这个浪的来的状态,就可能说大家不一定能用好,但是大家想用,而且是有的需求很迫切。OK OK。是那行业的话,那肯定也是一些相对来讲会呃大一点的行业吧。就是它可能有一些高价值数据的行业,比如说是金融啊、医疗啊这些,相对来讲它本身它数据的价值就比较高,而且有很多是企业它自己的一些数据。那这些数据,它这个能跟它的业务也能结合的比较好,能产生一个特别好的 ROI,所以它一定是会先爆发起来的。

二六年有什么期待?自己也好,其他也好都可以。呃,我先说,我可能是想做一些有意思的事情,比如呃,比如说获得一份有意思的工作,或者是说什么叫有意思的工作呢?加入呃 OceanBase 是吧?对对对,跟赵老板的多聊聊。对,呃呃,因为我的成分比较复杂嘛,我是个非全日制的学生,然后我是希望能直接进入公司,而不是通过实习之后再进入。

嗯。那你现在的工作是一个实习偏实习性质的吗?还是不,我就是个正式的。哦,嗯。然后还有就是,可能有点想成为一个独立开发者,就是自己做一些有意思的东西。对,我昨天听到一个很有意思的东西,就是说把你的手机,呃,录制你今天一天的语音,然后它可以给你安排你的行程。你像现在不是那个国国产有厂商做了一个那个挂在你胸前的摄像头嘛?

啊,就是你正常眼镜里面还是要摁的嘛,你要你要自己主动的去,它那个就相当于它它有一套算法是说,它可以进记录你一天的,因为它就挂在你胸口嘛,嗯,它看到就是你看到的所有,是吧?对,它它相当于记录一天,然后它因为你一听就知道这个东西会有问题,对吧?它设置说你可以要求设置说所有数据在本地。在你的手机里,跟你的电脑里,然后它能帮你做的事情是帮你分析,帮你画一张,比如今天一天,你你来录制了,对吧?

你去吃饭了,你去写代码了,你去干嘛?你去见了人,每天帮你生成一张小漫画,你可以把那个漫画,比如分享到你社交媒体上,就是是这样一个小。然后,嗯,听起来没什么用,对吧?没什么用,但它就是个玩具嘛,然后很新奇,很酷嘛。然后卖的还可以,朋友做的还可以,这个确实,这个这个就是 AI 能力的这个带来的。我一直有个角度说,当然这很多人都说,就说技术能力的提升一定会打开很多原来无趣、没有用的场景。

嗯。那最开始可能看上去还是无趣的,还是没什么用的,但是它慢慢慢慢就会有点意思了,就是哎,这波能确实有意思。然后这个这个,然后再再再引发一点,因为昨天我刚从杭州来,昨天杭州在办那个一个一个朋友办的马拉松,黑色马拉松,呃,现场估计有七七十到八十个队伍,非常大,然后。两天的时间,然后我就开玩笑,我说这个只有在技术爆发的时候才会有马拉松这种东西,只有在技术没有稳定的时候才会有这种东西,让大家以无限的想法把一个发散的

idea 做成一个小东西,在很短的时间里,人家这一波非常明显。

嗯,你看,当移动互联网也是,但移动互联网稳定之后,这个东西就没有了,因为都是正规军了,都是流水线了。但人家这波来了,似乎这个机会变得更多。对对,呃,那我从就是学校角度来来说吧,就是做科研的时候,就是要写论文,就是我期待就是 AI for Science,对 AI for Science,就是 AI 现在已经能有能力去帮我读论文了,嗯,然后,但是他可能。

写的可能还不是特别严谨,我觉得期待可能在新的一年中 AI。哦,我我另外一个系的,比如说你们你是学密码学的吗?就是你更研究的系方,比如今天是点最前沿的密码学的这些科研的方向在研究什么呢?嗯,就是我我接触到的,就是我们研究的密码学,就是做啊全同态的加密,就是在呃加密的数据上进行运算,然后得然后解密得到正确结果,做这这一类操作。

我都快听不懂这些东西了。OK,然后那就差不多,然后最后比如说这个这个。呃,我们硬拉,我觉得拉一个高度也没有什么意义啊。就是比如说今天这个时间点,呃,问一个更我觉得更个人的问题:,比如说二六年,你期待,无论是在你们工作过程中,还是你们在做的事情,有一个什么样的里程碑,或者有什么样的变化?嗯,有小的一小点也可以。

OB 的话,我觉得二六年我们最大的一个期望,或者说我自己会亲自去做的一件事情,我觉得肯定是怎么把 OB 的开源生态变成一个全球性的生态。嗯,现在我觉得 OB 在中国还算是一个最主流的产品,但是呢,离全球知名还是有很大的差距。现在这个这个全球最知名的是谁?数据库领域全球知名的可能就是什么 MySQL 啊、 PostgreSQL 啊,那开源呢?

那他们就开源啊,他们也开源,对对。就一般来讲,数据库领域做的最好的,除了 Oracle 以外,好大部分都是开源的。Oracle 心不在此了,他现在太麻烦了,不要,他已经没有心思搞这件事情了。对,不用担心他了。有什么二六年想期待或者想达成的事情吗?一个小事情也可以,生活上也可以,结个婚啊,找个女朋友都可以。

呃,我可能就是随遇而安吧。OK,什么星座的?天秤。什么是MBTI呢?呃,我没有测过。好吧。嗯,对于我的话,就是可能成为一个开源社区的 committer,可能对我来说是今年想要做的事情。之前有过积累,跟就我之前就我们队长是 Apache 的 committer,我想向他学习,就是也想成为一个比较隆隆重的一个开源社区 committer。

看这帮年轻人的这个这个状态,还是很很让人羡慕的啊!我们这些中年老的已经被踢在沙滩上了,也很很有很很有感触,是说。呃,数据库原来是一个听起来有些传统、有些古典的一个事情,但是 AI 这波来了之后,似乎让这件事情啊。前面走了很多步,而且看上去,很多今天的时间我们能够拿到这一轮 AI 模型能力的巨大的提升的,很核心的原因是因为这些做数据的人的努力,让这个事情走到了一个让全人类能够面对一个技术浪潮的状态。

所以,只能说很感谢这个时代,也感谢对,然后也感谢今天的所有听我播客的听众。今天《图灵之书》到此结束,再次感谢几位,谢谢,嗯。三、二、一。