AI发展进入数据驱动深水区
明浩在本期播客开篇指出,回看自己去年十一月的年度总结,曾将2025年AI大模型需解决的核心问题归纳为激励机制、记忆机制与基准测试(benchmark)问题,而这些本质上都可追溯至数据层面。当前,行业共识正从“强化学习元年”(2025)向持续学习(continual learning)或在线学习(online learning)阶段演进——尽管相关概念尚无统一定义,但这一趋势本身已折射出对数据动态性与自主性的更高要求。
从工程落地视角看,AI的爆发本质是工程能力驱动,而非纯学术研究。当企业开始将大模型嵌入核心业务流程时,问题不再仅是模型多强,而是如何高效、安全、合规地管理并利用私有数据。正如MIT去年报告所揭示:95%的企业AI投入尚未产生理想实施效果,主因之一正是数据与模型的割裂——公共数据训练的大模型虽强,却难以直接适配企业特有的业务语境与决策逻辑。
“大模型在coding、聊天等依赖公共数据的场景落地很好,但在企业核心业务流程里,目前还处非常早期阶段。”
“预训练的数据如果仅限语言类别,基本已用得差不多;但除了语言,其他如word model、embodied AI等,数据仍相当有限。”
数据角色从后台走向前台:工程化AI的底层重构
OceanBase CTO日照强调,数据对科技公司从来都是核心资产,而大模型的出现,关键在于释放了此前难以利用的数据类型——如半结构化、无结构化文本、音视频、日志流等。过去受限于算法与系统能力,这些数据多被“锁在后台”;如今借助大模型的泛化能力与统一表征能力,企业得以将多模态数据纳入训练与推理闭环。
这对数据库系统提出了双重挑战:一是自身需原生支持多模态数据管理(如向量、JSON、图、时空数据等),提升用户对异构数据的统一控制力;二是需与大模型深度协同——例如利用模型能力简化数据标注、自动清洗、Schema推断,甚至实现“数据即服务”的智能交互接口。数据库不再只是存储与查询引擎,而正演变为AI驱动的数据智能中枢。
“它就变成了……踢运动嘛:模型能力提升、数据训练、预训练、强化学习……一脚踢运动的状态。”
多模态融合:从“多桌并行”到“一桌整合”的范式迁移
随着Gemini 3等模型的出现,语言、图像、视频、代码乃至世界模型(world model)之间的技术边界正快速消融。过去常被类比为“德州扑克多桌”的任务划分(语言、多模态、coding),如今正趋向统一表征与联合推理:生成图像已携带逻辑链、搜索结果与叙事结构;代码生成器能理解业务上下文;视频生成可联动时空因果推理。
从工程实践看,这意味着数据处理栈需彻底重构——数据库、向量引擎、图计算、大模型推理框架将走向深度集成。用户视角下不再区分“这是文本模型还是图像模型”,而只关心“它能否完成我的任务”。这种“用户无感”的融合体验,背后是数据、模型、基础设施三者的协同进化,也进一步印证:数据已从AI的沉默基石,跃升为可编程、可推理、可复用的核心资产。
“从用户的视角,它肯定是一个大作……虽然里面可能因为技术限制会有各种各样的做法,但最终呈现给用户的就是一个整体。”
数据与模型的融合:从分叉走向统一
当前大模型技术发展已进入第三年,技术路径高度分叉,各企业、团队在数据处理、模型构建、系统集成等环节采取了差异化的实践方式。尤其在数据层面,结构化与非结构化数据的处理方式尚未统一,语言尚未标准化,评估体系多为 case-by-case,缺乏通用范式。这导致企业级落地面临显著门槛:CEO 们喊着要上大模型,但 CTO/CIO 尚不清楚如何落地。因此,核心挑战在于如何让数据与模型真正融合,而非简单拼接。OceanBase 等团队正尝试通过构建“数据+模型”一体化方案,降低企业使用 AI 的复杂度,并推动行业标准的自然形成。正如一位嘉宾所言:
‘它不是一张画个画就结束,它是带着前因后果,带着搜索的结果,带着逻辑,带着故事,带着所有这些东西。’
‘我们想做的更多还是说,哎,这个数据跟这个模型怎么结合在一起,融合在一起,慢慢去解决企业在真实去用大模型里面遇到的一些问题,让它用起来更简单。’
混合检索:从向量检索到多模态协同
比赛题目的演进清晰映射了技术演进路径:去年聚焦向量数据库与 RAG(Retrieval-Augmented Generation),今年则升级为混合检索(Hybrid Retrieval)——整合向量、全文、图结构、半结构化数据索引等多种检索方式,并通过 AI Function 在数据库层直接调用模型能力。这种混合不仅是技术组合,更是范式转变:数据检索正从“精确匹配”走向“意图驱动的语义协同”。参赛者反馈显示,混合检索显著提升了大模型生成的准确性,尤其在缺乏上下文时。例如,有队伍通过用户问题重写显性化意图,再经重排序提升召回质量,从而显著优化最终输出。这表明:数据能力与模型能力的深度耦合,正在催生新一代 AI 原生应用架构。一位选手感慨:
‘混合检索加全文,就是特别的新颖……我们用到了就是大赛那个混合检索能力,然后同时我们会去参考一些工业上比较粗糙的那种方式……’
青年力量与开放生态:比赛中的协作与创新
比赛不仅是技术竞技场,更成为观察 AI 生态演进的窗口。参赛队伍构成多元:有高校同学自发组队,也有通过开源社区(如 MiniGO)跨校招募;远程协作、灵活迭代成为常态。在技术实现上,各队方案大相径庭,反映出当前 AI+数据库领域尚未形成“最优解”,方法论高度开放且实验性强。例如,有队伍通过优化索引层交集操作将性能提升十倍,再进一步优化全文扫描层,最终实现七千分以上成绩。这种“从粗糙实现到极致优化”的过程,恰恰体现了AI 时代工程能力的范式迁移:不再是单点突破,而是系统级协同调优。评委也指出,年轻人带来的新思路常令资深从业者“意想不到”,形成双向学习。正如一位从业者调侃:
‘AI 很多时候是年轻人的天下,AI 数据库也很多靠年轻人,不是我们这些老登的天下了,我们已经被拍在沙滩上。’
## 竞赛中的幻觉应对:从重写到重排序的工程实践
在本次 OceanBase 开发者大赛的决赛中,选手们面对的是一道典型的混合检索题——题目需求固定但内容为“盲盒”,即参赛者无法提前预知具体问题。面对 AI 模型不可避免的幻觉问题(即模型生成看似合理但事实错误或来源不明的回答),选手们采取了多层工程化手段进行缓解:首先在用户层对查询语句进行语义重写,例如替换同义词、缩写与全称映射;其次在混合检索结果输出后进行重排序,以增强语义相关性、抑制幻觉;最终还需结合文档层级与页号的双重定位机制,确保答案来源可追溯。一位选手坦言:“他能说的对,但是他来源不对,感觉这个其实在业界应该会是一个非常严重的隐患”,因为答案的可信度高度依赖其来源的确定性。这一系列操作并非追求模型“零幻觉”,而是在效率与准确性之间寻求平衡——路径不能过于复杂,否则将牺牲实时性与工程可行性。
‘他能说的对,但是他来源不对,感觉这个其实在业界应该会是一个非常严重的隐患,因为你要知道它是哪里来,然后你才能给出真的正确的答案,而不是他猜出来的一份答案。’
‘我们通过我们的创客去对文档进行排序,先选择了最可能出现答案的文档,然后再通过这个文档里的页号去定位最可能出现的页,就还是要做几层的确定性的位置的确定。’
## AI 编程的代际跃迁:从手艺人到‘新手艺’的融合
五年来,大赛选手的画像发生显著变化:本科生团队首次进入前十,且整体年龄结构更年轻;更重要的是,AI 编程工具(AI coding)已成为开发流程中的高频协作组件。一位 ACM 背景的选手坦言,起初对 AI 生成代码持怀疑态度,但目睹队友仅用 GPT+Cloud 环境快速完成复杂模块后,迅速转变观念并主动学习;他总结道:“只要把问题讲清楚,需求描述清楚,对他的 AI 就可以做的非常的好。”当前主流趋势是:AI 编程已深度嵌入开发链路——IDE 工具可直接读取上下文源码,大幅减少片段摘抄粘贴的低效操作;但同时,AI 输出仍需人工 Review:一方面规避 token 消耗与成本失控,另一方面识别模型生成中的潜在“坑”。有开发者指出:“你全靠 AI 写的话,你对这一块的代码会非常的不了解”,而深度参与代码审查的过程本身,正是理解系统逻辑的关键修炼。在团队内部,AI coding 使用率极高,尤其在实验性模块、中间件开发中效率显著;但在高可靠性场景(如数据库内核核心路径),仍需“人机协同”——人类负责关键判断与修复,AI 承担辅助编码与试错。
‘我觉得是一种新的手艺……把这个 AI 用好的手艺。’
‘你得去还是得与时俱进学习……这个 AI 它毕竟是现在才是抠拍了,对,它能够帮助你,对,怎么用好其实是需要你经过这个传统手艺的一个这个,可能是一个修炼,最后你才能用好这种新的手艺。’
## 持续学习(Continuous Learning):数据与模型的协同进化路径
面对 2026 年兴起的“持续学习”(Continuous Learning)热潮,团队更倾向于务实路径:与其期待模型在内部实现“自我进化”(如 Thinking Machine Lab 的探索),不如依托数据库与模型的工程化结合——即在模型外部构建数据驱动的反馈闭环。OceanBase 的核心逻辑在于:数据库本质是支持实时读写的持续进化系统,而模型本身尚缺乏稳定、可解释的自我更新机制;微调(如 LoRA)结果往往不可预测,需人工介入评估。因此,团队选择优先落地“基于数据的持续学习”:通过数据库存储用户反馈、行为日志、检索结果等结构化数据,驱动模型迭代优化。这种路径虽属前沿,但具备工程可行性与可衡量性。更深层看,持续学习的瓶颈不在算力或算法,而在数据质量与闭环构建能力——数据不再是“后台的沉默基石”,而是驱动 AI 系统进化的活性燃料。
‘它是在两个层面去做,第一个层面是直接模型去模型本身内化,模型本身内化去肯定就是 learning。第二个是模型跟这个数据库结合在一起来去做……数据库它本本质上就是一个能够实时读写的一个能够持续的进化的一个东西,对。’
混合搜索:数据与模型协同进化的工程路径
当前 AI 与数据库的融合已进入深水区,单纯依赖模型能力或数据能力都难以满足真实场景需求。混合搜索(Hybrid Search)正成为主流实践路径——它并非追求理论上的“一键突破”,而是通过持续迭代的上下文机制,将模型与数据动态绑定,形成可进化、可反馈的闭环系统。这一方式虽尚未完全成熟,但已被视为当前最务实且普适的方向:无论大企业还是中小企业,都需先构建可靠的数据底座,才能高效落地模型能力。对小企业而言,这意味着必须优先解决“数据管起来”的问题,并配套具备快速迭代能力的工具链。OceanBase、ClickHouse 等系统与模型能力的组合,本质上正是在响应这一趋势。我们所做的一切——包括 OB、CDB,乃至 Power Lake、Power Memory 等探索性工具——均采用 Apache 2.0 协议完全开源,因为我们相信:方向正确 + 生态共建 = 可持续推进技术落地的核心路径。
它一定是一个正确的方向,而且不管是对这种大企业还是小企业,其实都是非常有效的一个方式。
开源今天这时间似乎史无前例的跟真正意义上业界发展再绑在一起来做。
开源:从公益标签到产业引擎的范式跃迁
2025 年是中国 AI 开源生态的关键转折点。此前,开源常被视为“技术公益”或“研究先行”,与产业实践存在明显割裂;而自 2024 年起,以蚂蚁集团发布的《AI 开源趋势图谱》为代表,开源趋势与产业热点、GitHub 活跃度、研究前沿已高度对齐。这种转变背后,是中国企业工程能力优势的集中体现:我们未必是算法的首发者,但往往是工程落地的最优解。对数据库等基础软件而言,开源是走向全球市场的最高效路径——它不仅验证产品通用性,更通过生态反哺持续优化技术。OceanBase 的历程极具代表性:2010 年启动、十年内部孵化,2020 年公司化后立即启动开源,并提前完成多项“见公婆”准备:剥离内部依赖、重构劣质代码、完善文档体系。这一决策并非临时起意,而是创业之初就写入初心:“做世界级数据库”。开源不是终点,而是构建技术-生态-商业正循环的起点。
开源可能是结果,也可能是原因。
中国公司为什么我们在开源生态突然间这么强,就这么拥抱,而且看上去正确?
AI 浪潮下的新一代开发者:能力重构与安全挑战
对在读计算机学生与一线工程师而言,AI 正在重塑技术成长路径。一方面,AI 显著提升学习效率与技术触达速度,让新人能快速跨越知识壁垒;另一方面,它也带来前所未有的生存压力——若拒绝拥抱 AI,可能在迭代加速中被甩出赛道。尤其在安全领域,AI 带来了结构性变革:传统安全基于封闭、定式、结构化系统,而大模型的引入使攻击面指数级扩大——从模型幻觉、模态注入,到交易链路劫持(如 8 美元买汽车案例),“泛安全”已成为横跨模型、数据、业务的系统性挑战。当前学术界对大模型安全的研究虽高度活跃,但尚未收敛为清晰技术路径,仍处于快速演进期。与此同时,工程师角色也在泛化:一位银行后端工程师可能被迫转型为 Java/C++/React 全栈开发者,仅靠自然语言描述即可驱动多语言功能实现。这种变化倒逼开发者具备更强的需求抽象能力与技术整合意识。数据库人才画像亦随之演变:基础理论与编码功底仍是根基,但开放心态与跨领域好奇心正成为新核心竞争力。
如果你不去接受 AI,就是你可能就是会被在 AI 时代被淘汰。
你不是第一个做出来的,但是你是在工程上优化的更极致的一个这样的一个产品,最有效的方式就是面向全球市场去做开源。
代码能力仍是AI时代的核心竞争力
尽管AI生成代码的能力迅猛提升,多位开发者仍强调:亲手写代码是训练逻辑思维最有效的方式。一位参赛者指出,即使AI能快速产出代码,但若缺乏从零构建、调试、优化的完整过程,学生难以真正掌握问题拆解与系统性思考的能力。他以ACM竞赛为例,说明这类比赛的价值不仅在于“写出正确代码”,更在于在时间与正确性双重约束下锤炼工程直觉。这种能力无法被AI替代,反而在AI时代愈发珍贵。
“代码始终是人写的,就是你只要用心去看,迟早是能看懂的。”
另一位同学补充道,团队中真正擅长调用AI工具的骨干,往往正是那些早期代码功底扎实的开发者——他们能精准定义问题、判断AI输出的合理性,并在关键节点做出架构决策。这印证了一个趋势:AI不是编程能力的替代品,而是高阶能力的放大器。
PPT等‘手艺活’正在被重新定义
一位长期坚持手工排版PPT的同学坦言,当前多模态AI已能基于逻辑框架自动生成专业级可视化内容——只需输入思路,AI即可输出结构清晰、配色考究、图表精准的演示文档。“我这辈子都画不出来的图”,他感慨道。这种变化并非简单替代,而是将PPT从“视觉创作”拉回其本质:信息组织与逻辑呈现的工具。
他幽默地自嘲为“非遗手艺人”,指出AI的真正突破在于:它能理解内容逻辑,并据此生成匹配的可视化语言(如金字塔结构、流程图、对比矩阵),而非仅堆砌装饰性图像。这与代码生成的演进路径高度一致——从辅助执行转向辅助思考。当AI接管重复性排版后,人类创作者得以聚焦于内容深度与叙事节奏,反而提升了专业门槛。
2026:AI Agent落地的关键窗口期
受访者对2026年的核心期待是:推动AI Agent真正嵌入企业业务流程。他们认为,通用大模型的迭代是指数级加速的,但Agent的规模化落地却面临To B场景特有的复杂性——需打通私有数据、集成数据库权限、适配业务规则,这些无法靠算力堆叠解决。
“它就不可能是一个快的事情……但有了AI之后,to B的增长速度可能从20%变成30%、40%,而它能连续增长二十年。”
他们观察到,金融、医疗等高价值数据行业将率先爆发,因其数据资产与业务场景结合紧密,ROI明确。与此同时,OceanBase等数据基础设施公司需与模型层深度协同,沉淀出可复用的“数据+模型”解决方案,为Agent落地铺平道路。这场变革的节奏虽慢于C端创新,却更可能构建长期技术护城河。
前沿密码学:在加密数据上直接计算
当前最前沿的密码学研究正聚焦于全同态加密(Fully Homomorphic Encryption, FHE)这一方向——其核心目标是在加密后的数据上直接执行计算,并在最终解密后获得与明文运算完全一致的结果。这类技术突破了传统加密仅用于存储与传输保护的局限,为隐私计算、可信AI等场景提供了底层支撑。尽管相关理论与工程实现仍处于高度专业化阶段,甚至让从业者自嘲“都快听不懂了”,但它代表了数据安全与可用性之间寻求平衡的终极路径之一。正如一位研究者所言:‘全同态加密,就是在加密的数据上进行运算,然后解密得到正确结果。’
OceanBase 的全球化野心:从中国主流到世界知名
展望2026年,OceanBase 团队最明确的里程碑是推动其开源生态真正走向全球。尽管目前 OB 已在中国成为主流数据库产品之一,但与 MySQL、PostgreSQL 等全球性开源项目相比,仍有显著差距。值得玩味的是,数据库领域中真正具备全球影响力的,除 Oracle 外几乎均为开源项目;而 Oracle 已因战略重心转移,基本退出该赛道的竞争。因此,OB 的关键挑战不在于技术能力,而在于构建具备国际号召力的社区治理、开发者参与与生态协同机制。一位年轻工程师坦言:‘对于我来说,可能成为一个开源社区 committer,是今年想要做的事情。’
数据与AI:被低估的协同革命
AI 的爆发式进展,背后离不开数据基础设施的长期积累——数据库工程师的默默耕耘,实为本轮大模型能力跃升的关键前提。当人们聚焦于算法与算力时,往往忽略了:没有高效、可靠、可扩展的数据管理能力,模型训练、推理与迭代将无从谈起。数据库从“后台的沉默基石”,正逐步走向技术舞台中央,成为 AI 时代不可或缺的“协同引擎”。正如播客结尾所感:‘很多今天能够拿到这一轮 AI 模型能力的巨大提升,很核心的原因是因为这些做数据的人的努力,让这个事情走到了一个让全人类能够面对一个技术浪潮的状态。’