智东西 4小时前
从0到1重构AI原生数据库,不再让AI应用开发困于数据
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 程茜

编辑 | 漠影

智东西 11 月 20 日报道,11 月 18 日,国产数据库玩家 OceanBase 发布并开源其首款 AI 数据库 OceanBase seekdb,全方位拉低 AI 开发门槛。

这正是其面对当下 AI 应用难题掏出的数据库最新解法:支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合 AI 推理与数据处理,兼容 Dify、Coze、LangChain、LlamaIndex 等 30 余种主流 AI 框架。最终实现开发者仅需三行代码,即可快速构建知识库、智能体等 AI 应用,应对百亿级数据检索。

数据库是 AI 应用开发的核心底层支撑,直接决定应用的性能、效率与落地能力。正如 OceanBase CEO 杨冰所说,AI 这一产业发展的确定性拐点背后,不仅带来了工具的升级,更是计算范式以及数据能力的重塑。

但当下,企业数据存储与处理正遭遇前所未有的复合型挑战:数据规模呈指数级激增,多模态数据形态日益复杂且与 AI 模型链接持续加深,这使得传统数据库在高并发检索、跨模态处理、AI 框架适配等方面的局限性愈发凸显。AI 原生数据库几乎已经成为行业刚需。

OceanBase 自成立之初就设定了核心目标——打造世界级数据库,而在当下这个节点实现这一目标需要解决的问题就是:生成式 AI 时代的数据库应该怎么做?如今,seekdb 的发布就是其交出的又一份高分答卷,其不是在传统数据库上集成 AI 能力,而是以 AI 场景为核心,从 0 开始重构一套 AI 原生混合搜索数据库。

而这份行业刚需的背后,是 OceanBase 多年的技术积淀,自 2010 年成立以来,它从深耕分布式数据库技术到 2020 年开启商业化征程,目前客户数已突破 4000 家,连续 5 年客户数量年均增速超过 100%,技术已深入金融、政务、通信、零售、制造、互联网等十余领域,服务覆盖 16 个国家和地区、60 多个地域、240 多个可用区。

以 seekdb 为切入点,我们试图回溯 OceanBase 十五年来的技术深耕轨迹,尤其在今年全面迈向 AI 时代的节点上,探究其正为整个数据库行业勾勒出怎样的全新叙事。

一、发布 AI 原生混合搜索数据库,开发者构建 AI 应用门槛再降

用一句话总结 AI 原生混合搜索数据库 seekdb 的目标,就是让每个开发者都能低门槛、快速构建和验证 AI 应用。

想要做到这一点,就需要直击开发者的核心痛点:效能、部署门槛、兼容性。

拆解来看,首先 seekdb 是 AI 原生混合搜索,支持通过原生 SQL 及 Python SDK,同步完成结构化过滤、关键词匹配与向量语义计算。其内置 AI Function 功能,允许开发者直接在数据库内调用大模型或向量处理函数,实现存储、索引、检索、推理一站式闭环。

这聚焦的是大规模多模数据的检索效率瓶颈,基于这一能力,开发者即便面对百亿级数据量,也能通过优化的混合搜索与并行处理能力,避免因数据规模增长而导致应用卡顿。

其次是部署门槛,seekdb 最低起步配置仅需 1 核 CPU、2GB 内存,支持 pip install 一键安装、秒级启动,兼容嵌入式与客户端 / 服务器双部署模式,可集成至 Agent、开发工具链或本地应用。

一般而言,开发者需要进行复杂的环境配置或底层调优,且在传统数据库层面还要进行搭建到适配的全流程操作,使得从开发到验证的周期较长。

最后是兼容性,OceanBase 将 seekdb 全面开源,无缝生态对接。其以 Apache 2.0 协议开源,开发者可自由使用、修改和扩展,同时提供 Python、SDK 及 MySQL 协议接口,完全兼容 Dify、LangChain 等 30 余种主流 AI 框架。同步开源的还包括 PowerRAG 智能文档解析框架与 PowerMem 分层记忆架构,后者在权威 LOCOMO 评测中以 78.79 分达到 SOTA 水准,Token 消耗较传统方案降低 96%。

此前,由于不同 AI 框架的接口规范、数据格式差异显著,再加上 AI 应用开发涉及数据预处理、向量生成、模型调用、检索交互等多环节,且各环节需适配不同工具,开发者往往需要重构现有代码进行集成,跨框架协作的适配成本较高。

归根结底,seekdb 的核心在于 AI 原生与混合搜索的深度融合:一方面,它以数据库在 AI 时代面临的核心挑战,如多模数据处理、低延迟检索、框架适配等为突破点,构建底层技术架构;另一方面,通过将 AI 能力与向量、全文、标量等多类型数据统一检索的混合搜索深度耦合,为 AI 应用开发提供从数据存储到智能交互的全链路支撑。

杨传辉认为,向量搜索只是 AI 数据库的初级阶段,最终所有的向量搜索都会逐步演进为混合搜索,能不能支持混合搜索是 AI 数据库核心能力的分水岭。

除此以外,杨冰还官宣了明年 2 月 2 日将正式发布 OceanBase 4.4 一体化融合商用 LTS 版本,其首次将 TP、AP 与 AI 能力集成于单一内核。

二、全面进军 AI 时代,破解 AI 数据库核心命题

回过头来看,数据贯穿大模型训练、场景适配与技术迭代的全流程,直接影响模型性能突破,其核心命题早已不止于存储数据,更在于如何深度挖掘数据价值,让数据实现更自然的存储与流转。

AI 原生混合搜索数据库正是在这一需求下应运而生。传统数据库仅能满足基础存储需求,已远远跟不上当下 AI 的发展节奏,而生成式 AI 加成下的数据库,能够精准理解数据语义,让数据实现灵活调用与高效复用,更契合大模型的发展需求。

但 AI 对数据库的重构并不是一蹴而就的。在这样的背景下,OceanBase 在今年 4 月底就宣布全面进入 AI 时代,基于 "Data x AI" 核心能力,加速打造 AI 时代数据底座。我们可以从其最新的动向出发,抽离出这家国产数据库主力玩家在当下的 AI 战略布局,同时探讨生成式 AI 浪潮下,数据库行业面临的核心挑战。

进入 AI 时代,OceanBase 一直在解答一个问题:生成式 AI 时代的数据库应该怎么做?其核心就是一体化数据库。

其原因在于三大当下的行业趋势,一是 AI 在实际应用中需要接收大量文本、数据、图片、音频等数据的混合输入,还要基于单个客户对话进行长期记忆;二是企业知识库中存在结构化、半结构化、非结构化数据,需要更好进行存储,并结合 RAG 和大模型能力精准定位、回答问题;三是多 Agent 协同的应用发展加速,其会存储简单多模态数据还会在不同 Agent 之间协同工作。

在这样的行业趋势下,杨冰认为,未来 AI 数据库应该具备多模数据存储、组装式实时查询引擎、实时多层存储,以及混合事务分析引擎,而这与其一体化的理念不谋而合。

因此相对应的,OceanBase 就确定了三大工程化路径:多模态数据融合、多工作负载融合、数模融合。

存储层面核心是实现多模态数据融合,将各类数据纳入同一引擎管理,向上提供多维度数据视图,满足不同场景访问需求;向下依托一套具备高扩展性、高稳定性且低成本的底层引擎。

其次将 TP、AP 与搜索、AI 相关负载深度融合,实现精准高效的混合检索,适配更复杂的业务场景。

最后数据灌入数据库时,需完成高效向量化处理,检索阶段则依赖模型而非传统规则,进而实现结果的精准排序。同时要保障模型调用的精准性,并推动数据库与大模型推理过程深度整合,这一深度整合的过程,正催生全新的技术范式。OceanBase CTO 杨传辉提到,数据和模型融合,一定是未来的最大趋势,在数据库内直接去集成模型能力,能够大幅度降低模型开发和使用的复杂度。

因此,这三大方向相结合的重点,就是 OceanBase 持续打造的一体化 AI 原生数据库。

这正是 OceanBase 在当下,面向生成式 AI 时代对数据库的最新思考,也是其在数据化转型之路上开启新篇章的里程碑。

三、OceanBase 深耕 15 年,发力技术积累、商业化落地

最后将视角落回 OceanBase 本身,一个核心问题仍待解答:它究竟凭借何种核心能力,支撑起 AI 时代一体化数据库的建设与落地?

答案可从三大关键维度拆解:核心理念的战略指引、技术创新的深厚积累、商业化落地的实践验证。

2010 年 OceanBase 诞生之日,其就将 " 打造世界级数据库 " 作为技术理想。这一目标已经内化到其技术迭代、场景落地的全流程中。而这份历经 15 年沉淀的布局,也为其在生成式 AI 时代高效落地 AI 原生数据库,奠定了坚实基础。

技术积累层面,OceanBase 自诞生起便扎根世界级场景淬炼技术,全程支撑支付宝核心交易体系。目前它已全面承载支付宝所有核心账务与核心支付系统,连续十余年稳定扛住双 11 流量洪峰。

正是在这样的严苛考验中,OceanBase 的数据库技术不断迭代升级,最终在核心技术领域斩获多项行业第一。

例如,其是全球唯一刷新过 TPC-C 和 TPC-H 测试世界纪录的分布式数据库、OceanBase 4.0 是业内首个单机分布式一体化数据库、打造了业内首个基于对象存储面向 OLTP 的多云原生数据库等,同时 OceanBase 向量数据库能力跻身 DB-Engines 全球前十,2025 年 16 篇论文被 ICDE、VLDB、SIGMOD 等数据库顶会收录。

2020 年,OceanBase 迈入发展关键节点,正式开启了商业化。这不仅是其业务版图的重要拓展,更是检验自身技术落地能力的试金石。

依托专有云和公有云双轮驱动的战略,目前,OceanBase 全球客户数已突破 4000 家,专有云客户数增长 50%,涵盖金融、政企等核心企业;公有云客户数年均增长 115%,营收占比已达 30%,已稳定运行于阿里云、华为云、腾讯云、百度智能云、AWS、Azure、GCP 七大主流云基础设施,在零售、金融科技、消费电子和泛互联网行业规模化落地。

历经技术沉淀与商业化落地,OceanBase 已迈入全新发展节点,正式向全球化布局与 AI 深度融合两大方向全面进阶。

杨冰提到,AI 技术的爆发式发展为数据库行业带来全新需求,而中国在 AI 应用落地、数据基础设施建设上的快速推进,叠加海量数据的规模优势,正为国内数据库厂商创造更大发展机遇。

15 年深耕,OceanBase 从原生分布式数据库到一体化架构颠覆,再到 TP、AP 与 AI 深度融合塑造 DataxAI 能力,这正是其全面进入 AI 时代,洞察开发者核心痛点并交出高分答卷的关键。

结语:AI 时代,中国自研力量发力

AI 时代,数据库承载的能力正经历颠覆性变革。OceanBase 正一步一个脚印,将这些变化转化为技术突破与产品实力,成为 AI 时代数据处理的坚实底座。

当下从大模型、AI 应用到底层的算力、数据库等,中国自研技术的行业影响力与日俱增,从可用、好用到甚至赶超海外领先水平,OceanBase 正是国产数据库厂商中的典型代表。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 数据库 oceanbase ai时代
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论