钛媒体 11-20
工程化的长期主义:OceanBase十五年沉淀,如何成为AI时代的数据基石?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在人工智能技术迅猛发展的今天,数据库的角色正在经历深刻变革。

曾经作为 " 数据仓库 " 被动存储信息的数据库,如今正加速演变为驱动业务决策的 " 智能中枢 "。这一转变不仅带来了技术层面的革新,更对数据库系统的底层架构和综合能力提出了全新要求。但技术热点的层出不穷往往容易让人眼花缭乱,真正能够穿越技术周期、支撑企业核心业务稳定运行的,是扎实的工程化能力

这恰恰成为检验数据库厂商实力的试金石,也是决定企业 AI 战略能否成功落地的关键所在。"OceanBase 对于技术工程化的追求,是他们(客户)选我们的重要原因。" 在日前举行的 2025 OceanBase 年度发布会上,CEO 杨冰如此总结过去十五年赢得客户信赖的原因。数据显示,OceanBase 当前客户数突破 4000 家,连续 5 年客户数年均增长超 100%

延续工程化的理念,今年,针对 AI 应用需求的爆发,OceanBase 重磅推出了首个 AI 原生混合搜索数据库 seekdb,想要推动数据库从传统 " 业务支撑系统 " 迈向 "AI 原生数据入口 "。这是这家经历十五年长跑的国产数据库,自启动 "Data × AI" 战略以来,几经打磨交出的一份新答卷。

十五年技术长跑,淬炼工程化基因

OceanBase 的十五年,是一部由真实业务压力驱动的技术进化史,并塑造了其独特的工程化基因。

从支撑支付宝 " 双 11" 单日 6100 万次 / 秒的数据库处理峰值,到服务全球 4000 余家企业,OceanBase 的每一步都踩在业务需求上,每一次架构跃迁都源于对具体场景难题的攻坚。而业务场景的特殊性,也给 OceanBase 提出了极高要求,"只有一次机会,一次就要做对。那就意味着从代码设计、代码规范、测试上线等一系列的环节都不能有大的失误。"OceanBase CTO 杨传辉表示。

除了场景,据 OceanBase 内部人士介绍,这种独特的技术文化深深植根于创始人阳振坤的技术理念,并在团队中代代相传。阳振坤博士从项目立项之初,就为 OceanBase 定下了 "做世界级的数据库" 这一高远目标,并将 " 追求极致细节 " 的工匠精神融入团队血脉,这深刻影响了 OceanBase 对待技术和产品的态度。

不追求表面炫技,而是专注于解决实际问题,OceanBase 内部盛行 " 用 benchmark 说话 " 的风气,任何技术方案的优劣都通过严谨的测试和实际数据来验证。"如果你做的东西没有办法专注到细节,就讲一些泛泛的东西,在 OceanBase 的技术团队里面是得不到尊重的,大家会觉得你不太懂。" 杨传辉坦言。

对工程化近乎偏执的坚守,让 OceanBase 这十五年的技术演进,经历了几个关键的技术里程碑,它们逐步构建起今日的一体化架构能力。

首先是原生分布式架构的奠基。OceanBase 从一开始就选择了两条关键的技术路径:基于 LSM-Tree 的存储引擎和基于 Multi-Paxos 的数据一致性协议。LSM-Tree 存储引擎为海量数据的高效写入与存储提供了底层支撑,而 Multi-Paxos 协议则在分布式环境下保障了数据的强一致性。这两项核心技术的选择,展现了团队对分布式数据库本质的深刻理解,为后续所有能力的构建奠定了基础。

其次是单机分布式一体化架构的突破(V4.0 版本)。传统认知中,分布式数据库往往意味着复杂的部署和一定的性能损耗,而单机数据库则难以扩展。OceanBase 4.0 版本打破了这一固有认知,首创单机分布式一体化架构,使得数据库在单机环境下也能具备分布式能力,同时在分布式场景下保持极致性能。这一创新极大地降低了用户的使用门槛,让企业可以根据自身业务发展阶段平滑演进,无需在架构选择上过早下注。

再次是这次新推出的TP/AP/AI 融合的一体化内核(V4.4 版本)。面对 AI 时代的多模数据和混合负载需求,OceanBase 4.4 版本首次将 TP(事务处理)、AP(分析处理)与 AI 能力集成于单一内核。这意味着,企业可以在一个数据库中同时处理高并发交易、复杂数据分析以及 AI 驱动的混合搜索,无需维护多套系统。这种深度融合,是对数据库架构的一次重大重构,充分体现了 OceanBase 在工程化方面的深厚积累。

通过这三个关键技术节点的突破,OceanBase 以工程化能力为驱动,不断重新定义分布式数据库的技术边界,为 AI 时代的数据底座构建了坚实的技术基础。

工程化内核:正确性、稳定性与架构创新

数据的正确性是数据库的生命线,尤其在金融交易、政务管理等关键场景,一个字节的错误都可能引发灾难性后果。OceanBase 将 " 正确性第一 " 奉为工程化实践的核心准则,为此构建了一套从代码到硬件的全链路掌控体系。

在软件层面,OceanBase 坚持根自研路线,从零开始编写代码,对每一行指令都保持极致掌控。其 300 万行核心代码中,超过 50% 用于构建自检机制,从数据在内存中的流转、主备节点间的同步,到落盘存储的校验,形成了一张密不透风的 " 防护网 "。

硬件层面,OceanBase 选择绕过操作系统的部分抽象层,直接操控 CPU、内存与磁盘资源。通过自研内存管理机制优化数据缓存策略,基于磁盘 I/O 特性设计存储布局,甚至对网络传输协议进行深度定制,实现了对硬件资源的精细化利用

" 我们内部流行一句话,不相信硬件,也不相信任何的软件,我们只相信我们自己。" 在现场,杨冰如此总结工程化精神。这种对工程化的偏执虽然大幅提升了开发复杂度,却为系统稳定性和性能优化奠定了底层基础。

传统数据库架构在 AI 时代面临严峻挑战:事务处理(TP)、分析处理(AP)与 AI 推理负载分散在不同系统,导致数据孤岛、链路冗长和资源浪费。OceanBase 以一体化架构打破这一困局,其核心在于实现多模数据融合、多工作负载融合与数模融合等 " 三大融合 ",形成真正意义上的一体化数据基座

在混合搜索场景中,传统架构需调用向量数据库、全文搜索引擎和关系型数据库才能完成一次复杂查询,而 OceanBase 通过 " 粗排 + 精排 " 多阶段检索机制,可在毫秒级内完成向量语义匹配、关键词精确查找与标量条件过滤的融合计算。

" 如果不是工程化文化,我们会走另外一条路线,出 5 个产品,分布式 TP、单机 TP、分布式 AP、单机 AP 等都分别出一个,但我们最终只做了一个。这些工程化的挑战被我们‘吃掉’以后,对用户就意味着拿到一个非常简单、高效、统一的方案——这是 AI 时代的要求,也是现代化数据架构的根本要求。" 杨传辉表示。

体现在金融反欺诈场景中,OceanBase 能实时响应规定时间段内复杂筛选条件的复合查询,无需跨系统拼接结果。这种原生一体化设计,较传统多系统架构性能成倍提升,同时显著降低运维成本。此外,4.4 版本引入的共享存储架构,更是将存算分离推向新高度,计算节点可弹性扩缩、存储成本较传统方案降低 50%-90%,这都为 AI 时代的海量数据存储提供了经济高效的解决方案。

这种架构创新从数据库内核层面深度重构,解决了 AI 时代打通多云底座的核心能力,也彰显了 OceanBase 以工程化思维解决复杂问题的能力。

AI 时代以工程化重构数据库能力

面对 AI 时代多模态数据检索与实时推理的需求,OceanBase 推出首款 AI 原生混合搜索数据库 seekdb,以 " 轻量、敏捷、开源 " 为核心定位,重新定义 AI 数据基座的工程化标准。其核心突破在于首创 " 向量 + 全文 + 标量 +GIS" 四维混合搜索能力,通过 " 粗排 + 精排 " 多阶段检索机制,在百亿级数据规模下实现毫秒级响应。

据悉,seekdb 并非简单集成向量搜索插件,而是以工程化思维重构 AI 数据基座。它继承 OceanBase 分布式内核的基因,并将部署门槛进一步降低,最低起步配置仅需 1 核 CPU、2GB 内存,支持 pip install 一键安装、秒级启动,兼容嵌入式与客户端 / 服务器双部署模式,让开发者无需关注底层架构即可快速构建知识库、智能体等应用。

同日,seekdb 也宣布以 Apache 2.0 协议全球开源,无缝对接 LangChain、LlamaIndex、Dify 等 30 余种主流 AI 框架。同步开源 PowerRAG 智能文档解析框架与 PowerMem 分层记忆架构,后者在 LOCOMO Benchmark 测评中以 78.70 分刷新 SOTA 纪录,Token 消耗降低 96%。

OceanBase 的混合搜索能力已在联通统一 AI 知识库、蚂蚁百宝箱智能体等场景充分验证了技术价值。中国联通基于混合搜索构建统一 AI 知识库,有效解决了私有文档的权限管理与高效检索难题;蚂蚁百宝箱则基于混合搜索实现智能体的实时在线搜索,显著提升了信息获取的精准性与响应效率。

在这之外,数模融合是 OceanBase 原生 AI 架构的另一核心突破。数据库内置 AI Function 能力,支持在 SQL 中直接调用 Embedding 模型生成向量,或通过 Rerank 优化检索结果,形成 " 数据写入 - 向量化 - 检索 - 推理 " 的闭环。配套的 MaaS 平台可管理主流大语言模型与国产 GPU 算力,实现模型微调、量化压缩、推理加速的全生命周期管理。这种设计使 AI 能力与数据库内核形成有机整体。

OceanBase 的实践印证,唯有通过工程化重构实现的原生 AI 能力,才能真正突破 " 数据孤岛 " 与 " 性能瓶颈 ",支撑企业在 AI 时代的可持续创新。" 这不仅是技术产品,更是开发范式的跃迁。" 杨冰表示,"传统数据库只‘存’数据,而 seekdb 能‘理解’数据语义,混合搜索正是 AI 原生数据库的关键分水岭。"

OceanBase 的工程化能力已在全球市场获得广泛认可,截至目前,其服务的企业客户数量已突破 4000 家,覆盖金融、政企、能源、通信、零售、制造、互联网等关键领域,服务网络遍及全球 16 个国家和地区、60 多个地域、240 多个可用区。

竞争激烈的金融领域,OceanBase 凭借金融级的稳定性和可靠性,市场份额位居第一,成为众多金融机构核心业务系统的首选数据库。平安寿险将其 7000 人规模的财务系统迁移至 OceanBase 平台,实现了业务的稳定运行和高效管理,充分验证了 OceanBase 在支撑大型企业关键业务场景下的工程化实力。

除金融领域外,OceanBase 在政务和通信行业也取得了显著进展。全国三分之一的省级人社系统都采用 OceanBase 构建数据底座,有效提升了社保服务的效率和稳定性。通信巨头中国联通基于 OceanBase 混合搜索能力构建统一 AI 知识库,成功解决了私有文档的权限管理与高效检索难题,进一步拓展了 OceanBase 的应用边界。

OceanBase 也正积极推进全球化战略,重点布局东南亚、拉美和中东等新兴市场,目标将海外营收占比提升至 20%。这一进程中,工程化能力成为克服本地化挑战的关键。在老挝,老中银行采用 OceanBase 构建核心业务系统,性能提升 20 倍、批量处理缩至 30 分钟,成本仅为同类方案 20%,实现中国自研数据库海外银行核心系统的首单落地。这些来自不同行业的实践案例,充分证明了 OceanBase 工程化能力在解决实际业务问题上的有效性,也为更多企业的数字化转型提供了可参考的技术路径。

据 Gartner 预测,到 2028 年,支持生成式 AI 的数据库支出将达 2180 亿美元,占市场 74%。市场潜力巨大,世界数据库行业也将因为 AI 时代的到来迎接一个新拐点。如杨冰所说,这个拐点不仅仅是工具的升级,更是计算范式以及数据能力的重塑," 把 AI 能力融进数据库,变成内生动力,打造一个 AI Native 数据库,这条路会使得我们离世界级数据库的梦想更近。"  (文|ToB 深水区,作者|秦聪慧)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

oceanbase 数据库 ai 基因 核心业务
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论