猎云网 05-17
OceanBase首次详解Data×AI战略,关键词:一体化、Data×AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

升级 AI 战略后的 OceanBase 迎来了首次开发者大会。5 月 17 日在 OceanBase 第三届开发者大会上,OceanBase 发布面向 AI 的应用产品 PowerRAG,该产品提供开箱即用的 RAG 应用开发能力,是 OceanBase 面向 AI 时代的探索之一。作为 AI 战略一号位、CTO 杨传辉表示,OceanBase 正致力于构建 Data × AI 能力,面向 AI 时代推动一体化数据库向一体化数据底座的战略演进。此前,CEO 杨冰曾通过全员信宣布公司全面进入 AI 时代。

蚂蚁集团 CTO 何征宇在大会现场表示,蚂蚁集团将支持 OceanBase 在金融、医疗、生活等蚂蚁 AI 的核心场景的突破,支持 OceanBase 去实践 DataxAI 的理念和架构创新。同时继续支持 OceanBase 开源开放,把在 Data × AI 上的能力逐渐开放给行业,为 AGI 的梦想添砖加瓦。

从一体化数据库向一体化数据底座演进

AI 时代带来了新的数据难题,已成为行业共识。IDC 报告指出,受生成式 AI 等技术驱动,预计 2028 年全球新生成数据量规模将达到 393.9ZB,其中企业数据规模和增速尤为凸显。于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模 " 突破 PB 级迈向 EB 级 " 成为新常态,这给数据存储、管理与分析带来严峻挑战。

蚂蚁集团 CTO 何征宇也在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有四大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。

面对行业的真实需求,OceanBase 正在大胆探索。杨传辉认为,作为一个一体化分布式数据库,OceanBase 已经具备了一定的 AI 时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、TP/AP 一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也是 OceanBase 提出的构建 Data × AI 能力的关键。

基于这一能力,OceanBase 致力于从一个一体化数据库向一个一体化数据底座演进,通过一套引擎同时支持 TP/AP/AI 混合负载,支持向量数据库,实现 SQL 与 AI 的混合检索,这背后涉及 OceanBase 在 Data 与 AI 领域的工程与产品能力。

PowerRAG 发布,提供开箱即用的 RAG 应用开发能力

在杨传辉描绘的一体化数据底座版图中,OceanBase 期望在未来实现从算力、基础设施,到平台层、应用层、交付形态的全方位布局。

此次大会上,OceanBase 首次发布面向 AI 的应用产品 PowerRAG,打造 AI 驱动的开箱即用的 RAG 服务。

杨传辉介绍,传统 RAG 应用常用开发模式包括组件森林开发模式、RAG 平台模式等,但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。

OceanBase PowerRAG 提供开箱即用的 RAG 应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供 Document(文档)和 Chat(对话)两个核心 API 接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种 AI 应用场景的快速开发。

" 致力于成为 AI 时代的一体化数据底座,PowerRAG 是 OceanBase 在应用层面探索的第一步,未来还将在应用层面、平台层面不断突破。" 杨传辉表示。

此外,过去十五年 OceanBase 诞生于双 11 的海量交易场景并在蚂蚁集团的金融场景中经受磨砺打磨技术,未来,蚂蚁集团也将继续向 OceanBase 开放核心 AI 场景,帮助 OceanBase 进一步攻坚 AI 关键能力,实现开放开源,为行业提供更多的 AI 创新服务。

向量性能已达开源向量数据库业内的领先水平

作为原生分布式数据库,OceanBase 原本就具有的企业级分布式数据库能力为 AI 时代的海量数据处理分析打下基础。在支持 AI 应用落地的核心基础设施——向量性能、混合检索等层面,OceanBase 也在持续探索,进一步加强 SQL+AI 能力。

大会现场,基于基准测试工具 VectorDBBench,采用 Performamce768D1M 测试数据集,OceanBase 与业内三款领先的开源向量数据库进行性能跑分测试。结果显示,OceanBase 的向量性能已经达到开源向量数据库业内的领先水平。

面对 AI 时代的海量数据,OceanBase 还引入 BQ 量化算法(HNSW+BQ),大幅降低向量场景的内存需求;引入针对 JSON 半结构化数据的压缩能力,降低 AI 场景中的半结构化数据存储成本。根据测试结果,在同等召回率与性能的情况下,引入 BQ 量化算法能够实现内存成本较引入前降低 95%,而在 TPC-H 10G 数据集上,OceanBase 的 JSON 压缩比可达 MongoDB 的 3 倍。

此外,OceanBase 已具备面向多种数据模型的混合检索能力。在最新版本中,OceanBase 混合检索性能进一步增强,通过丰富的执行策略、自研的向量算法库、内核级多模混合查询等实现更快、更准、更易用的混合检索。

目前,OceanBase 已被客户应用于多个 AI 相关场景的开发,如联通软研院基于 OceanBase 打造 AI 助手,in 银泰商业则基于 OceanBase 打造零售业智能问数平台等。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai oceanbase ai时代 数据库 蚂蚁集团
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论