升级 AI 战略后的 OceanBase 迎来了首次开发者大会。5 月 17 日在 OceanBase 第三届开发者大会上,OceanBase 发布面向 AI 的应用产品 PowerRAG,该产品提供开箱即用的 RAG 应用开发能力,是 OceanBase 面向 AI 时代的探索之一。作为 AI 战略一号位、CTO 杨传辉表示,OceanBase 正致力于构建 Data × AI 能力,面向 AI 时代推动一体化数据库向一体化数据底座的战略演进。此前,CEO 杨冰曾通过全员信宣布公司全面进入 AI 时代。
蚂蚁集团 CTO 何征宇在大会现场表示,蚂蚁集团将支持 OceanBase 在金融、医疗、生活等蚂蚁 AI 的核心场景的突破,支持 OceanBase 去实践 DataxAI 的理念和架构创新。同时继续支持 OceanBase 开源开放,把在 Data × AI 上的能力逐渐开放给行业,为 AGI 的梦想添砖加瓦。
从一体化数据库向一体化数据底座演进
AI 时代带来了新的数据难题,已成为行业共识。IDC 报告指出,受生成式 AI 等技术驱动,预计 2028 年全球新生成数据量规模将达到 393.9ZB,其中企业数据规模和增速尤为凸显。于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模 " 突破 PB 级迈向 EB 级 " 成为新常态,这给数据存储、管理与分析带来严峻挑战。
蚂蚁集团 CTO 何征宇也在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有四大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。
面对行业的真实需求,OceanBase 正在大胆探索。杨传辉认为,作为一个一体化分布式数据库,OceanBase 已经具备了一定的 AI 时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、TP/AP 一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也是 OceanBase 提出的构建 Data × AI 能力的关键。
基于这一能力,OceanBase 致力于从一个一体化数据库向一个一体化数据底座演进,通过一套引擎同时支持 TP/AP/AI 混合负载,支持向量数据库,实现 SQL 与 AI 的混合检索,这背后涉及 OceanBase 在 Data 与 AI 领域的工程与产品能力。
PowerRAG 发布,提供开箱即用的 RAG 应用开发能力
在杨传辉描绘的一体化数据底座版图中,OceanBase 期望在未来实现从算力、基础设施,到平台层、应用层、交付形态的全方位布局。
此次大会上,OceanBase 首次发布面向 AI 的应用产品 PowerRAG,打造 AI 驱动的开箱即用的 RAG 服务。
杨传辉介绍,传统 RAG 应用常用开发模式包括组件森林开发模式、RAG 平台模式等,但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。
OceanBase PowerRAG 提供开箱即用的 RAG 应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供 Document(文档)和 Chat(对话)两个核心 API 接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种 AI 应用场景的快速开发。
" 致力于成为 AI 时代的一体化数据底座,PowerRAG 是 OceanBase 在应用层面探索的第一步,未来还将在应用层面、平台层面不断突破。" 杨传辉表示。
此外,过去十五年 OceanBase 诞生于双 11 的海量交易场景并在蚂蚁集团的金融场景中经受磨砺打磨技术,未来,蚂蚁集团也将继续向 OceanBase 开放核心 AI 场景,帮助 OceanBase 进一步攻坚 AI 关键能力,实现开放开源,为行业提供更多的 AI 创新服务。
向量性能已达开源向量数据库业内的领先水平
作为原生分布式数据库,OceanBase 原本就具有的企业级分布式数据库能力为 AI 时代的海量数据处理分析打下基础。在支持 AI 应用落地的核心基础设施——向量性能、混合检索等层面,OceanBase 也在持续探索,进一步加强 SQL+AI 能力。
大会现场,基于基准测试工具 VectorDBBench,采用 Performamce768D1M 测试数据集,OceanBase 与业内三款领先的开源向量数据库进行性能跑分测试。结果显示,OceanBase 的向量性能已经达到开源向量数据库业内的领先水平。
面对 AI 时代的海量数据,OceanBase 还引入 BQ 量化算法(HNSW+BQ),大幅降低向量场景的内存需求;引入针对 JSON 半结构化数据的压缩能力,降低 AI 场景中的半结构化数据存储成本。根据测试结果,在同等召回率与性能的情况下,引入 BQ 量化算法能够实现内存成本较引入前降低 95%,而在 TPC-H 10G 数据集上,OceanBase 的 JSON 压缩比可达 MongoDB 的 3 倍。
此外,OceanBase 已具备面向多种数据模型的混合检索能力。在最新版本中,OceanBase 混合检索性能进一步增强,通过丰富的执行策略、自研的向量算法库、内核级多模混合查询等实现更快、更准、更易用的混合检索。
目前,OceanBase 已被客户应用于多个 AI 相关场景的开发,如联通软研院基于 OceanBase 打造 AI 助手,in 银泰商业则基于 OceanBase 打造零售业智能问数平台等。
登录后才可以发布评论哦
打开小程序可以发布评论哦