爱分析 04-08
中台已死,语义层将重塑数据架构
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

语义层正成为 AI-Ready 数据平台的核心技术架构,并被全球数据巨头 Palantir、Databricks 所关注和布局。

2025 年 Palantir 市值不断攀升,Ontology 本体技术备受瞩目,而 Ontology 技术主要是用于解决语义层问题。

2025 年 9 月,全球数据平台巨头 Snowflake 联合 Salesforce、dbt Labs、BlackRock 等发起 Open Semantic Interchange(OSI)规范,后面另一家数据平台巨头 Databricks 也加入。2026 年初几家数据平台巨头开源了 OSI 规范,旨在为 Agent 应用落地打造一套中立开源的语义层标准。

语义层的价值是让 AI 真正理解数据,并将决策转化成行动,这是 Agent 应用从 Demo 走向生产级落地的关键,是面向 AI 应用的数据基础设施的必备条件。

成立于 2021 年的数据基础设施厂商 Aloudata,专注于以 NoETL 语义编织架构变革传统数据架构,核心产品包括逻辑数据编织平台 Aloudata AIR、主动元数据平台 Aloudata BIG、自动化指标平台 Aloudata CAN、分析决策智能体 Aloudata Agent。

基于数据编织和语义编织,Aloudata 可以帮助企业用户构建面向 Agent 应用的语义层,构建 AI 可理解、可操作的数据底座。

Aloudata 创始人兼 CEO 周卫林拥有 20 余年大数据领域经验,曾任蚂蚁集团数据平台部总经理。近期,爱分析对周卫林进行访谈,探讨语义层市场机会、Agent 对数据基础设施的影响、AI 数据厂商核心壁垒等话题。

核心观点

语义层将成为企业决策中枢。

语义本质是业务口径定义,核心组件包括数据虚拟化引擎和语义引擎,最终需涵盖决策到行动全链路,支持 Action API,形成闭环。

语义层与数据中台是不同理念的技术架构。

数据平台操作将从以人为主转向以 AI 为主,大部分是由 AI 完成数据平台相关操作,面向人的 BI 看板等功能需求将大幅减少。

数据基础设施的商业模式将迎来变革。

中国市场以私有云为主导,不太可能完全按照 Token 定价,应该会以 " 软件 + 订阅 + 调用量 " 组合为主要商业模式。

数据厂商核心竞争力在于管数据。

数据厂商的关键价值是将企业隐性信息低成本显性化为 AI 可用知识,而不是开发数据平台的功能或者维护整个数据平台系统。

以下为本次访谈实录,在不改变原意基础上略有修改。

01

OSI 标准是个信号,语义层价值初现

爱分析:关于 OSI 标准,我看您之前认为它是一个重要的历史性时间节点。对比 OSI 和 SQL,您觉得 OSI 会对整个数据基础设施产生哪些影响?

周卫林:SQL 诞生背景大家应该都理解。当时七十年代集成电路快速发展,计算机开始进入企业,全球化带来刚性的信息化需求,数据处理离不开数据库。IBM 的研究员提出了关系模型,并在此基础上设计了 SQL。

早期各家厂商各自实现,语法互不兼容,用户移植成本极高,加上政府采购也要求有标准可依,才推动了 1986 年 ANSI、1987 年 ISO 先后发布 SQL 标准。它解决的是科技跃迁期应用爆发、交互成本高、技术落地难的问题。

现在 OSI 则是 AI 大模型尤其是 Agent 起来后的现象。如果每家企业都定义不同的语义,上层 BI、Agent 应用和数据库之间适配就会很麻烦。所以大家开始思考怎么标准化。SQL 解决的是数据可访问和访问效率的问题,OSI 则是在 SQL 之上解决数据可理解和可行动的问题。

以前数据操作是数据分析师和程序员的事,现在 AI Agent 需要理解业务语义才能行动,语义必须标准化。OSI 没有颠覆 SQL,而是在其基础上延续。

但难度不一样,SQL 有完备的关系代数做理论支撑,语法细致、成熟;OSI 目前只是一个很粗的语法文件,没有类似数学证明,只定义了信息结构,没定义完整语法表达,还处于很早期的阶段。

未来 OSI 有没有可能像 SQL 一样,把语法规范化,同时保留厂商扩展性。如果能走到那一步,才算真正产业落地。现在它还只是个信号,表明大家看到了 AI 技术跃迁带来的新需求,但距离 SQL 那样的成熟标准还有差距。

爱分析:所以 OSI 更多是一个方向信号,还不是完整的指引,目前只是起步阶段?

周卫林:对,它还没到提一个标准,大家适配就行、各自实现差异化的阶段。如果真走到那一步,今天聊的很多话题都会不一样。但能不能走过去,现在还不好说。SQL 语法明确、规则严谨、完备性强,OSI 能不能达到那个成熟度,厂商愿不愿意在语法层面真正开放,到时候再看。

02

数据中台将被淘汰,语义层会重塑数据架构

爱分析:您之前提到从 " 数仓 +BI" 的传统架构变成了 " 数据湖 + 语义 + 消费 " 三层架构,语义层原先要么放在数仓里,要么在 BI 中,现在语义单独作为一层,这一层未来会包含哪些核心组件和功能?它的形态又会是什么样子?

周卫林:你刚才提到的,原来的语义到底在哪里,其实我一直把它理解为一个连续的加工链。语义的本质就是业务口径的含义,这个口径本来就是一个连续段。比如在数仓明细层定义有效订单,到了 BI 里又定义高价值客户的订单量,它其实是连续口径的叠加和计算。所以很难严格说语义到底全在数仓,还是全在 BI。

我们理解,数仓里为了数据清洗所做的那些工作,如脏数据剥离、错数据修正、缺失数据补齐等,这部分还是保留在数仓的清洗层。清洗之后,面向业务场景的指标定义、口径定义以及后续的叠加计算,这些都属于语义层应该管的内容。

因此,严格来说,语义层大概率不会去做数据清洗,但会负责转换这一层。

如果这么看,语义层应该包含几个核心东西:

第一,因为企业环境多样,语义层必须有数据连接能力,能连到不同的数据源和数据集,而且一定是虚拟化连接,不能把所有东西都塞到一个统一的技术栈里。

第二,由于企业内部计算资源很难收敛,语义引擎里必须有一个数据虚拟化模块,来复用已有的存储和计算资源。所以数据虚拟化引擎是绕不开的。

第三,就是基于数据去定义口径和架构逻辑的语义化过程。

所以整体来看,语义层有两个大的引擎:一个是数据虚拟化引擎,一个是数据语义引擎。语义引擎要负责语义的定义、执行和服务,还要对外暴露语义 API 和 CLI 接口,方便 AI 友好调用。同时还要做版本管理、权限管理、路由管理等。

从未来形态来看,其实加工过程和应用过程很难完全割裂。数据分析产生决策,决策又产生行动,这中间有很多连续的判断。行动那一步可能在业务系统执行,但之前的决策过程往往都属于数据分析。

因此,语义层未来一定会延伸到行动决策环节,会把支持行动所需的信息面都纳入进来,包括业务系统的 Action API。只有这样才能形成闭环,否则上层应用就不知道去哪里拿统一的业务知识。

所以我认为,语义层最终会成为支持从决策到行动的平台,成为企业真正的决策中枢。

爱分析:那有了语义层之后,企业原来建设的数据资产平台是不是就不需要了?语义层是不是更像数据虚拟化,主要是一个逻辑层,底层存储还是要放在数据湖或多模态数据平台上?

周卫林:肯定需要底层存储和数据平台的。语义层更多是定义态的东西,真正要存储和执行,还是要依赖数据库、图计算、流计算等企业已有的计算资源。

爱分析:从企业用户构建能力角度,语义层是要单独去找供应商解决吗?

周卫林:我觉得企业不会有太强的先入为主观念,更多是看谁能真正把这件事做成。无论是数据中台厂商做,还是我们做,都无所谓。关键是每一波新技术出来,总会有新的玩家进入,传统厂商可能因为有历史包袱,跟不上或者出现理念冲突。

我们没有历史负担,可以用差异化的方式去实践,所以在跟数据中台厂商之间形成了区隔。我们站在数据中台之上,相当于做了一次理念上的升级,在专注力和先发认知上拥有一定优势。

就像 Palantir 一样,做了 20 年,没有 AI 的时候默默无闻,AI 时代来了才被看到巨大的溢价。我们可能也是类似的情况。

爱分析:所以在您看来,语义层和数据中台是基于不同理念形成的两种技术架构?

周卫林:对。数据中台的核心逻辑是给人提供一个工作环境,让业务用上好的数据。它卖的是一个平台,里面有开发环境、目录、资产管理等,让数据能在不同场景下工作。

但现在业务用例变了,不是给人用,而是给 AI 用。价值主张从通过人沉淀数据资产给人用,变成了让 AI 用上好数据,让业务用上好的智能。

如果认同这个转变,那么原来很多东西可以延续,比如 ETL 清洗、语义定义这些还能保留。但 BI 的宽表、强 GUI 的知识门户、各种看板等,会大幅减少。当前是 95% 数据平台是人在操作,5% 是机器操作,两三年后会变成大部分由机器操作。

爱分析:从企业用户视角,原来大数据中台要迁移到面向 Agent 的数据基础设施,这个挑战看起来还是挺大的。

周卫林:对,我觉得有两部分。

第一是现有厂商大概率都会面临的挑战:怎么让用户继续用它?很多工具可能会变成 AI 可调用的命令 CLI。比如任务调度,以前是人去配置,现在可能是 AI 在调用、在运维;同步工具、调度系统、监控预警、数据质量工具这些引擎类的东西,大概率还会保留。但上面的 UI 交互界面,比如 IDE、可视化看板等,可能要重新做,使用方式会有很大变化。

第二是用户的切换调整,对厂商产品架构带来的挑战。原有的数据中台产品,如果是完全一体化的架构,改造工程量会很大;如果是松耦合的架构,就相对好调整一些。有些厂商会把原有系统解耦,变成 AI 能调用的 CLI 接口,甚至在自己体系里用 AI 替代部分开发工作。让 AI 自己来做研发。

这件事有没有可行性?我觉得有一定难度,因为里面有很强的业务知识,比较难完全表达出来。但研发形式肯定会变化,以后工程师不再是手写代码,而是用自然语言交互的方式来完成,大方向是可行的。

不过,有一部分岗位可能会被直接取代,而不是单纯被赋能。比如分析师做临时取数的那部分场景,80% 可能被替代。以前临时取数的工单往往来自业务运营人员,他们最清楚具体场景和口径。如果语义平台能赋能业务人员,让他们自己通过语义直接获取想要的数据,那传统取数环节就没了。

所以你问我数据中台还在不在?我觉得中台里面引擎类的很多东西还会保留,但 BI、专题分析、大量统计类的场景大概率会消失。

爱分析:关于 Palantir,去年开始大谈本体论。您怎么看 Palantir 的本体论技术价值?和 Aloudata 提的语义层有关联吗?

周卫林:本质是一个东西,都是统一语义,最终目标都是决策和行动。区别在于场景:Palantir 侧重运营决策,我们侧重管理决策。信息结构上没本质区别,只是出发点和路径不同。中国市场环境下,我们依托已有中台基础设施,更容易落地。不管叫 Palantir、本体论还是语义层,最终都要看能不能在具体场景实现闭环、真正落地。

03 

AI 时代数据厂商的价值在于管理数据,而非维护数据平台

爱分析:数据消费者从分析师变成 Agent,会不会让数据基础设施的商业模式发生变化?

周卫林:场景应用大概率会按任务完成率、任务覆盖率定价,参考背后人工价值和并发度。订阅模式会更普遍。

中国市场私有云为主,token 定价可能不是主流,但公有云可以。数据库层面,存储和调用量收费模式可能微调,但总体还是软件 + 订阅 + 按调用量付费的组合。

爱分析:从你们实践看,客户在什么痛点下会优先考虑上语义层架构?典型画像是什么?

周卫林:不是单一痛点,而是做过 AI 尝试后发现的问题。不靠语义层,只用传统方式,场景覆盖度低、维护成本高,停留在 Demo,无法生产级可用。

核心是两个问题:第一是 AI 获取数据不可信,AI 听得懂业务表达,但取数口径不准、不可追溯、不可审计。第二是 AI 获取数据不可控,AI 直连数据库不可控,权限、限流、语义变更都难统一管理。

语义层解决的就是 AI 获取数据的可信、可控问题。在基于数据的 Agent 场景下,语义层已变成刚需。

爱分析:AI 时代对数据厂商的机遇是什么?数据行业的核心壁垒和竞争力会在哪里?

周卫林:我理解是这样。从竞争角度看,厂商壁垒是建立在软件功能,还是帮企业维护它的数据。

如果你只是提供工具,而不碰数据,那竞争压力会很大。因为最好的数据当然是企业自己拥有。大多数有价值的数据都在私域里,公域化之后价值就有限了。你有没有特殊的渠道能持续拥有高质量数据,这很重要。

但我们现在的想法是:你到底是在帮企业管数据,还是只是在帮企业提供管理工具?如果你是在帮企业管数据,那情况会好很多。因为在 AI 时代,算力、算法、数据这三点里,数据仍然是企业自己能拥有的最大差异化资产。

所以 AI 时代数据厂商的核心壁垒和竞争力,我认为还是在于,你能不能把企业内部隐性的或显性的信息、生产资料,低成本地转化成 AI 能用的数据,或者说知识。

我们 Aloudata 现在的定位,更多是把企业内部那些本来很隐性的东西显性化出来,提供数据和知识的价值。而且转化过程能不能低成本实现,这也很关键。比如通过自动发现机制,从历史报表、查询日志、代码里面,自动化或半自动化地生成口径和语义。这一点竞争力很强。

爱分析:那 Aloudata 组织层面的核心能力沉淀在哪里?

周卫林:我觉得这个要分两层来看。

第一层,在 AI 时代,很多事情最终还是来自于人的认知。

AI 的逻辑是,如果你这个人有想法,很多时候就能做到。所以人的想法和认知变得非常重要。

以前的壁垒可能来自于企业的流程、积累的代码,这些东西在 AI 时代大概还有作用。但回到核心问题上,公司有没有在这个领域拥有独特的认知和理解力,才是最关键的。这往往取决于公司里有没有那么 5-10 个人、甚至更多一直在前沿探索的人,他们能持续产生前瞻性的想法,并引领客户往前走。

这些独特认知的人数量有限,没办法规模化,但认知越领先的人往往探索越快,会产生马太效应,给领先者带来更大的正循环。

第二层,这些认知最终会落在组织层面。

它体现在客户侧的反应,因为有这样的人和认知优势,我们在市场上能拥有更多客户、更好的品牌和更强的锁定能力。

我们管的是数据和语义,这本身就很难切换,所以会形成一种强大的连接能力。客户绑定的不是某个人,而是公司本身。这种绑定关系又会反过来给优秀的人才提供持续的实践机会和输入,从而形成一个正向循环。

公司里有好的人,产生领先认知,带来领先的市场位置,获得更多客户反馈和锁定,能吸引并留住更好的人才,形成更强的公司竞争力。

爱分析:回到语义层本身,Aloudata 核心护城河和竞争力在哪里?

周卫林:一个公司通常只有一个语义层,头部效应明显,先发优势关键。而先发优势来自语义定义能力和可执行性。这些需要长期积累几百上千个细粒度需求,我们过去多年的认知和实践,就是壁垒。

爱分析:目前 Aloudata 产品线是怎么布局的?AI 方面主要探索哪些方向?

周卫林:我们有四个产品:数据虚拟化引擎 Aloudata AIR、语义编织引擎 Aloudata CAN、数据分析智能体 Aloudata Agent、主动元数据平台 Aloudata BIG。现在都在做 CLAW 化,把能力 API 化、CLI 化,封装成 Skill 或命令行工具,让 AI 调用。现有 UI 给人用,未来通过 CLAW 给 Agent 用。

注:点击左下角" 阅读原文 ",查看更多洞察内容。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

基础设施 开源 ai 核心技术 air
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论