如何把物理世界转化为可训练、可交互、可评测的数字世界?
作者|王博
近期,欧洲计算机视觉顶级会议 ECCV 2026 公布论文录用结果,我们注意到一家中国公司的名字反复出现——群核科技。
这次群核科技共有三篇论文入选:Syn-GRPO 讨论了训练数据如何在强化学习过程中持续生成和自我进化;SPEAR 提出了一套面向具身智能研究的高保真仿真器,让机器在进入真实世界之前,先在数字世界里观察、行动、试错和学习;WalkerBench 则是分析了模型的空间智能如何在更接近真实世界的交互任务中被更合理评测。
这三篇论文,实际上反映了群核科技关于物理 AI 基础设施建设的最新探索与思考:如何把物理世界转化为可训练、可交互、可评测的数字世界?
由此,群核科技的物理 AI 路线也变得更清晰。它并不仅是从数据服务商向 " 数据 - 仿真 - 评测 " 全链路延伸,更是在尝试把自己过去多年积累的数据和空间智能能力,转化为物理 AI 时代的底层基础设施。
这套基础设施的底座是群核科技沉淀的海量三维可交互数据,以及将物理世界数字化的能力;核心是结构化三维数据集和真实世界驱动的世界模型;面向的应用,则是具身智能、大模型、XR、工业孪生等需要空间理解和空间训练的物理 AI 场景。
当空间理解、仿真训练和持续学习能力成为物理 AI 新基建的要求,群核科技想扮演的角色,是连接物理世界与数字世界的 " 架桥人 "。
1. 为什么 " 架桥 "
机器人行业最常讨论的问题是模型和本体。
一边是具身智能模型公司向视觉语言行动模型推进,试图让机器人拥有更强的理解、规划和泛化能力;另一边是机器人本体公司在降本、量产、供应链和场景落地上快速迭代。
但在训练一台真正能进入物理世界的机器人时,一个更基础的问题会提前出现:它在哪里学习?
就像人类学习需要书本、学校和考试一样,机器人学习也需要自己的 " 教材、训练场和考卷 ":首先,它需要获得足够真实、足够结构化的训练数据;然后,它需要仿真环境进行低成本、高频次、可控的试错;最后,我们需要评测它是否真的理解了物理世界的空间。
这就是 " 架桥 " 的意义。
桥的一端是真实的物理世界。那里有家庭、商超、工厂、街道,有真实的空间结构、物体关系和长尾场景。
桥的另一端是虚拟的数字世界。真实空间需要被采集、重建、生成、标注和仿真,才能变成机器可以训练、交互和评测的数字资产。
而桥的价值,不只是把真实世界搬进数字空间,更关键的是,让模型在数字空间里训练出来的能力,最终能够回到真实世界。
这也被称为 Real2Sim2Real 闭环。
群核科技此次入选 ECCV 的三篇论文,恰好落在这座桥的几个关键位置。
Syn-GRPO 回答的是 " 训练数据怎么持续生成 "。强化学习训练多模态模型时,常见问题是数据质量下降、模型答案趋同、探索空间变窄。Syn-GRPO 通过在线数据生成,让训练样本在过程中持续变化,避免模型只是在有限题库里 " 背题 "。
SPEAR 回答的是 " 训练场怎么建 "。它提出了一套面向具身智能研究的高保真仿真器,把虚幻引擎生态里的高质量虚拟世界,变成可编程、可观测、可交互的训练环境。论文中,SPEAR 开放超过 1.4 万个虚幻引擎原生接口,可以以 56 FPS 输出 1080P 照片级画面,并同步提供深度图、法线、语义分割、材质 ID 等多种传感器数据。
SPEAR 论文,图片来源:ECCV
SPEAR 的全称是 Simulator for Photorealistic Embodied AI Research(面向真实感具身 AI 研究的仿真器)。它由群核科技、Adobe、英特尔、英伟达、ETH Zurich 等公司或机构的研究者共同完成。
这篇论文的作者阵容本身就很有信号意义:German Ros 是英伟达仿真生态系统开发总监,唐睿是群核科技首席科学家,Stefan Leutenegger 是苏黎世联邦理工学院副教授,Kalyan Sunkavalli 是 Adobe Research 首席科学家,Vladlen Koltun 曾参与自动驾驶仿真基准 CARLA 的推出。
SPEAR 论文作者,图片来源:ECCV
WalkerBench 回答的是 " 空间能力怎么被评测出来 "。它不再让模型只看一张图判断距离或方向,而是基于真实街景构建交互式评测任务,让模型像真实路人一样移动、观察、记忆和导航。
三篇论文分别对应 " 数据 - 仿真 - 评测 " 三个环节。它们共同说明,物理 AI 的竞争焦点正在发生变化:行业不仅需要更强的模型和本体,也需要一整套 Real2Sim2Real 的基础设施。
这套基础设施就是群核科技想架的桥。
制图:甲子光年
2. 凭什么 " 架桥 "
物理 AI 的规模化落地,正面临一个根本性的供给瓶颈:三维空间数据的规模化供给能力,远落后于模型训练需求的增长速度。
群核科技的 " 架桥 " 底气来自于其十五年来形成的数据基础设施壁垒。
第一个壁垒是数据底座。
群核科技已经沉淀超过 5 亿个 3D 场景和 4.8 亿个 3D 模型,覆盖家居、工业、药店、商超、餐厅等不同空间类型。相比普通 3D 模型库,这些数据的价值不仅仅是数量,更重要的是结构,这是其能够布局合成数据的基础。
每个场景都包含户型布局、语义分区、材质属性、物体层级等信息,这意味着 AI 训练时拿到的是带有物理含义的空间数据。
而这些数据的稀缺性被行业低估了。文本和图像可以从互联网上大规模获取,但三维空间数据没有同样的 " 开源红利 "。
尤其是室内数据。自动驾驶可以靠采集车跑遍城市,但室内场景涉及户型结构、家具摆放、材质光照、遮挡关系,每个家庭、每个商超、每个药店都不一样。室内数据的获取难度和复杂性远超室外场景,而这恰好是群核科技十五年来通过空间设计软件酷家乐积累的宝贵资源。
目前,群核科技的平台上每天都在产生新场景,数据也成为了持续增长的活数据。
第二个壁垒是物理世界数字化能力。
合成数据解决了规模和成本问题,但物理 AI 最终要回到真实世界,仿真与现实之间的 Gap 始终存在。只靠合成场景,机器人可能学会 " 看起来合理 " 的空间,却未必能适应真实环境中的材质、光照、几何细节和遮挡关系。
去年,群核科技发力 3DGS 重建,通过扫描拍摄实体环境,通过其空间智能平台 Aholo 的算法实现 1:1 复刻,将真实空间高保真地数字化还原。3DGS 数据保留了真实世界的几何精度、材质细节和光照特性,为训练场景补上了真实性来源。
值得注意的是,群核科技已与影石、禾赛等硬件厂商合作,打通彼此软硬件能力,探索端到端、一站式空间重建解决方案。
由影翎全景无人机拍摄,经 Aholo 空间智能平台重建的场景,图片来源:群核科技
更关键的是,群核科技并不只是把真实空间 " 扫描进来 "。 3DGS 因为效果逼真、渲染速度极快,已成为三维重建领域的主流方向之一。但由于 3D 高斯不具备结构化信息,所以导致只能用来 " 看 ",而不能用来 " 用 "。
群核科技的独特性在于其基于空间理解和结构化的能力,可将 3DGS 数据进一步转化为可训练、可验证数据资产的路径。去年,群核科技的两项工作 InteriorGS、SAGE-3D 分别赋予 3DGS 补充语义、碰撞体、物理属性等信息,并推出基于 3DGS 的 VLN 评测基准 SAGE Bench,这些工作都在让真实世界数据真正进入具身智能训练流程。
第三个壁垒是数据泛化能力。
原始数据再多,也不可能覆盖所有训练需求。机器人需要面对的是大量长尾场景:不同光照、不同视角、不同布局、不同物体组合、不同任务难度。同一个厨房,可以有无数种摆放方式;同一家商超,也会因为货架、动线、人流变化产生不同训练需求。
这就需要数据泛化能力。
群核科技自研的空间生成模型 SpatialGen,可以基于空间布局语义,生成多视图、多模态的三维场景。它能够理解空间语义,生成从未真实存在但在物理关系上合理的新场景。
依托群核科技海量室内 3D 场景数据与多视角扩散模型技术,SpatialGen 生成的多视角图像能确保同一物体在不同镜头下始终保持准确的空间属性和物理关系。
SpatialGen 的多视角一致性演示,图片来源:群核科技
如果说 3D 场景和 3D 模型是原料,3DGS 重建补充了真实世界的质感和精度,那么 SpatialGen 则让这些原料具备了持续扩展的能力。它把存量数据变成可泛化、可复用、可训练的仿真世界,也让群核科技的数据资产从静态库存,变成一条可以持续运转的生产线。
这三个壁垒连在一起,构成了群核科技物理 AI 数据飞轮的底层逻辑:先用海量结构化数据解决规模问题,再用真实世界重建缩小仿真与现实的距离,最后通过空间生成实现数据泛化。
而最新的论文成果可以看到,群核科技的技术路线正在向仿真、评测等环节进一步延伸。" 怎么持续获得三维数据、怎么构建逼真的虚拟考场、怎么定义训练结果的好坏 " 这套基础设施,就是直面行业当前最大的痛点。
这个物理 AI 数据飞轮需要一个平台来承载。对群核科技来说,这个平台就是其空间智能训练平台SpatialVerse。
这是一个面向物理 AI 空间训练的数据仿真平台:它既是 " 数据工厂 ",可以持续生成高保真的物理空间数据,也是 " 训练场 ",让机器人和智能体在虚拟世界中完成低成本试错。
「甲子光年」了解到,群核科技 SpatialVerse 已与智元机器人、银河通用、穹彻智能、智平方、松应科技、禾赛等国内物理 AI 企业达成合作。此外,海外几家主要科技巨头也与其有着密切的产业和学术合作。去年,Google 的模型训练论文中,就专门致谢了 SpatialVerse 提供的物理级真实 3D 场景数据。
这对机器人企业来说,价值很直接:更低成本获得训练场景,更快覆盖长尾任务,更安全地进行试错,更系统地发现模型和控制策略的问题。
而对群核科技来说,这意味着过去服务人类设计师的空间能力,开始转化为服务机器训练的基础设施能力。
群核科技空间智能全景图,图片来源:群核科技
3. 世界模型竞争,不只在生成
如果说物理 AI 数据飞轮解决问题是 " 机器人如何训练 ",世界模型解决的则是另一个问题 " 机器人如何理解这个世界 "。
今年,世界模型成为物理 AI 领域的高频词。2026 北京智源大会期间,智源研究院就为世界模型定义了四条清晰的路线:语言、像素、三维结构、视觉表征。
第一类是以语言为中心的世界模型,包括 VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果。
第二类是以像素为中心的世界模型,像 Sora 和 Seedance 等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界。
第三类是以三维结构为中心的世界模型,李飞飞团队的 World Labs Marble 模型和群核科技走的都是这一路线。
第四类是以视觉表征为中心的世界模型,比如杨立昆的 JEPA 系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。
这几条路线共同说明,世界模型正在从语言、像素和表征,逐步走向三维空间和物理世界。但对物理 AI 来说,只会生成一个画面、重建一个空间,仍然不够。
机器人真正要进入真实世界,需要理解空间结构、物体关系和物理约束。它要知道一个房间里哪些地方可以通行,物体之间是什么关系,某个动作可能带来什么后果。
这也是群核科技世界模型路线的特点:真实世界驱动。以真实物理世界数字化为核心,采用"空间重建 + 场景生成"双轮驱动模式搭建自研世界模型,这也是其最核心的差异化路径。
「甲子光年」了解到,群核科技自主研发了百亿级多模态空间智能大模型。这是业界首个专注于 3D 室内场景认知与生成的空间智能大模型。该模型基于其大规模、高质量的三维场景数据训练而成,具备结构化理解和可视化生成两大核心能力。
目前,该模型已开源两大核心子模型:空间语言模型 SpatialLM 和空间生成模型 SpatialGen。2025 年 3 月,SpatialLM 开源后,与 DeepSeek-V3、Qwen2.5-Omni 一起登上全球最大的开源社区 HuggingFace 全球趋势榜前三。
图片来源:Hugging Face
SpatialLM 是一个空间语言模型,通过一段视频输入,就能准确认知和理解此视频对应的空间点云数据,并对点云数据进行推理和场景描述,最终将提取的信息以自然语言的形式呈现。
在行业内,SpatialLM 这种空间理解模型相对少见。
总的来看,SpatialGen 负责 " 生成空间 ",SpatialLM 负责 " 理解空间 ",再加上 3DGS 重建 " 还原真实空间 ",这三类能力叠加在一起,构成了群核科技空间智能的底层能力。
这一方面可以反哺 SpatialVerse 的数据仿真生产线。空间理解模型可以帮助平台更好地标注和组织数据;空间生成模型可以扩展更多训练场景;真实世界重建能力可以补充高质量现实数据。
群核科技与激光雷达厂商禾赛科技的合作就是基于这一背景。禾赛 XT 及 JT 系列激光雷达提供毫米级 3D 空间建模能力,群核科技的 SpatialLM 完成物理属性智能标注,双方联合推出机器人仿真训练场景生成方案,让真实世界的空间数据直接进入 AI 的训练流程。
另一方面,群核科技也在通过 Aholo 空间智能平台,以 API、SDK 等方式把模型能力向行业逐步开放这些底层能力。群核科技世界模型的价值不只在内部训练飞轮里循环,也有机会成为行业开发者、机器人公司和空间智能应用的基础设施。
4. 布局空间智能基础设施,做物理 AI" 架桥人 "
从整体来看,群核科技在物理 AI 产业链的布局已经形成清晰的三层架构。
第一层是工具层,以酷家乐、Aholo 为代表。它们负责从物理世界源源不断地获取原始数据——设计师在酷家乐上创作的每一个方案、Aholo 重建的每一个真实空间,都在为 AI 提供来自真实世界的 " 原料 "。
第二层是世界模型层,涵盖空间生成(SpatialGen)和空间理解(SpatialLM)。这一层负责将原始数据加工和泛化——让 AI 不仅能看到三维空间,还能理解和生成三维空间。
第三层是数据层,以 SpatialVerse 为核心。这一层把前两层的成果整合为可训练、可交互、可评测的数字世界,通过 " 数据 - 仿真 - 评测 " 飞轮持续迭代。
三层架构形成动态飞轮,互相增强:工具层产出更多真实世界数据,世界模型层将其加工泛化,数据层形成可规模化使用的训练资产,再反哺工具层和模型层。每一层都在加速下一层的进化。
从产业视角看,这套架构让群核科技的定位发生了一次根本性的变化。
群核科技不直接造机器人,但他们在物理世界和数字世界之间架设桥梁,让所有需要空间数据和仿真能力的玩家都能通过这座桥梁,更高效地抵达目的地。
机器人只是第一个明显场景。世界模型需要空间一致性,XR 需要空间重建,工业孪生需要空间仿真——这些方向看起来分散,底层问题其实一致:如何让机器理解和使用三维空间。
物理 AI 正在让 " 空间 " 的服务对象发生变化:机器也开始需要空间。空间不再只是人的视觉内容,也成为 AI 训练和行动的基础载体。
当然,这条路还在早期。物理 AI 的商业化场景仍在验证,通用机器人能力还没有完全成熟,Sim2Real 也仍然存在 Gap。
但从产业趋势看,群核科技站在了一个关键的位置,也在回应一个关键的问题:谁能把真实世界持续转化为可训练、可交互、可评测的数字世界,谁就可能成为物理 AI 基础设施的核心供应商。
一座桥真正重要的时刻,不是建成的那一刻,而是两端开始有人往来的时候。
物理 AI 也一样。真实世界的数据被带入数字空间,机器在其中学习、试错、评测,再把能力带回真实场景。这个往返过程越顺畅,物理 AI 离产业化就越近。
群核科技要做的,正是这条往返路径上的基础工程。现在这座桥上不一定喧哗,但它决定了后来者能走多远。
(封面图来源:AI 生成)
END.


登录后才可以发布评论哦
打开小程序可以发布评论哦