智东西
作者 | ZeR0
编辑 | 漠影
智东西 8 月 12 日报道,今日,全球图形顶级会议 SIGGRAPH 2025 正式开幕,一如既往,英伟达连发多款硬核新品,推出两款全新工作站 GPU、RTX PRO 服务器,以及用于物理 AI 的 NVIDIA Omniverse 软件库、NVIDIA Cosmos 世界基础模型和 NVIDIA Metropolis 平台更新。
新发布的 Cosmos 模型包括一款 70 亿参数的全新推理视觉语言模型(VLM)—— NVIDIA Cosmos Reason,它能让机器人和视觉 AI agents 能够像人类一样利用先验知识、物理理解和常识进行推理。NVIDIA Cosmos Transfer-2 模型可加速从 3D 仿真场景或空间控制输入中生成逼真的合成数据,还有针对速度进行进一步优化的 Cosmos Transfers 精简版。
全新 NVIDIA RTX PRO 4000 Blackwell SFF 版本和 NVIDIA RTX PRO 2000 Blackwell GPU,采用第四代 RT Core 和第五代 Tensor Core,功耗更低,尺寸仅为传统 GPU 的一半,将于今年晚些时候上市。
与上一代架构相比,RTX PRO 4000 SFF 的 AI 性能提升多达 2.5 倍,光线追踪性能提升多达 1.7 倍,带宽提升多达 1.5 倍,在同样 70W TDP 的情况下效率更高。
RTX PRO 2000 针对主流设计和 AI 工作流程进行了优化,与上一代相比,3D 建模速度提高至 1.6 倍,计算机辅助设计(CAD)性能提高至 1.4 倍,渲染速度提高至 1.6 倍,图像生成速度提高多达 1.4 倍,文本生成速度提高多达 2.3 倍。
NVIDIA RTX PRO 2000 Blackwell
思科、戴尔科技、HPE、联想、超微将提供搭载 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 的大容量新型 2U 主流服务器,覆盖多种配置,可加速 Agentic AI、内容创作、数据分析、图形、科学模拟、工业和物理 AI 的企业工作负载。
RTX PRO 服务器系列提供全系列机架式设计,可支持 2 个、4 个或 8 个 NVIDIA RTX PRO 6000 Blackwell GPU,非常适合运行使用 AI 推理模型执行复杂任务并实现自动化的 AI agents。
配备 8 个 RTX PRO 6000 GPU 的 4U 规格服务器现已上市。2U 主流 RTX PRO 服务器预计将于今年晚些时候上市。
一、全新 Omniverse SDK 和库:无缝模拟机器人,3D 仿真现实世界
全新 NVIDIA Omniverse 软件开发套件(SDK)和库可用于构建和部署工业 AI 和机器人模拟应用。
新 Omniverse SDK 推出了 MuJoCo(MJCF)和通用场景描述(OpenUSD)之间的数据互操作性,帮助超过 25 万名 MJCF 机器人学习开发者无缝模拟各平台的机器人。
新 Omniverse NuRec 库和 AI 模型引入 Omniverse RTX 光线追踪 3D 高斯溅射(3DGS)技术。这种渲染技术可帮助开发者利用传感器数据,以 3D 形式捕捉、重建和模拟现实世界。
NVIDIA Isaac Sim 5.0 和 NVIDIA Isaac Lab 2.2 开源机器人模拟和学习框架已在 GitHub 上提供。Isaac Sim 包括 NuRec 神经渲染和基于 OpenUSD 的全新机器人和传感器模式,可帮助机器人开发者弥合仿真与现实之间的差距。
GitHub 地址:
github.com/isaac-sim/IsaacSim
Omniverse NuRec 渲染已集成到拥有超过 15 万名开发者的开源模拟器 CARLA 中。波士顿动力、Figure AI、Hexagon、RAI Institute、Lightwheel、Skild AI 正在采用 Omniverse 库、Isaac Sim 和 Isaac Lab 来加速其 AI 机器人开发,亚马逊设备与服务公司正在使用它们来支持新的制造解决方案。
为了帮助开发者充分利用这些软件库及先进技术,NVIDIA 宣布推出为高要求工作负载而设计的 AI 基础设施。
NVIDIA RTX PRO Blackwell 服务器为训练、合成数据生成、机器人学习和仿真等各种机器人开发工作负载提供统一架构。NVIDIA DGX Cloud 现已在微软 Azure Marketplace 上提供,为 Omniverse 开发提供了一个全托管平台,可简化从云端大规模流式传输基于 OpenUSD 和 NVIDIA RTX 的应用,从而最大限度地减少基础设施编排和管理。
二、Cosmos 模型下载量超 200 万次,新增开源 7B 推理 VLM
NVIDIA Cosmos 世界基础模型的下载量已超过 200 万次,使开发者可使用文本、图像和视频提示生成用于大规模训练机器人的各种数据。新发布的模型在合成数据生成速度、准确性、语言支持和控制等方面取得进步。
即将发布的 Cosmos Transfer-2 简化了提示,并能从地面实况 3D 仿真场景或空间控制输入(如深度、分割、边缘和高清地图)中快速生成逼真的合成数据。
Cosmos Transfer 精简版将 70 个步骤的蒸馏过程简化成一步,使得在 NVIDIA RTX PRO 服务器上运行模型的速度大大提升。
Lightwheel、Moon Surgical 和 Skild AI 正在使用 Cosmos Transfer 通过大规模模拟各种条件来加速物理 AI 训练。
此前视觉语言模型(VLM)尚无法解决多步骤任务,也无法处理模糊性或新奇的体验。
NVIDIA Cosmos Reason 是一款可定制的开源推理 VLM,拥有 70 亿参数,面向用于物理 AI 和机器人开发。
它可以让机器人和视觉 AI agents 像人类一样推理,利用先验知识、物理理解和常识来理解现实世界并付诸行动,因此可用于数据管理、机器人规划和视频分析等场景。
该模型可用于机器人和物理 AI 应用,包括:
(1)数据管理和注释,帮助开发者自动对海量、多样化的训练数据集进行高质量管理和注释。
(2)机器人规划和推理,在机器人 VLA 模型中充当大脑,进行有意识、有条理的决策,使机器人能解读环境,并在收到复杂命令后,将其分解为任务,并运用常识执行,即使在不熟悉的环境中。
(3)视频分析 AI agents 基于可用于视频搜索和总结的 NVIDIA Blueprint 构建,可从海量视频数据中提取有价值的见解并进行根本原因分析。
NVIDIA 机器人团队和 NVIDIA DRIVE 团队正在使用 Cosmos Reason 进行数据整理和筛选、注释以及 VLA 后训练。Uber 正在使用它来为辅助驾驶训练数据添加注释和字幕。
NVIDIA Cosmos-Reason1-7B 模型可在新发布的 RTX PRO 4000 SFF 上无缝运行,为边缘设备、紧凑型工作站和工业系统提供出色的物理 AI 推理能力。
三、NVIDIA Metropolis 五连更,让物理 AI 应用开发更轻松
NVIDIA Metropolis 平台简化了视频分析 AI agents 和服务从边缘到云的开发、部署和扩展。开发者可利用该平台更快地为其设施构建视觉感知,以提高生产力,并提高各环境的安全性。
NVIDIA Metropolis 的五项关键更新,有望推进开发者更快、更轻松地构建物理 AI 应用。
(1)Cosmos Reason VLM:最新版 Cosmos Reason 可实现针对 Metropolis 用例的上下文视频理解和时间事件推理。小参数量使其易于从边缘到云端部署,非常适合自动化交通监控、公共安全、视觉检查和智能决策。
(2)VSS Blueprint 2.4:VSS 2.4 可轻松快速地通过 Cosmos Reason 来增强现有视觉 AI 应用,具有一组扩展应用编程接口,为用户直接提供了更大的灵活性,使其能够选择特定的 VSS 组件和功能来通过生成式 AI 增强计算机视觉管线。
(3)全新视觉基础模型:NVIDIA TAO 工具套件包括一套全新视觉基础模型,以及高级微调方法、自监督学习和知识蒸馏功能,能够优化边缘与云环境中的物理 AI 解决方案部署。NVIDIA DeepStream SDK 具备一个全新推理生成器,可无缝部署 TAO 6 模型。
(4)NVIDIA Isaac Sim 扩展:NVIDIA Isaac Sim 参考应用中的新扩展工具有助于解决视觉 AI 开发中的常见挑战,例如有限的标注数据和罕见的边缘场景。这些工具可以模拟人机交互,生成丰富的目标检测数据集,并创建基于事件的场景和图像 - 字幕对,来训练 VLM 并加速开发,提高 AI 在现实世界条件下的性能。
(5)扩展硬件支持:所有 Metropolis 组件均可在 NVIDIA RTX PRO Blackwell GPU、NVIDIA DGX Spark 桌面超级计算机以及用于物理 AI 和人形机器人的 NVIDIA Jetson Thor 平台上运行,用户可从边缘到云端进行开发与部署。
Cosmos Reason 1 和 NVIDIA TAO 6.0 均已开放下载。
四、展示多项创新研究,覆盖模拟、AI 渲染、3D 内容生成
NVIDIA 研究人员在 SIGGRAPH 上展示了模拟、AI 渲染和 3D 内容生成方面的进展,可能有助于虚拟世界创建、机器人开发和自动驾驶汽车训练。
一篇论文探讨了从 2D 图像或视频重建物理感知 3D 几何体的挑战。虽然许多模型可以根据视频片段估计 3D 物体,但生成的 3D 形状通常缺乏结构稳定性。即使在视觉上与真实物体非常接近,生成的形状也可能存在比例略微不均匀或细节缺失的问题,从而影响其物理真实感。
例如,用 2D 素材构建的椅子 3D 模拟模型,如果放入物理精准的模拟环境中,可能会塌陷,因为 AI 模型是基于视觉估算 3D 结构,而非实际测量结果。这篇论文介绍的方法有助于确保生成的 3D 形状能够真实还原现实世界的物理特性,从而支持创建用于物理 AI 训练的虚拟世界。
另一篇论文介绍了一种通过物理上精确的运动赋予模拟角色生命的技术。研究人员将运动生成器与基于物理的跟踪控制器相结合,为复杂的动作(例如跑酷运动员的特技)生成逼真的合成数据。这些数据可以帮助开发虚拟角色或训练现实世界的人形机器人,使其具有现实世界训练数据中很少见的敏捷运动技能。
其他论文探讨了模拟光和材料的复杂性。
一个项目展示了如何创建 AI 助手来增强材质细节。它利用扩散模型和基于可微分物理的渲染器,为创作者提供了一种在 3D 对象表示上轻松修改材质纹理贴图的方法,使创作者能用简单的文本提示创建更丰富、更逼真的虚拟世界。研究团队演示了如何使用该模型快速添加逼真的物体细节,例如风化或老化的痕迹。这些细节使用传统渲染方法创建起来非常耗时。
在光模拟领域,一篇论文解决了可微分渲染中的挑战,引入了一种强大的可微分可见性查询,可以更快、更准确地从图像和视频中重建 3D 几何体。一个示例是将正向渲染和逆向渲染结合在一起,快速从虚拟世界中提取参数,这些参数对于在合成数据集上精确训练物理 AI 模型至关重要。
结语:押注物理 AI,将信息世界与物理世界打通
NVIDIA 正在为其 GPU 开辟一个更广阔的市场,而它嗅到的下一个风向便是将计算机图形和 AI 能力进一步结合的物理 AI。而无论是图形和仿真创新,还是加速 AI 计算,都是 NVIDIA 的优势所在。
物理 AI 已逐渐成为现代机器人、自动驾驶汽车、智慧城市、设施和工业流程的基础,它依赖于神经图形、合成数据生成、基于物理的模拟仿真、强化学习和 AI 推理的融合。
在 SIGGRAPH 2025 期间,NVIDIA 展示了包括 NVIDIA Omniverse 库、NVIDIA Cosmos 世界基础模型、RTX PRO Blackwell GPU 及服务器在内的一系列软硬件基础设施如何为物理 AI 和机器人工作负载提供动力。
为了帮助机器人和物理 AI 开发者推进 3D 和模拟技术的采用,NVIDIA 还宣布 OpenUSD 课程和认证,以满足对 USD 专业知识的需求,并宣布与 Lightwheel 进行开源合作,将机器人策略训练和评估框架集成到 NVIDIA Isaac Lab 中,具备并行强化学习训练功能,以及机器人操作和运动的基准测试和仿真就绪资产。
登录后才可以发布评论哦
打开小程序可以发布评论哦