内容来源 | 本文摘编自中信出版集团书籍
《空间智能》刘志毅 著
责编 | 柒 排版 | 鹅妹子
第 9118 篇深度好文:5853 字 | 15 分钟阅读
2025 年 6 月,李飞飞在 Y Combinator 的 AI Startup School 上表示:" 在我看来,没有空间智能,AGI 是不完整的。而我想解决的,正是这个问题。"
此外,她还指出,大语言模型是运行在一维语言空间中的纯生成系统;而现实世界是三维的,必须被感知、重建与操作,无法仅靠语言建模完成。
随着人工智能领域的迅猛发展,大语言模型(LLM)在 2022 年底至 2023 年间取得了自然语言处理的革命性突破,显著提升了人机交互的水平。
然而,当我们惊叹于 AI 系统生成连贯文章、解答复杂问题的能力时,一个关键挑战日益凸显:
这些系统在理解和交互于三维物理世界时仍显得力不从心,普遍缺乏基本的空间认知能力。
空间智能作为连接物理世界与抽象思维的桥梁,其目标不仅在于让机器 " 看见 " 三维世界,更在于引导其建立对空间结构、物理规律及动态变化的深层理解。
从计算机视觉的早期尝试到现代深度学习驱动的场景理解,从静态几何重建到动态物理交互,空间智能的发展揭示了人工智能从处理符号到理解现实世界的关键演进路径。
这种能力对实现真正的通用人工智能至关重要,正如空间认知在人类智能发展中的基础性作用一样,它将为人工智能系统提供理解和交互于我们三维世界的必要基础。
一、什么是空间智能?
空间智能作为一个整体概念,强调的是三维感知、空间推理和多模态生成三大能力的有机整合,而非简单叠加。
真正的空间智能系统需要这三种能力紧密协作,形成一个闭环系统:
三维感知提供对环境的准确理解,空间推理基于这种理解预测可能的变化和交互结果,多模态生成则将理解和预测转化为具体行动或内容,这些行动又可能改变环境状态,触发新一轮的 " 感知—推理—生成 " 循环。
这种闭环特性使得空间智能具有自我提升的潜力:通过与环境的持续交互,系统能够不断完善其内部模型和行为策略,实现类似人类的经验学习过程。
例如,一个智能机器人可能通过反复尝试抓取不同形状的物体,观察成功和失败案例,逐步改进其物理模型和操作策略。空间智能研究面临着多重技术挑战和科学问题。
在感知层面,如何在开放、动态和不确定环境中实现稳健的三维感知仍是一个核心挑战,特别是对于透明、镜面反射等复杂材质物体的准确感知;
在推理层面,如何构建能够高效且准确预测物理交互的计算模型,同时兼顾计算效率和物理准确性,是一个关键难题;
在生成层面,如何确保生成内容的物理可行性和功能合理性,同时保持创造性和多样性,仍需进行深入研究。
空间智能更本质的挑战在于如何构建一个统一的空间表示框架,能够同时支持高效感知、推理和生成,同时保持计算可行性和扩展性。
这种表示需要兼顾几何精度、物理属性和语义信息,使系统能够无缝处理不同类型的空间任务。
未来空间智能研究的发展方向可能包括多种路径。
第一种是向更综合的多模态感知发展,整合视觉、触觉、听觉等多种感官通道,构建更完整的环境表征;
第二种是向更深入的物理理解方向发展,通过物理导向学习或可微分物理模拟等方法,使系统能够学习和应用更复杂的物理规律;
第三种是向更高级的交互生成能力发展,使系统能够根据用户需求和环境约束创造适应性解决方案。
这些方向的共同目标是构建能够自然理解和交互于物理世界的人工智能系统,使机器能够像人类一样轻松应对各种空间挑战。
随着空间智能研究的深入,我们可能见证一个从 " 单一感知 " 向 " 整合理解 ",再到 " 创造性交互 " 的技术演进过程。
早期的计算机视觉系统主要关注如何 " 看见 " 世界,现代空间智能则强调如何 " 理解 " 世界的结构与规律,而未来的系统将进一步发展出如何创造性地 " 重塑 " 世界的能力。
这一演进路径类似于人类从婴儿期的基础感知,到幼儿期的因果理解,再到成熟期的创造性问题解决的认知发展过程,这反映了智能系统与物理世界交互能力的自然进阶。
随着这一领域的持续发展,空间智能可能成为连接感知人工智能和推理人工智能的关键桥梁,使人工智能系统真正能够理解和交互于我们生活的三维物理世界。
二、空间智能:
AGI 无法跳过的进化阶段
空间智能与通用人工智能(AGI)的关系既是基础性的,也是战略性的,二者之间存在着深刻而复杂的相互依存关系,这种关系不仅影响着当前人工智能技术的发展方向,还有可能决定通用人工智能最终实现的路径选择。
理解这一关系,需要我们跳出技术细节,审视智能的本质特征及其在自然进化和认知发展中的演化规律,从而把握空间智能在通用人工智能构建中的核心地位和作用机制。
将空间认知发展研究的启示应用于通用人工智能构建,我们可以推断,真正的通用人工智能可能同样需要先建立牢固的空间认知能力,然后才能发展出真正的抽象思维和通用问题解决能力。
纯粹的语言模型,无论多么强大,如果缺乏对物理世界的基本理解,其通用性可能始终受到根本限制。
近期大语言模型的惊人进展为通用人工智能研究带来了新的思路和可能性。虽然这些模型主要处理语言数据,但它们已经展现出令人惊讶的推理能力和知识整合能力。
特别值得注意的是,即使没有直接接触三维空间数据,这些模型也能在一定程度上理解和处理空间概念。
例如,GPT — 4 在处理涉及空间关系的问题时表现出了超出预期的能力,它能够理解 " 把红色方块放在蓝色圆形的左侧,但在绿色三角形的上方 " 这样复杂的空间指令,尽管它并未直接接触过三维空间数据。
这种现象可能源于语言中隐含的丰富空间知识。
如乔治 · 莱考夫和马克 · 约翰逊在《我们赖以生存的隐喻》(Metaphors We Live By)中所指出的,人类语言充满了空间隐喻,许多抽象概念都通过空间关系来表达。
例如,我们说 " 高 " 兴和 " 低 " 落来描述情绪状态,用 " 前 " 途和 " 后 " 果来表达时间关系,用 " 深 " 入和 " 肤 " 浅来描述理解程度。
这些空间隐喻不仅是语言表达的修辞手段,还反映了人类思维本质上的空间化特性—我们倾向于通过空间关系来组织和理解各种概念,包括那些本身并非空间性质的抽象概念。
大语言模型通过处理大量文本,可能间接学习到这些隐含的空间知识,从而展现出对空间概念具有一定的理解能力。
然而,大语言模型仅通过语言获取的空间知识很可能存在根本局限。
首先,语言描述往往是高度抽象和简化的,难以传达物理世界的全部复杂性和细节。
其次,语言学习缺乏直接的感知反馈和交互经验,无法建立感知与动作之间的紧密联系,而这种联系对于真正的空间理解至关重要。
最后,语言本身是人类基于直接空间经验创造的抽象系统,通过语言间接学习空间概念存在着本质上的信息损失和扭曲。
在创造性思维方面,空间智能与抽象推理的结合为通用人工智能系统提供了创新问题解决的可能性。
空间智能为通用人工智能系统注入类似的空间化思维能力,可能为其提供更强大的创造性问题解决工具。
例如,现代深度学习模型已经展示了在隐空间(latent space)中进行概念混合和转换的能力,如 DALL-E 能够创造出 " 穿着宇航服演奏萨克斯风的鳄鱼 " 这样的新颖组合图像。
在整合多感知通道方面,空间智能的贡献尤为突出。
人类空间认知依赖于视觉、听觉、触觉和本体感受等多种感官输入的协同处理,这种多模态整合使我们能够构建丰富而稳健的空间表征。
通用人工智能系统同样需要这种多模态整合能力,以应对复杂多变的实际环境。例如:
自动驾驶系统需要整合相机、雷达和激光雷达等多种传感器数据,在不同天气和光照条件下维持可靠的环境感知;
家庭服务机器人需要结合视觉识别、语音理解和触觉反馈,精确执行日常物体操作任务。
从系统架构角度,空间智能可能为通用人工智能提供层次化表征和模块化组织的范例。
人类空间认知系统同时具备多种空间表征,从身体中心的主观坐标系到环境中心的客观坐标系,从细粒度的局部表征到粗粒度的全局表征,这些表征相互补充,共同支持灵活的空间理解和导航。
例如,当我们在熟悉的城市中导航时,既使用地标和路线等局部空间知识,又依靠心理地图中的全局几何结构,同时还能根据任务需求灵活切换不同参考系统。
实现真正的空间智能还需要克服当前技术的多重局限。
首先,现有深度学习方法通常依赖大量标注数据,而空间理解和物理推理的标注极其昂贵且耗时。
其次,多模态感知系统在噪声、部分可观测和模态缺失等挑战面前的鲁棒性仍然不足。
再次,现有物理模拟方法在计算效率和逼真度之间存在权衡,难以同时实现实时性和准确性。最后,将空间理解与高级认知功能(如规划、决策和创造性思维)无缝整合仍然是一个开放性挑战。
未来空间智能研究的突破性方向包括:
自监督学习方法的创新,使系统能够从未标注的物理交互数据中学习;
神经符号混合方法的深入探索,结合神经网络的感知能力与符号系统的结构化推理;
可微物理模拟的进一步发展,将物理规律作为训练约束而非后处理规则;
以及多层次空间表征的设计,使系统能够在不同抽象级别上操作空间概念。
这些方向的进展将推动空间智能向更高水平发展,为实现真正的通用人工智能铺平道路。
总体来说,空间智能与通用人工智能的关系是深层次、多维度的相互依存,而非简单的功能叠加。
空间智能不仅为通用人工智能提供了感知和理解物理世界的基础能力,还影响着学习机制、交互能力和创造性思维的发展路径。
随着研究的深入,两者的界限可能逐渐模糊,最终融合为一个统一的智能系统。
这种融合的实现将标志着人工智能从专用工具向真正通用智能的根本性跨越,开创人机交互和智能技术应用的新纪元,使人工智能系统能够自然理解和交互于我们的三维世界,成为人类真正的智能伙伴和助手。
三、空间智能未来展望:
从技术突破到人机协同的新纪元
在人类认知与技术融合的前沿,空间智能技术正展现出前所未有的发展潜力。
从感知与处理环境的基础能力,到人机协同的深度融合,再到探索宇宙的宏大愿景,这一领域正经历着从理论到实践的革命性变革。
当我们站在技术演进的十字路口,面对能耗挑战、动态环境适应、跨场景泛化等瓶颈,创新解决方案正在各个维度涌现。
同时,人机关系的本质也在发生根本转变,从简单的工具使用迈向相互增强的伙伴关系。
更令人振奋的是,这些进步不仅限于地球表面,而且逐渐延伸至太阳系乃至更遥远的星际空间,开创了认知与探索的新纪元。
1. 技术瓶颈与突破方向
空间智能技术作为融合感知、认知与决策的综合系统,其发展道路既充满希望,又面临诸多挑战。
从人类认知演化的角度来看,空间智能的发展历程反映了我们对世界理解方式的根本性变革。
早期人类通过直接经验积累空间知识,而今天,我们正借助先进的计算技术和理论框架,构建能够自主理解和交互于环境中的智能系统。
然而,当前空间智能技术的发展仍面临多重技术瓶颈,这些瓶颈不仅限制了系统性能的提升,还制约了其在复杂场景中的应用潜力。
识别这些瓶颈并探索突破路径,对推动空间智能技术迈向更高水平具有重要意义。
能耗问题无疑是当前空间智能系统面临的首要挑战之一。
据麻省理工学院计算机科学与人工智能实验室的研究显示,现有空间智能系统的能耗普遍是传统人工智能系统的数倍,这种高能耗不仅增加了运营成本,而且限制了系统在资源受限环境中的部署可能性。
这一问题的根源在于空间智能系统需要同时处理多模态感知输入、构建动态环境表示和执行实时决策,这些操作都是计算密集型的,对处理器和内存资源提出了极高要求。
例如,一个典型的自动驾驶系统在实时处理多路高分辨率摄像头和激光雷达数据时,其功耗可达 300~500 瓦,这远超普通消费级电子设备的能耗水平,对车载电源系统构成显著压力。
特别是当系统需要在高动态环境中进行毫秒级决策时,计算负载的峰值更会导致能耗剧增,这种 " 能量饥渴 " 的特性严重制约了空间智能技术在便携设备和长时间工作场景中的应用。
算法效率提升同样是突破能耗瓶颈的关键途径。
当前空间智能算法往往采用 " 尽可能多的数据,尽可能复杂的模型 " 的设计理念,这虽然有助于提高系统的感知精度,但也导致了大量冗余计算。
通过引入注意力机制和动态计算图(Dynamic Computational Graph)技术,新一代空间智能算法能够根据任务需求和环境复杂度动态调整计算资源分配。
例如,谷歌研究团队于 2023 年提出的 Adaptive Depth 模型,能够根据场景复杂度自动调整神经网络的计算深度,在保持 90% 识别精度的前提下,平均减少了 60% 的计算量。
类似地,微软亚洲研究院开发的时空注意力网络(Spatio-temporal Attention Network)通过选择性地处理场景中的关键区域和时间段,将三维场景理解任务的能耗降低了近 45%,而精度损失不到 5%。
伴随着各项技术的持续迭代与突破,空间智能正在从单纯的感知工具向认知计算平台演进。
这种转变不仅体现在功能的丰富和精度的提高,更重要的是系统理解世界和推理决策的方式正在从数据驱动的统计模型向更接近人类认知过程的结构化推理迈进。
2. 人机协同新范式
人机协同作为空间智能技术发展的核心方向之一,正在经历从简单辅助到深度融合的根本性转变。
传统的人机交互模式将人与机器视为独立的实体,人类扮演指挥者角色,机器则作为被动执行者,二者之间通过有限的接口进行信息交换。
这种模式虽然在特定任务中行之有效,但在复杂动态环境下却显得僵化且效率低下。
随着空间智能技术的快速发展,一种新型人机关系正在形成,其特征是人与机器的边界逐渐模糊,双方能力相互增强,共同构成一个功能更强大的整体系统。
这种新范式不仅改变了技术形态,更深刻地重塑了人类与技术的关系本质,开创了人机协同的全新时代。
在空间感知研究方面,学术界(而非特指 Neuralink)在解码与空间导航相关的神经活动方面取得了进展。
研究团队通过记录实验动物在空间任务中的神经活动,特别是海马区域的活动,利用机器学习算法分析这些神经信号,建立了神经活动与空间位置之间的对应关系。
这类研究目前主要在受控实验环境中进行,能够实现一定程度的空间信息解码,但整体技术仍处于实验室研究阶段,准确率和稳定性仍需进一步提高。
相关研究表明,通过适当的训练,实验动物能够学习使用脑机接口在简单虚拟环境中进行基础导航,但这种能力在环境变化时往往需要重新适应和学习。
随着技术不断成熟,人机协同将从特定领域的专业工具逐步融入日常生活,成为 " 环境智能 " 的一部分。
这种转变将使空间智能辅助变得无处不在却又不引人注意,像电力一样成为现代生活的基础设施。
未来的智能家居、工作场所和公共空间将能够理解人类需求并提供情境化支持,但是以一种不引人注意、不造成干扰的方式。
这种 " 平静技术 " 的理念可能成为未来人机协同设计的核心原则。
人机协同新范式的兴起标志着人类与技术关系的根本性转变。不同于将技术视为外部工具的传统观念,新范式将人与技术视为相互增强的伙伴关系,共同形成更强大的认知系统。
这种转变不仅提高了解决问题的效率,还开创了理解和交互世界的新方式。
随着脑机接口、增强现实和人工智能技术的持续发展,人机协同的边界将继续拓展,可能最终导致人类认知能力的革命性扩展,开创智能进化的新纪元。
* 文章为作者独立观点,不代表笔记侠立场。
好文阅读推荐:
分享、点赞、在看,3 连 3 连!
登录后才可以发布评论哦
打开小程序可以发布评论哦