AI为啥不懂物理世界？李飞飞、杨立昆：缺个「世界模型」，得学大脑新皮质工作

我们的大脑蕴藏着待解的进化密码，而 AI 的未来或许正系于此。

近来，AI 圈接连爆出惊天猛料。12 日凌晨，图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）被爆出计划离开公司，创立自己的 AI 公司，筹备以" 世界模型 "（World Models）为核心的事业，继续其长期以来研究方向。

而就在 1 天前，"AI 教母 " 李飞飞在自己的社交平台发布万字长文，直指当下大语言模型（LLM）的弊端，并提出，AI 的未来并非建立更大的语言模型，而是赋予其 " 空间智能 "（Spatial Intelligence）——这一人类与生俱来，连婴儿都具备的能力。只有这样，人类才有可能真正通往通用人工智能（AGI）。

和杨立昆一样，李飞飞也强调了建立 " 世界模型 " 的重要性。

那么，两位 AI 专家口中的 " 世界模型 " 到底是什么？它与大语言模型的区别是什么？如何才能实现 " 世界模型 " 呢？

世界模型是啥？

正如李飞飞所言，AI 已经突破了很多曾被认为不可能的局限：生成有逻辑、符合需求的文本，以及逼真的照片和视频，等等。但是，仍有太多我们需要它拥有的能力是当前 AI 望尘莫及的，比如：

AI 还不能产出完全接近现实的视频

依然没能发明出帮我们做家务、洗碗的机器人

AI 无法真正理解并创造出艺术家、建筑师大脑中的 " 虚拟世界 "

简而言之，AI 不懂物理世界，无法理解距离、大小、远近。

现在人工智能系统缺少什么，以及如何让人工智能系统展现出（或更接近）人类级智能，学界存在许多争议。有人认为，缺失的关键部分是语言和逻辑，但杨立昆（包括后来的李飞飞）则认为缺失的是一些更基础、更早进化出来的东西。用他自己的话说：

" 我们人类过于重视语言和符号作为智能的基础。灵长类动物、狗、猫、乌鸦、鹦鹉、章鱼以及许多其他动物，并没有类似人类的语言，但它们却表现出了超越我们最先进人工智能系统的智能行为。它们所具有的是学习强大‘世界模型’的能力，这些模型使它们能够预测自己行为的后果，并寻找路径和规划行动以实现目标。学习这种世界模型的能力正是当今人工智能系统所缺少的。"

由此可见，世界模型的提出起源于对当前 " 大语言模型 " 局限的反思，以及对动物智能行为和学习能力的探索，我们所追求的智能特征，都源自第一批哺乳动物微笑的大脑。

那么，研究 " 世界模型 "，就必须要回答一个关键的问题：

动物是如何感知周围、想象未知世界，并进行更高级的智能行为的呢？

动物感知世界的真实方式：识别 or 模拟？

这个问题同样困扰着一位年轻的美国 AI 企业家麦克斯 · 班尼特（Max Bennett），他在一家名为 Bluecore 的公司担任首席产品官。班尼特并非神经科学家或机器人专家，但在实际工作中，他透过人工智能系统应用于现实世界产生的种种问题，发现了人类智能与人工智能之间令人困惑的差异。于是，他花费多年时间来思考大脑的进化历程。因为他知道，理解大脑的工作方式，是创造类人人工智能的前提。

1. 人类感知的三大属性：

班尼特通过查阅文献，发现针对人类感知的科学研究自 19 世纪便已展开。至少对于人类而言，感知大部分发生在大脑新皮质。（当你观察人类大脑时，你所看到的几乎都是新皮质）科学家们对感知的研究始于利用错觉：通过操纵人们的视觉感知，科学家发现了感知的三个奇特属性，正是这些感知属性教会了我们新皮质的工作方式。

属性一：填补性

人类的大脑会自动且无意识地填补缺失的东西。

属性二：逐一性

我们经常会看到网上一些视觉错觉的的例子，比如一幅图片既可以看成是一只兔子，也可以看成是一只鸭子；一个球面图既可以是凸出来的，也可以是凹进去的。

所有这些模棱两可的图片的有趣之处在于，你的大脑一次只能看到一种解释。即使感官证据表明这既可以是鸭子也可以是兔子，你也不能同时看到鸭子和兔子。不知出于何种原因，大脑中的感知机制要求它只能选择其中一种。

属性三：无法忽视性

请看如下这幅图。如果你以前从未见过这幅图像，它看起来会毫无意义，只是一些斑点。如果我给你一个对这些斑点的合理解读，突然间，你对它的感知就会发生改变。

这幅图片可以被解读为一只青蛙，一旦大脑感知到了这种解读，你就再也无法忽视它了。你的大脑喜欢有一个能够解读感官输入的解释，一旦我给你一个合理的解释，大脑就会坚持它，你现在看到的就是一只青蛙。

19 世纪，德国物理学家和医生赫尔曼 · 冯 · 亥姆霍兹（Hermann von Helmholtz）提出了一种新颖的理论来解释感知的这些特性。他提出，人们并不是感知到经历的事物，而是感知到大脑认为存在的事物——亥姆霍兹将这一过程称为 " 推断 "（Inference）。换句话说，你并不是感知到你实际看到的事物，你感知到的是一个模拟现实，这是你从看到的事物中推断出来的。

这一观点解释了感知的三个奇特属性：

你的大脑会填补物体缺失的部分，因为它试图解读你的视觉所暗示的真相。（" 那里真的有一个球体吗？"）

你一次只能看到一件事物，因为你的大脑必须选择一个单一的现实进行模拟——实际上，这只动物不能同时是兔子和鸭子。

而一旦你发现将一张图像解释成青蛙最为合理，那么当你观察它时，你的大脑就会维持这个现实。

尽管许多心理学家在原则上同意了亥姆霍兹的理论，但直到又一个世纪之后，才有人提出亥姆霍兹的 " 推断 " 理论到底是如何起作用的。

在 20 世纪 90 年代，杰弗里 · 辛顿和他的一些学生（包括之前协助发现多巴胺反应是时序差分学习信号的彼得 · 达扬）开始着手构建一个按照亥姆霍兹提出的方式学习的人工智能系统。1995 年，辛顿和达扬为亥姆霍兹通过推断感知的想法提出了一个概念验证，他们将其命名为" 亥姆霍兹机器 "。从原则上讲，亥姆霍兹机器与其他神经网络类似，它接收从一端流向另一端的输入。但与其他神经网络不同，它还具有反向连接，这些连接从末端流向起点。

辛顿使用 0 到 9 的手写数字图像测试了这个网络。可以在网络的底部给出一张手写数字的图片（每个像素对应一个神经元），然后图片会向上流动并激活顶部的一组随机神经元。这些被激活的顶部神经元随后可以向下流动并激活底部的一组神经元，以产生自己的图片。学习的目的是使网络稳定到一个状态，即流入网络的数字在流回底部时能被准确复现。

最初，流入网络中的神经元值与流出的结果值存在很大的差异。辛顿设计了这个网络，使其可以用两种不同的模式学习：识别模式和生成模式。在识别模式下，信息从网络底部向上流动（从输入的一张 7 的图片开始，流向顶部的某些神经元），并调整反向权重，使网络顶部被激活的神经元能更好地再现输入的感觉数据（生成一个逼真的 7）。相反，在生成模式下，信息在网络中向下流动（从生成一个想象的 7 的图片的目标开始），并调整正向权重，以使网络底部被激活的神经元在顶部能被正确识别（" 我识别出我刚刚生成的图片是一个 7"）。

在整个过程中，这个网络并没有被告知正确答案。它从未被告知哪些特性构成了一个 2，甚至哪些图片是 2、7 或任何其他数字。网络唯一可以学习的数据是数字图片。当然，问题在于这是否可行。这种在识别和生成之间来回切换的方式，是否能让网络在从未被告知正确答案的情况下，既能识别手写数字，又能生成自己独特的手写数字图片呢？

令人惊讶的是，它真的自学成才了。当这两个过程来回切换时，网络神奇地稳定下来。当你给它一个数字 7 的图片时，它基本上能够在下行过程中创建出一个类似的数字 7 的图像。如果你给它一个数字 8 的图像，它也能够生成一个数字 8 的输入图像。

这可能看起来并不是那么了不起。你给网络一张数字图片，它就输出一张相同数字的图片，这有什么大不了的？这个网络有三个具有突破性的属性。首先，这个网络的顶部现在能可靠地 " 识别 " 不完美的手写字母，而无须任何监督。其次，它的泛化能力非常出色，它能将两张不同手写方式的数字图片识别为一个数字——它们会在网络的顶部激活相似的一组神经元。最后，也是最重要的一点，这个网络现在可以生成手写数字的新图片。通过操作这个网络顶部的神经元，你可以创建许多手写数字 7 或手写数字 4，或者它已学习的任何数字。这个网络通过生成自己的数据学会了识别。

亥姆霍兹机器是生成模型这一更广泛类别模型的早期概念验证。大多数现代生成模型比亥姆霍兹机器更复杂，但它们都共享一个基本属性，即通过生成自己的数据并将生成的数据与实际数据进行比较，来学习识别世界上的事物。

亥姆霍兹提出，人类的许多感知过程其实是一种推断过程，即使用生成模型将世界的内部模拟与呈现的感觉证据进行匹配的过程。现代生成模型的成功（如深度伪造、人工智能生成艺术、GPT-3 等）验证了他的想法，这些模型表明，至少在原则上，类似这样的过程是可以实现的。事实上，有大量证据表明，新皮质神经微环路正在实现这样的生成模型。

而且，作为生成模型的新皮质不仅能解释视觉错觉，还能解释人类为何会出现幻觉、做梦和睡觉，甚至能解释想象的内在运作机制。

大脑生成模型（新皮质）还能做啥？想象、预测……

哺乳动物想象力的许多特征都与我们对生成模型的预期一致。对人类来说，想象一些当前没有经历的事情是很容易的，甚至是自然的。你可以想象昨晚吃的晚餐，或者想象今天晚些时候你要做什么。当你想象某件事情时，你在做什么？这只是你的新皮质处于生成模式。你正在你的大脑新皮质中调用一个模拟现实。

1、想象力

想象力最明显的特征就是，你无法同时想象事物和识别事物。你不能一边读书，一边想象自己正在吃早餐——想象的过程与体验实际感觉数据的过程本身就是相互矛盾的。事实上，通过观察一个人的瞳孔，你可以判断他是否在想象某件事情——当人们想象事物时，他们的瞳孔会扩张，因为大脑停止了处理实际的视觉数据，人们会变得伪失明。就像生成模型一样，生成和识别不能同时进行。感知和想象亦不是两个独立的系统，而是同一枚硬币的两面。

2、预测未来

另一种思考新皮质中生成模型的方式是，它会对环境进行模拟，以便在事情发生之前进行预测。新皮质会持续地将实际的感觉数据与模拟预测的数据进行比较。这样，你就可以立即识别出周围环境中发生的任何令人惊讶的事物。当你走在大街上时，你可能并没有注意到自己脚上的感觉。但是，随着每一步移动，你的新皮质都在被动地预测它所期望的感觉结果。如果你把左脚放下却没有感觉到地面，你会立刻查看是否即将踩进一个坑里。你的新皮质正在运行一个你走路的模拟，如果模拟与感觉数据一致，你就不会注意到它，但如果它的预测出现错误，你就会注意到。

班尼特和他的《智能简史》

班尼特通过研究发现，除了模拟、想象和预测，大脑新皮质还可以让早期哺乳动物能够执行规划、情景记忆和因果推理等极高难度的智能行为，而这些能力也是我们对未来 AI 的期盼——世界模型要具备的特性。

他将以上高级智能行为的具体实现方式，连同其他有关大脑的有趣故事撰写在《智能简史：进化、AI 与大脑的未来》一书中。班尼特写这本书，是因为他想读这本书（但没找到）。在《智能简史》中，他架起神经科学与 AI 的桥梁，讲述大脑的进化史诗，并揭示这一历程如何塑造下一代 AI 革新。通过独创性框架，他将庞杂的进化史凝练为 " 五次突破 "，每次突破都标志着人脑进化的重要跃迁，并为人类智能的核心谜题注入全新解读。结合 AI 科学的前沿进展，班尼特指出了当前 AI 系统在哪些领域已比肩或超越人脑，又在何处仍显不足。

诺贝尔经济学奖得主丹尼尔 · 卡尼曼在读完此书后称：" 令人惊叹，我快速地读完了，然后又重读了很多部分。"

在不断追问大脑进化的奥秘中，班尼特对于 AI 和智能的理解愈发加深。其创立的公司 Alby 致力于帮助企业将大语言模型整合至网站，打造智能化导购与搜索体验。此前，班尼特曾是 Bluecore 联合创始人兼首席产品官。Bluecore 作为美国增长最快的科技企业之一，为全球多家顶尖公司提供 AI 技术服务。该公司屡次入选 Inc. 杂志 " 全美增长最快企业 500 强 "，近期估值已突破 10 亿美元。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签