小米语音首席科学家：AI发展的本质就像生物进化，不开源要慢1000倍

从生物进化的漫长历程到 AI 技术的疯狂迭代，两者遵循着惊人相似的底层逻辑。

在探寻下一代 AI 架构的关键时刻，著名的 "Kaldi 之父 "、小米集团首席语音科学家、IEEE Fellow Daniel Povey提出：

就像生物进化一样， AI" 配方 " 的设计本质上就是一个不断试错的过程，而进化的速度，取决于 " 复制 " 一个新想法所需的时间。

在本次量子位 MEET2026 智能未来大会上，他也将开源视为 AI 进化的核心加速器——

若没有开源，行业的进化速度恐怕要慢上一千倍；正是因为有了开源，技术才能像生物适应新环境一样，经历 " 长期停滞 + 瞬间爆发 " 的非线性跃迁。

至于如何在未来的竞争中生存，在他看来，大公司最明智的策略是 " 两条腿走路 " ——

一边利用 Transformer 赋能当下的产品，一边保留资源探索未知，赌中下一个颠覆世界的机会。

为了完整体现 Daniel Povey 的思考，在不改变原意的基础上，量子位对演讲内容进行了翻译和编辑整理，希望能给你带来更多启发。

MEET2026 智能未来大会是由量子位主办的行业峰会，近 30 位产业代表与会讨论。线下参会观众近 1500 人，线上直播观众 350 万 +，获得了主流媒体的广泛关注与报道。

核心观点梳理

AI 的演进和自然界生物的进化过程非常相似，通过尝试不同的技术变体，然后筛选出在目标任务上表现更优的方案；

类比生物进化中的 " 间断平衡 "，AI 的发展并非连续，而是 " 长期停滞 + 突然跃迁 "，停滞期也不会永远持续；

开源对进化速度至关重要，如果每家公司都闭源，那么研究速度可能会降低为原来的千分之一；

不要押注单一任务或单一路线，在进化过程中找到 AI" 通才 " 与 " 专才 " 的平衡，保留多种不同模型架构的存续，从而增加发掘实用新技术的机会；

大公司双管齐下是有意义的，一方面使用当前业界领先的技术方案，另一方面进行探索性研究，以寻找下一个重大突破。

以下为 Daniel Povey 演讲原文中译本

像生物进化一样快速试错

大家好，今天我想和大家分享一些关于 " 进化 " 和 "AI" 的思考，以及我们如何从生物演化中汲取关于 AI 未来的启示。我将主要从科研和模型本身的角度解读这个问题。

人们设计 AI" 配方 " 的过程，本质上主要还是一个不断试错的过程。

当人们有了新的理解，就会发表许多富含公式的论文，但其中 99% 的内容都没什么真正可操作的价值，最后能落地的通常只是 " 配方 " 本身。

所以设计 AI" 配方 " 的基本流程就是尝试不同变体，然后筛选出有效的进行发布，别人再照着做。

这其实和生物进化非常相似。

在生物进化中，进化过程也会和外部环境相互影响，例如地球上的进化会受到太阳辐射变化、大气成分变化的影响，而生命本身也会反过来影响这些环境因素，比如改变大气成分。

AI 的进化也是如此，可能会受到硬件、数据等资源的限制；同时，AI 也会通过商业效应、群体行为效应反作用于这些外部条件。

在历史上，生物进化甚至曾经多次 " 破坏 " 自身的生存环境，例如 " 大氧化事件 "（Great Oxygenation Event），不过最终生命又从中恢复了过来。

（注：大氧化事件是指约 26 亿年前，大气中的游离氧含量突然增加的事件，其具体原因不明。该事件使地球上矿物的成分发生了变化，也使得日后动物的出现成为了可能。）

生物学中 " 世代间隔 "（Generation time）类比到 AI，就是复制一个新想法所需的时间，通常这个时间会持续数个月。

因为当你有了新的发现，往往要先写论文，而且一般是写完才对外公开，有些期刊甚至规定发表前不能先上传 arXiv 之类的预印本。

过去这样的周期可能需要大概两年，但现在可能缩短到了六个月。

现在，有了 PyTorch 这样的工具，人们可以近乎完美地复现他人发布的 " 配方 "。

当然，有时人们可能只给出了描述（而没有代码），这会使得复现过程稍慢一些，但整体上，代际周期的长短决定了进化的快慢。

就像世代间隔漫长的大型生物，往往进化缓慢；而那些能够快速繁衍的小型生物，进化速度则要快得多。

去不同领域寻找 AI 突破口

在自然界的进化中，往往存在一种 " 停停走走 " 的节奏，很长一段时间里几乎没有什么动静，随后突然发生剧变。

对于自然界的物种来说，这种变化通常是由迁移到新环境所导致的；但偶尔，它也源于生命 " 解锁 " 了某种新事物，比如光合作用演化出来时，整个进化的节奏便迅速发生了改变。

我从事 AI 领域大概有 30 年了，特别是在语音领域，也经历过长时间没有太大进展的阶段，当时我们甚至以为 " 这就是终点 "。

当年我们做高斯混合模型、判别式训练时，以为语音识别的最终形态就是那样了，没人能想象未来的改变。所以也许十年后，也会出现今天谁都无法想象的全新模型。

AI 的发展中，不同任务之间的相互作用非常重要，比如视觉领域的新方法，后来可能会用于语音、语言等任务。

最近一个典型例子就是 Transformers，它最初是专门为语言模型设计的，后来却在各种任务中大放异彩。

在进化中也是如此，海豚绝无可能仅在海洋里就进化成型，因为它那些呼吸空气的机能，原本是为了适应陆地生活才演化出来的。但当它重返海洋后，却成了最成功的顶级捕食者。

这说明，有时候你确实需要暂时去做一些截然不同的事情，最终才能在原本的目标上取得成功。

如果不开源，AI 得慢上一千倍

当然，拿生物进化做类比也有局限性。毕竟我们可以主动去理解事物，可以利用数学推导，或者改进可视化和调试工具，从而加速技术的发展。

此外，提速也非常关键。实验跑得越快，进化的迭代就越快，这对研究价值巨大。

而在这一点上，开源起到了至关重要的作用。

如果每家公司都得自己从头重复造轮子，研究速度恐怕要慢上一千倍。

我们可以设想一个平行世界，如果大公司决定不开源 PyTorch，我也没有开源 Kaldi 项目，那 AI 研发的局面会很不相同。

不过，不开源在某些行业确实是常态，尤其是涉及实体工程的领域，因为开发一款工具往往极其昂贵，可能要砸出数百万美元，所以没人会把他们的模型开源出来。

其实，2012 年我之所以离开工业界，就是因为这个问题。当时的大公司普遍对开源都不怎么感冒，所以我转去学术界待了一段时间。

但如今很多公司都开始拥抱开源了，像小米就非常支持我的工作，也支持开源，所以我又回到了工业界。

寻找 Transformer 之后的下一个颠覆者

回到关于进化的比喻，我刚才吐槽过论文中的那些数学理论往往不够具体，没法落地。那么，我们到底能从中能学到什么实实在在的东西呢？

有一点很关键，那就是我们需要在各种不同的任务上不断探索新思路。

因为在进化这件事上，很难预判哪种生物最终会胜出。就像啮齿类动物，起初可能只是为了吃竹子种子这种极具体的目的而进化的。

但结果谁曾想，这反而让它们演化出了一种极强的 " 通才 " 式生存能力，最终遍布全球、无所不能。

可在当时，谁能想到吃竹子种子这事儿能带来这么大的突破呢？这种事真的太难预测了。

所以说，关键就在于要多尝试不同的任务，因为我们为了突破某个任务特有限制研发出的解决方案，可能最后会被证明具有极高的通用价值。

我们需要关注进化过程中 " 通才 " 与 " 专才 " 之间的权衡，我并非要分出孰优孰劣，但是从长远来看，不同的进化策略能够适应不同的环境——

如果环境长期稳定，自然界往往会涌现出大量像熊猫这样的 " 专才 "，它们虽然只吃一种食物，却能做到极致适应；

可一旦环境变得动荡多变，像老鼠这种适应力极强的 " 通才 " 往往更具生存优势。

所以，这两种生存策略很可能是缺一不可的。

对于 AI 而言，我们应该让模型在多个不同的生态位里同时演进，这就像自然界在不同环境中进行的进化一样。毕竟，每个物种通常都有其最适应的特定生存空间。

如果我们能同时保留多种不同的技术路线，说不定其中某一条在经过进一步打磨后，就能带来巨大的回报。但这事儿很难提前预判，没人知道眼下哪个模型会在未来称王。

出于同样的理由，我们也应该维持模型架构的多样性。这就像大自然保留了丰富多样的物种一样，因为我们根本无法确定，到底哪一种架构会孕育出下一轮的重大突破。

在我看来，大多数大型机构采取两头并重的策略是比较明智的——既要沿用像 Transformer 等当前最顶尖的成熟模型，同时也得投入一些资源去做探索性研究，去寻找下一个技术突破口。

在我看来，Transformer 这种技术领域的竞争现状，就像是 " 抢椅子 " ——只要音乐还在响，你就得跟着一直跳。

毕竟在 Transformer 和 LLM 依然称霸的当下，任何一家公司都绝无可能把身家性命都押在别的路线上。

但大家心里也都清楚，音乐迟早有停下来的那一天。

所以，小米在 LLM 上的研究主线很明确，那就是利用 SOTA 级别的 AI 和大模型技术，去全方位赋能我们的 " 人车家全生态 "。

我个人其实并没有深度参与这些工作，因为我和团队主要负责的是探索性研究。我们尝试了大量不同的方向，就是希望能找到能产生巨大影响的成果，但这事的成功率向来极低。

回首我的整个研究生涯，尝试过的点子恐怕得有上万个。现在回头看，其中有一两个如果当时我能推广得再好一点，说不定真能成为颠覆性的技术。

比如，早在大家连 BatchNorm 都还没开始用的时候，我们组其实就已经设计出了一种类似于 LayerNorm 的归一化模块。

但我也不想像 J ü rgen Schmidhuber 那样说 " 我在所有人之前发明了一切 "。

（注：Jurgen Schmidhuber 是著名计算机科学家、LSTM 之父，喜欢在 AI 领域出现新成果时发表文章或评论，列举自己上世纪的论文，表示 " 这个东西我几十年前就发明过了 "。）

因为作为一名研究人员，有责任去判断哪些是有价值的想法，并对其进行妥善推广。如果你没做到，那就得承认是自己的失误。

言归正传，我的团队目前正在研发一种针对语音的新模型架构，叫Zapformer，是一个通用声音基座。

相较于我们去年推出的 Zipformer 而言，Zapformer 实现了三大跨越：

从 " 人声 " 到 " 万声 " 的跨越：从专注于人声建模，到成为能同时理解人声、环境音等多元信息的通用声音基座；

从优化结构到创新理论的跨越：通过引入梯度流（Gradient Flow）理论指导模型设计，在已属业界标杆的 Zipformer 基础上，将语音识别精度再次显著提升 10%-15%；

从专用优化到通用健壮的跨越：为适应海量数据训练移除了 Dropout 层，增强了大数据拟合能力，同时将优化器升级为 TransformAdam，在保持极速收敛的同时，大幅提升了训练的通用性与稳定性。

我不想把话说太满，说它就是 " 下一个大热门 "，但它确实包含了不少有意思的想法。

当然，我们希望能押中下一个 " 大杀器 "，但这事儿谁也没法打包票。

所有这些成果全都是开源的，因为我是开源的坚定信徒。除了我的项目，小米还有很多其他的开源项目。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签