从生物进化的漫长历程到 AI 技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。
在探寻下一代 AI 架构的关键时刻,著名的 "Kaldi 之父 "、小米集团首席语音科学家、IEEE Fellow Daniel Povey提出:
就像生物进化一样, AI" 配方 " 的设计本质上就是一个不断试错的过程,而进化的速度,取决于 " 复制 " 一个新想法所需的时间。
在本次量子位 MEET2026 智能未来大会上,他也将开源视为 AI 进化的核心加速器——
若没有开源,行业的进化速度恐怕要慢上一千倍;正是因为有了开源,技术才能像生物适应新环境一样,经历 " 长期停滞 + 瞬间爆发 " 的非线性跃迁。

至于如何在未来的竞争中生存,在他看来,大公司最明智的策略是 " 两条腿走路 " ——
一边利用 Transformer 赋能当下的产品,一边保留资源探索未知,赌中下一个颠覆世界的机会。
为了完整体现 Daniel Povey 的思考,在不改变原意的基础上,量子位对演讲内容进行了翻译和编辑整理,希望能给你带来更多启发。
MEET2026 智能未来大会是由量子位主办的行业峰会,近 30 位产业代表与会讨论。线下参会观众近 1500 人,线上直播观众 350 万 +,获得了主流媒体的广泛关注与报道。
核心观点梳理
AI 的演进和自然界生物的进化过程非常相似,通过尝试不同的技术变体,然后筛选出在目标任务上表现更优的方案;
类比生物进化中的 " 间断平衡 ",AI 的发展并非连续,而是 " 长期停滞 + 突然跃迁 ",停滞期也不会永远持续;
开源对进化速度至关重要,如果每家公司都闭源,那么研究速度可能会降低为原来的千分之一;
不要押注单一任务或单一路线,在进化过程中找到 AI" 通才 " 与 " 专才 " 的平衡,保留多种不同模型架构的存续,从而增加发掘实用新技术的机会;
大公司双管齐下是有意义的,一方面使用当前业界领先的技术方案,另一方面进行探索性研究,以寻找下一个重大突破。

以下为 Daniel Povey 演讲原文中译本
像生物进化一样快速试错
大家好,今天我想和大家分享一些关于 " 进化 " 和 "AI" 的思考,以及我们如何从生物演化中汲取关于 AI 未来的启示。我将主要从科研和模型本身的角度解读这个问题。
人们设计 AI" 配方 " 的过程,本质上主要还是一个不断试错的过程。
当人们有了新的理解,就会发表许多富含公式的论文,但其中 99% 的内容都没什么真正可操作的价值,最后能落地的通常只是 " 配方 " 本身。
所以设计 AI" 配方 " 的基本流程就是尝试不同变体,然后筛选出有效的进行发布,别人再照着做。

这其实和生物进化非常相似。
在生物进化中,进化过程也会和外部环境相互影响,例如地球上的进化会受到太阳辐射变化、大气成分变化的影响,而生命本身也会反过来影响这些环境因素,比如改变大气成分。
AI 的进化也是如此,可能会受到硬件、数据等资源的限制;同时,AI 也会通过商业效应、群体行为效应反作用于这些外部条件。
在历史上,生物进化甚至曾经多次 " 破坏 " 自身的生存环境,例如 " 大氧化事件 "(Great Oxygenation Event),不过最终生命又从中恢复了过来。
(注:大氧化事件是指约 26 亿年前,大气中的游离氧含量突然增加的事件,其具体原因不明。该事件使地球上矿物的成分发生了变化,也使得日后动物的出现成为了可能。)

生物学中 " 世代间隔 "(Generation time)类比到 AI,就是复制一个新想法所需的时间,通常这个时间会持续数个月。
因为当你有了新的发现,往往要先写论文,而且一般是写完才对外公开,有些期刊甚至规定发表前不能先上传 arXiv 之类的预印本。
过去这样的周期可能需要大概两年,但现在可能缩短到了六个月。
现在,有了 PyTorch 这样的工具,人们可以近乎完美地复现他人发布的 " 配方 "。
当然,有时人们可能只给出了描述(而没有代码),这会使得复现过程稍慢一些,但整体上,代际周期的长短决定了进化的快慢。
就像世代间隔漫长的大型生物,往往进化缓慢;而那些能够快速繁衍的小型生物,进化速度则要快得多。

去不同领域寻找 AI 突破口
在自然界的进化中,往往存在一种 " 停停走走 " 的节奏,很长一段时间里几乎没有什么动静,随后突然发生剧变。
对于自然界的物种来说,这种变化通常是由迁移到新环境所导致的;但偶尔,它也源于生命 " 解锁 " 了某种新事物,比如光合作用演化出来时,整个进化的节奏便迅速发生了改变。
我从事 AI 领域大概有 30 年了,特别是在语音领域,也经历过长时间没有太大进展的阶段,当时我们甚至以为 " 这就是终点 "。
当年我们做高斯混合模型、判别式训练时,以为语音识别的最终形态就是那样了,没人能想象未来的改变。所以也许十年后,也会出现今天谁都无法想象的全新模型。
AI 的发展中,不同任务之间的相互作用非常重要,比如视觉领域的新方法,后来可能会用于语音、语言等任务。

最近一个典型例子就是 Transformers,它最初是专门为语言模型设计的,后来却在各种任务中大放异彩。
在进化中也是如此,海豚绝无可能仅在海洋里就进化成型,因为它那些呼吸空气的机能,原本是为了适应陆地生活才演化出来的。但当它重返海洋后,却成了最成功的顶级捕食者。
这说明,有时候你确实需要暂时去做一些截然不同的事情,最终才能在原本的目标上取得成功。
如果不开源,AI 得慢上一千倍
当然,拿生物进化做类比也有局限性。毕竟我们可以主动去理解事物,可以利用数学推导,或者改进可视化和调试工具,从而加速技术的发展。

此外,提速也非常关键。实验跑得越快,进化的迭代就越快,这对研究价值巨大。
而在这一点上,开源起到了至关重要的作用。
如果每家公司都得自己从头重复造轮子,研究速度恐怕要慢上一千倍。
我们可以设想一个平行世界,如果大公司决定不开源 PyTorch,我也没有开源 Kaldi 项目,那 AI 研发的局面会很不相同。
不过,不开源在某些行业确实是常态,尤其是涉及实体工程的领域,因为开发一款工具往往极其昂贵,可能要砸出数百万美元,所以没人会把他们的模型开源出来。
其实,2012 年我之所以离开工业界,就是因为这个问题。当时的大公司普遍对开源都不怎么感冒,所以我转去学术界待了一段时间。
但如今很多公司都开始拥抱开源了,像小米就非常支持我的工作,也支持开源,所以我又回到了工业界。
寻找 Transformer 之后的下一个颠覆者
回到关于进化的比喻,我刚才吐槽过论文中的那些数学理论往往不够具体,没法落地。那么,我们到底能从中能学到什么实实在在的东西呢?
有一点很关键,那就是我们需要在各种不同的任务上不断探索新思路。
因为在进化这件事上,很难预判哪种生物最终会胜出。就像啮齿类动物,起初可能只是为了吃竹子种子这种极具体的目的而进化的。
但结果谁曾想,这反而让它们演化出了一种极强的 " 通才 " 式生存能力,最终遍布全球、无所不能。
可在当时,谁能想到吃竹子种子这事儿能带来这么大的突破呢?这种事真的太难预测了。
所以说,关键就在于要多尝试不同的任务,因为我们为了突破某个任务特有限制研发出的解决方案,可能最后会被证明具有极高的通用价值。

我们需要关注进化过程中 " 通才 " 与 " 专才 " 之间的权衡,我并非要分出孰优孰劣,但是从长远来看,不同的进化策略能够适应不同的环境——
如果环境长期稳定,自然界往往会涌现出大量像熊猫这样的 " 专才 ",它们虽然只吃一种食物,却能做到极致适应;
可一旦环境变得动荡多变,像老鼠这种适应力极强的 " 通才 " 往往更具生存优势。
所以,这两种生存策略很可能是缺一不可的。
对于 AI 而言,我们应该让模型在多个不同的生态位里同时演进,这就像自然界在不同环境中进行的进化一样。毕竟,每个物种通常都有其最适应的特定生存空间。
如果我们能同时保留多种不同的技术路线,说不定其中某一条在经过进一步打磨后,就能带来巨大的回报。但这事儿很难提前预判,没人知道眼下哪个模型会在未来称王。
出于同样的理由,我们也应该维持模型架构的多样性。这就像大自然保留了丰富多样的物种一样,因为我们根本无法确定,到底哪一种架构会孕育出下一轮的重大突破。
在我看来,大多数大型机构采取两头并重的策略是比较明智的——既要沿用像 Transformer 等当前最顶尖的成熟模型,同时也得投入一些资源去做探索性研究,去寻找下一个技术突破口。
在我看来,Transformer 这种技术领域的竞争现状,就像是 " 抢椅子 " ——只要音乐还在响,你就得跟着一直跳。
毕竟在 Transformer 和 LLM 依然称霸的当下,任何一家公司都绝无可能把身家性命都押在别的路线上。
但大家心里也都清楚,音乐迟早有停下来的那一天。
所以,小米在 LLM 上的研究主线很明确,那就是利用 SOTA 级别的 AI 和大模型技术,去全方位赋能我们的 " 人车家全生态 "。
我个人其实并没有深度参与这些工作,因为我和团队主要负责的是探索性研究。我们尝试了大量不同的方向,就是希望能找到能产生巨大影响的成果,但这事的成功率向来极低。
回首我的整个研究生涯,尝试过的点子恐怕得有上万个。现在回头看,其中有一两个如果当时我能推广得再好一点,说不定真能成为颠覆性的技术。
比如,早在大家连 BatchNorm 都还没开始用的时候,我们组其实就已经设计出了一种类似于 LayerNorm 的归一化模块。
但我也不想像 J ü rgen Schmidhuber 那样说 " 我在所有人之前发明了一切 "。
(注:Jurgen Schmidhuber 是著名计算机科学家、LSTM 之父,喜欢在 AI 领域出现新成果时发表文章或评论,列举自己上世纪的论文,表示 " 这个东西我几十年前就发明过了 "。)
因为作为一名研究人员,有责任去判断哪些是有价值的想法,并对其进行妥善推广。如果你没做到,那就得承认是自己的失误。
言归正传,我的团队目前正在研发一种针对语音的新模型架构,叫Zapformer,是一个通用声音基座。
相较于我们去年推出的 Zipformer 而言,Zapformer 实现了三大跨越:
从 " 人声 " 到 " 万声 " 的跨越:从专注于人声建模,到成为能同时理解人声、环境音等多元信息的通用声音基座;
从优化结构到创新理论的跨越:通过引入梯度流(Gradient Flow)理论指导模型设计,在已属业界标杆的 Zipformer 基础上,将语音识别精度再次显著提升 10%-15%;
从专用优化到通用健壮的跨越:为适应海量数据训练移除了 Dropout 层,增强了大数据拟合能力,同时将优化器升级为 TransformAdam,在保持极速收敛的同时,大幅提升了训练的通用性与稳定性。
我不想把话说太满,说它就是 " 下一个大热门 ",但它确实包含了不少有意思的想法。
当然,我们希望能押中下一个 " 大杀器 ",但这事儿谁也没法打包票。
所有这些成果全都是开源的,因为我是开源的坚定信徒。除了我的项目,小米还有很多其他的开源项目。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦