来源 | 工业互联网研习社 管理智慧 AI+
咨询合作 | 13699120588
文章仅代表作者本人观点
刚刚,斯坦福大学正式发布了《2025 AI Index》报告。
在过去的一段时间里,人工智能领域经历了一场蓬勃的发展,但与此同时,也有人说「人工智能是一个泡沫」。其他的讨论话题包括但不限于:人工智能的现有技术和架构将不断取得突破;人工智能走在一条不可持续的道路上;人工智能将取代你的工作;人工智能最擅长的就是把你的家庭照片变成吉卜力工作室风格的动画图像……
每一年的斯坦福 AI Index 报告都会对领域的发展进行系统的梳理,今年也是如此。《2025 AI Index》报告总共 400 多页,涵盖了研发、技术性能、负责任的人工智能、经济影响、科学和医学、政策、教育和公众舆论等主题的图表和数据。
全文报告地址:https://hai.stanford.edu/ai-index/2025-ai-index-report
除了谷歌、OpenAI 之外,中国公司 DeepSeek 也成为报告关注的焦点,在 PDF 全文中被提到了 45 次。
关于今年 AI Index 报告的核心内容,我们通过 12 张图片来了解:
虽然衡量国家在人工智能竞赛中「领先」的方式多种多样(如期刊文章发表或引用数量、专利授权等),但一个直观的评估指标是观察哪些国家发布了具有影响力的模型。研究机构 Epoch AI 拥有一个从 1950 年至今的重要人工智能模型数据库,AI Index 从中提取了相关数据进行分析。
数据显示,去年美国发布了 40 个知名模型,中国发布了 15 个,欧洲仅有 3 个(均来自法国)。另有数据表明,2024 年发布的这些模型几乎全部来自产业界,而非学术界或政府部门。关于 2023 年至 2024 年知名模型发布数量减少的现象,AI Index 认为可能是由于技术复杂度提高和训练成本持续攀升所致。
在这方面,AI Index 缺乏精确数据,因为许多领先的人工智能公司已停止公开其训练过程信息。斯坦福研究人员与 Epoch AI 合作,基于训练时长、硬件类型和数量等详细信息,估算了部分模型的成本。在可评估的模型中,最昂贵的是谷歌的 Gemini 1.0 Ultra,训练成本约达 1.92 亿美元。训练成本的全面上涨与报告中的其他发现相符:模型在参数数量、训练时间和训练数据量等方面持续规模化扩张。
值得注意的是,DeepSeek 并未包含在这一分析中。这家公司在 2025 年 1 月声称仅用 600 万美元训练出了 DeepSeek-R1,引发金融市场震动,虽然部分行业专家对此说法持怀疑态度。
AI Index 指导委员会联合主任 Yolanda Gil 在接受 IEEE Spectrum 采访时表示,她认为 DeepSeek「非常令人印象深刻」,并指出计算机科学历史上充满了早期低效技术被更优雅解决方案取代的案例。她补充道:「我不是唯一一个相信某个时点会出现更高效版本大语言模型的人。我们只是不知道谁会构建它以及如何构建。」
使用人工智能的成本正在下降
尽管大多数 AI 模型的训练成本持续攀升,但报告中强调了几个积极趋势:硬件成本降低、硬件性能提升及能源效率提高。
这使得推理成本(即查询已训练模型的费用)正在急剧下降。这张使用对数比例的图表展示了 AI 性能每美元的发展趋势。报告指出,蓝线表明每百万 tokens 的成本从 20 美元降至 0.07 美元;粉线则显示在不到一年时间内,成本从 15 美元降至 0.12 美元。
人工智能的显著碳足迹
虽然能源效率提高是一个积极的趋势,但存在一个不容忽视的问题:尽管效率有所提升,整体能耗仍在增长,这意味着处于人工智能热潮中心的数据中心留下了巨大的碳足迹。AI Index 基于训练硬件、云服务提供商和地理位置等因素,估算了特定 AI 模型的碳排放,发现前沿人工智能模型的训练碳排放量呈稳步增长趋势 —— 其中 DeepSeek 模型是个例外。
数据显示,最大的排放源是 Meta 的 Llama 3.1 模型,估计产生了 8930 吨二氧化碳排放,相当于约 496 个美国人一年的生活碳排放量。这一显著的环境影响解释了为何人工智能公司正积极采用核能作为可靠的零碳能源来源。
人工智能模型性能差距持续缩小
美国在已发布的知名模型数量上仍然保持领先地位,但中国模型在质量方面正在迅速赶上。数据显示,在聊天机器人基准测试上的性能差距正在不断缩小。2024 年 1 月,顶尖美国模型的表现比最优中国模型高出 9.26%;到 2025 年 2 月,这一差距已缩小至仅 1.70%。报告在推理、数学和编程等其他基准测试中也发现了类似趋势。
人类最后的考试
今年的报告指出了一个不可忽视的事实:用于评估人工智能系统能力的众多基准测试已经「饱和」—— 人工智能系统在这些测试上获得的分数如此之高,以至于它们不再具有区分价值。这种现象已在多个领域出现:通用知识、图像推理、数学、编程等。
Gil 表示,她惊讶地目睹一个又一个基准测试逐渐失去参考意义。她指出:「我一直认为性能会趋于平稳,会达到一个需要新技术或根本不同架构才能继续取得进展的临界点。但事实并非如此。」
面对这种局面,执着的研究人员不断设计新的基准测试,以期挑战人工智能系统。其中一项是「人类的最后考试」,它由来自全球 500 个机构的专业领域专家贡献的极具挑战性问题组成。到目前为止,即使对最顶尖的人工智能系统而言,这项测试仍然难以攻克:OpenAI 的推理模型 o1 目前以 8.8% 的正确答案率位居榜首。业界正密切关注这种局面能持续多久。
企业资金持续涌入人工智能领域
过去五年,企业界已为人工智能投资敞开了资金闸门。虽然 2024 年的全球总体投资未能达到 2021 年的疯狂高峰,但值得注意的是,私人投资规模达到了前所未有的水平。在 2024 年 1500 亿美元的私人投资中,相关指数的另一项数据表明,约 330 亿美元流向了生成式 AI 领域。
企业等待人工智能投资的巨大回报
理论上,企业投资人工智能是因为期望获得可观的投资回报。在这个话题上,人们常以激昂语气讨论人工智能的变革性本质和前所未有的生产力提升。然而,企业尚未见到能带来显著成本节省或实质性新收益的转变。
麦肯锡调查数据显示,在报告成本降低的企业中,大多数节省幅度不足 10%;在因人工智能获得收入增长的企业中,大多数报告的增长幅度不到 5%。巨大的回报可能仍在路上,从投资数据来看,众多企业正在押注于此,但目前尚未实现。
登录后才可以发布评论哦
打开小程序可以发布评论哦