每日经济新闻 08-27
从芯片盛会Hot Chips看AI基建:算力狂飙电力承压,英伟达、英特尔争相推出节能方案
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当地时间 8 月 26 日,OpenAI 硬件设施负责人 Trevor Cai 在 Hot Chips 2024 上发表了长达一小时的演讲,主题为 " 构建可扩展的 AI 基础设施 "。他指出,OpenAI 的一项重要观察结果是,扩大规模可以产生更好、更有用的人工智能(AI ) 。

作为全球芯片行业影响力最大的会议,Hot Chips 于每年八月份在斯坦福大学举行。不同于其他行业会议以学术研究为主,Hot Chips 是一场产业界的盛会,各大处理器公司会在每年的会上展现他们最新的产品以及在研的产品。

《每日经济新闻》记者注意到,AI 浪潮推动数据中心激增,同时也伴随着能源需求的激增。在这样的背景下,此次的 Hot Chips 大会上,围绕人工智能的议题比以往任何一届都更加活跃。Trevor Cai 的演讲着眼于解决能源和算力之间的问题,英特尔、IBM 和英伟达等则是提出了更节能的技术方案。

摩根士丹利在 8 月份发布的研究预测称,生成式 AI 的电力需求将在未来几年内每年飙升 75%,预计到 2026 年,其消耗的能源量将与西班牙在 2022 年的消耗量相当。科技巨头们该如何应对能源挑战?

英伟达公布 Blackwell 更多细节,英特尔们聚焦 " 节能方案 "

当地时间 8 月 26 日,一年一度的半导体企业盛会 Hot Chips 2024 在斯坦福大学纪念礼堂举行,今年是第 36 届。

从会议第一天的情况来看,大部分的话题都集中在了更节能、安全且可扩展的大规模 AI 服务器部署方案上。

OpenAI 硬件负责人 Trevor Cai 发表了 " 可预测的扩展和基础设施 " 主题演讲,谈到了提升计算能力所带来的可预测的扩展效益,这也是 OpenAI 自成立之初就关注的重点。一个重要的观察结果是,扩大规模可以产生更好、更有用的人工智能。" 每次计算量翻倍,它都会得到更好的结果。模型的能力和计算资源的消耗是呈指数级别的上升的。自 2018 年以来,行业中前沿模型的计算量每年增长约 4 倍。" 他说道。

行业计算趋势 图片来源:OpenAI Hot Chips 演讲 PDF

最初,GPT-1 只需几周的时间完成训练。如今,它已经扩展到需要庞大的 GPU 集群。因此,OpenAI 认为 AI 的基础建设需要大量投资,因为计算能力的提升已经产生了超过 8 个数量级的效益。

似乎是为了呼应 OpenAI 的演讲,各大公司今天各自演讲也不约而同地提到了大规模部署 AI 服务器的计划方案。

IBM 在大会上披露了即将推出的 IBM Telum II 处理器和 IBM Spyre 加速器的架构细节。新技术旨在显著扩展下一代 IBM Z 大型机系统的处理能力,通过一种新的 AI 集成方法帮助加速传统 AI 模型和大型语言 AI 模型的协同使用。IBM 特别强调这次更新的先进 I/O 技术旨在降低能耗和数据中心占用空间。

英伟达也在大会上放出了最新的 AI 集群架构 Blackwell 的相关消息。英伟达称,Blackwell 拥有 6 项革命性技术,可支持多达 10 万亿参数的模型进行 AI 训练和实时大语言模型(LLM)推理。值得注意的是,英伟达的 Quasar 量化系统用于确定可以使用较低精度的内容,从而减少计算和存储。英伟达表示他们的宗旨就是在提高能源效率的同时为 AI 和加速计算性能提供新标准。

除此之外,英特尔、博通、海力士等公司的演讲中均提到了更节能的技术方案。

算力狂飙电力承压,科技巨头如何应对能源挑战?

科技巨头们着眼 " 更节能的 " 技术方案的根本原因在于,当前人工智能热潮正在增加更强大的处理器以及保持数据中心冷却所需的能源需求。

当前,微软、Alphabet 和 Meta 等大型科技公司正在投资数十亿美元建设数据中心基础设施,以支持生成式人工智能,但数据中心的激增也伴随着能源需求的激增。

据彭博社报道,仅去年,大型科技公司就向数据中心设施投入了约 1050 亿美元。谷歌、苹果和特斯拉等公司不断通过新产品和服务增强 AI 能力。每项 AI 任务都需要巨大的计算能力,这意味着数据中心会消耗大量电力。国际能源署 ( IEA ) 预测,到 2026 年,全球数据中心每年使用的能源量将相当于日本的电力消耗量。

Hugging Face 的人工智能和气候负责人 Sasha Luccioni 提到,虽然训练 AI 模型需要耗费大量能源(例如,训练 GPT-3 模型耗费了大约 1300 兆瓦时的电力,而 GPT-4 的训练消耗是 GPT3 的 50 倍),但通常只进行一次。然而,由于查询量巨大,模型生成响应可能需要更多能源。

例如,当用户向 ChatGPT 等 AI 模型提问时,需要向数据中心发送请求,然后强大的处理器会生成响应。这个过程虽然很快,但消耗的能量也是巨大的。根据艾伦人工智能研究所的数据,对 ChatGPT 进行一次查询所消耗的电量相当于为灯泡点亮 20 分钟——是简单 Google 搜索耗电量的 10 倍以上。

然而,全球的电力资源有限,而数据中心需要持续稳定的电力供应来运行服务器和其他核心运营设备。如果能源供应不稳定,停机可能会给企业和其他用户造成重大经济损失。此外,巨大的能源消耗也引发了人们对环境的担忧。

太阳能能源需求历史数据与预测对比 图片来源 OpenAI Hot Chips 演讲 PDF

为应对这一挑战,科技公司们开始寻找解决方案。

部分公司选择更清洁且高效的能源供给,如核能。亚马逊最近在宾夕法尼亚州东北部购买了一个价值 6.5 亿美元的核能数据中心园区设施,该设施将使用核反应堆产生的高达 40% 的电力,最终使亚马逊能够减少对当地电网的依赖。与此同时,微软聘请了核专家来带头寻找这种替代电源。微软还与核电站运营商签订了合同协议,为其位于弗吉尼亚州的一个数据中心提供电力。

除此之外,科技公司们不仅在前文所提到的一系列芯片节能技术进行努力,也在其他硬件设施和技术上下足了功夫。

谷歌正在开发人工智能专用芯片,例如张量处理单元 ( TPU ) ,这些芯片针对人工智能任务进行了优化,而不是使用为游戏技术创建的图形处理单元 ( GPU ) 。

英伟达针对 Blackwell 芯片的直接液体冷却系统还宣布了一项研究,研究表明了如何重新利用从服务器中吸收的热量并将其回收到数据中心。据英伟达估计,冷却最多可减少数据中心设施耗电量 28%。

然而,威斯康星大学麦迪逊分校的教授辛克莱提醒,杰文斯悖论在这里依然适用,即资源效率的提高往往会增加其总体利用率,而不是减少。" 提高人工智能的效率,虽然减少了单次能耗,但整体使用率的增加最终会导致总体能耗的上升," 辛克莱解释道。这个悖论不仅适用于 19 世纪的火车煤炭使用,同样适用于当今的人工智能和电力消耗。

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

英伟达 英特尔 人工智能 芯片 斯坦福大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论