驱动之家 07-01
AMD Instinct加速卡八卡1.5TB显存困扰Linux系统:无法休眠
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 7 月 1 日消息,如今的 AI 加速计算卡配备的 HBM 高带宽内存 ( 显存 ) 容量越来越大,AMD、NVIDIA 都都做到了惊人的 192GB,而且即将增加到 288GB,没想到给 Linux 造成了不小的困扰。

AMD 工程师 Sameul Zhang 在最新的 Linux 补丁中透露,如果一套系统配备多块 AMD Instinct 加速卡,超大容量显存会导致系统无法休眠。

比如某台服务器安装了八块 AMD Instinct 加速卡,单卡显存 192GB,总计达到 1.5TB,Linux 就没办法正常休眠了。

问题出自 Linux 在休眠过程中的 GPU 显存处理方式。

系统休眠时,所有的 GPU 显存都会卸载到系统内存,一般通过 GTT ( 图形转换表 ) 或者共享内存 ( shmem ) 。

然后,系统内核复制所有系统内存中的数据 ( 包括处于 evicted 状态的显存 ) ,创建一个休眠镜像,放入第二个内存区域,用于后续结束休眠的时候重新写入磁盘。

简单地说,如果有 1.5TB 显存,休眠系统镜像就会最大达到 3TB,从而超过 2TB 系统内存容量,自然无法再休眠。

当然,这个问题不止是 AMD,任何大显存的 GPU 加速卡并行都会出现。

Sameul Zhang 为此提出了自己的解决建议,主要是减少休眠时所需复制的内存容量,但这会导致休眠恢复时间过长,可能接近 1 个小时,所以又加入了一个新补丁,跳过一些步骤,从而大大缩短休眠恢复的时间。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

linux amd gpu ai 工程师
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论