雷科技 3小时前
英伟达又来掀桌了,CUDA Tile将再度改写AI格局?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

雷科技 AI 硬件组 |   编辑:TSkinght |   监制:罗超

在 AI 大模型轮番刷屏的这两年里,人们每次提到算力,都会首先想到英伟达显卡,但是很多人却不知道,想把英伟达的显卡算力变成生产力,可不仅仅是把显卡插进主板然后启动那么简单。而是需要为其准备一整套适配的软件、算法,才能真正发挥出显卡的性能,让它帮你完成工作。

而 CUDA 就是英伟达为此准备的一套软件生态,可以说是英伟达真正的护城河。前段时间,CUDA 迎来了 13.1 版本更新,该版本也被英伟达称为自 2006 年 CUDA 发布以来最大规模的一次功能拓展。

图源:英伟达

在此次更新中,英伟达推出了全新的 CUDA Tile 编程模型,并且提供了一整套的配套工具、文档和调度特性。而在 CUDA Tile 更新后,不少著名半导体及 AI 从业者都表态点赞,认为将改变整个行业,估计有不少朋友就好奇了:一个编程模型的更新,为什么会影响整个 AI 行业?

CUDA Tile 登场,

" 模块化 " 时代来了

如果只看 " 版本号 +0.1",很容易误以为 CUDA 13.1 只是例行升级,但翻完官方文档和版本说明后,小雷发现这次更新,几乎是 " 从编程模型到资源管理再到工具链 " 的全链路升级。

先来说说此次更新的核心 CUDA Tile,到底带来了什么改变?简单来说,以前使用 CUDA 时,要自己管理 threadIdx、blockIdx 等核心变量,而且还要手动分配内存使用参数,然后再按 SIMT 模型进行展开,做针对性的编程。

而 CUDA Tile 则是直接在算法层面把数据切成单独的 Tile(矩阵块),开发者只需要针对矩阵块的用途进行编程即可,至于后续矩阵块如何运转、是否需要调用 Tensor Core、TMA 等专用计算单元,就不需要开发者再去操心,由编译器和运行时系统在执行阶段自行决定。

为了支撑这个新模型,英伟达在 CUDA 13.1 里引入了一个新的虚拟指令集 CUDA Tile IR,并在上层给出了 cuTile Python 这个 DSL。得益于这两个新的开发工具,开发者可以直接用熟悉的 Python 写 tile kernel(矩阵块内核),再由 Tile IR 负责落到底层硬件。

其实类似的做法在计算行业里并不少见,华为的昇腾 AI 处理器开发中,"Tiling"(图块化编程)也是关键步骤,用于将算子的输入数据分块,以适应 NPU 有限的片上内存,阿里的 ATB 框架同样采用了算子 Tiling 技术来优化深度学习计算,可以说核心思路都是为了降低开发及运行的成本,并提高效率。

除了 Tile,CUDA 13.1 还优化了不少基础功能模块,比如新的 Green Contexts 让 GPU 的 SM(核心计算单元)按实际运行指令进行资源分割,让 GPU 可以优先满足低时延任务的资源需求,进一步强化云服务器对在线服务等方面的支持。

此外,Multi-Process Service 也得到了针对性的增强,引入了 MLOPart 分区和静态 SM 分区模式,让多进程共享 GPU 资源时能够得到更准确的资源划分,对 AI 大模型这类混合负载为主的计算需求非常关键。

同时,英伟达还对数学库和工具链做了全面升级,cuBLAS 现在可以提供了基于 Tensor Core 的 FP32/FP64 仿真 GEMM(用 FP16/INT8 等低精度计算拼凑出高精度结果),在 Blackwell 这类 GPU 上提供加速双精度矩阵运算支持,让主流的 Transformer、MoE 等 AI 模型可以进一步压榨 GPU 性能

可以说,CUDA 13.1 几乎从头到尾都做了更新和升级,以至于很多开发者都用:" 一个新时代的到来 " 去形容此次更新。在这次版本更新后,手写线程索引的时代算是结束了,甚至有人认为这次更新的意义不亚于从汇编到 Python,因为它将 CUDA 开发的门槛明显拉低。

大家可以这么理解,以前编写 CUDA 的库和工具等玩意时,等于要开发者从一根线缆开始把一台汽车组装起来,虽然零件都是现成的,但是如果在拼装过程中出现了一些小 BUG,你就得在一箩筐的零件里找出有问题的,然后再替换,费时费力不说还对开发者的知识储备有极高的要求。

而在 CUDA 13.1 之后,等于把汽车拆解成引擎、座椅、传动结构、轮胎等完整的子系统,你只需要决定这些系统的各自参数和功能,然后把它们拼在一起,就可以变成一个完整的程序运行。

对于 AI 行业来说,这也意味着想深度编译 CUDA 程序,不再只能指望少数掌握了 CUDA C++ 工程师,普通的开发者也可以通过阅读英伟达提供的技术手册来按部就班的部署。

而且,Tile IR 本身就是一套虚拟指令集架构,相当于在 CUDA 生态中再加入一个中间层,让开发者不再需要面向底层硬件进行开发,只要后续英伟达在更新硬件时做好后端适配,应用层就可以通过 Tile IR 直接适配新硬件,等于直接抹去了更换硬件所带来的重新适配成本。

不过也有开发者对此表示担忧,认为一旦 CUDA Tile 的性能表现不如预期,那么想再进行深度调试会麻烦,因为届时开发者看到的都是一堆抽象的 Tile 运算,无法像以前一样直接触及底层指令。

但是在小雷看来,CUDA 开发的简易化是不可阻挡的趋势,英伟达不可能还会走回头路的。而且,CUDA 13.1 并没有剔除传统 SIMT 开发工具,两者其实是并存的,对于开发者来说仍然可以用传统方法来进一步优化程序。

CUDA 13.1 的更新,就是给所有 AI 开发者递上了新的 " 万用工具箱 ",对于整个行业来说都是重大的利好,也难怪有人认为这是 " 新时代的到来 "。

护城河 or 突破口?

AI 生态大战即将到来

随着 CUDA 13.1 的更新,针对 AI 生态的讨论也再次引起了大家的关注,过去的 AMD ROCm、Intel oneAPI 也好,中国厂商的自研 GPU 也罢,很多都是在 CUDA 的基础上,通过转编译来打造适配自家生态的版本。

或许有人觉得,这不就是抄袭吗?确实,不过也是无奈之举,CUDA 作为最成熟的 AI 生态,拥有最广泛的设备兼容性,其他生态想追赶,那就只能选择 " 站在巨人的肩膀上 ",才有可能成功,面对这种涉及到根本利益和未来话语权的争夺,手段尽出才是王道。

图源:英伟达

但是 CUDA Tile 的到来,或许会让这套适配体系变得更加困难,因为开发者一旦习惯用 Tile IR+cuTile 写代码,真正面对的接口就不再是具体线程、寄存器和 block 等工具,而是一整套 Tile 语义。

有开发者表示,想要兼容这套生态未来不仅要翻译语法,还要重建一套理解 tile 运算、映射到自家指令集和计算核心的编译器,等于是被迫从 " 抄 CUDA 代码 " 变成 " 抄 CUDA 编译器 ",难度和成本都翻倍。

不过也有人给出了不同的看法,传奇芯片架构师 Jim Keller(苹果 A 系列芯片、AMD Zen 架构、特斯拉 FSD 芯片的开发者)认为 CUDA Tile 或许会加速 CUDA 的护城河消失。

看起来很匪夷所思,对吧?而 Jim Keller 的理由则是 CUDA 的优势是建立在其完善的库和框架的基础上,但是过高的上手门槛阻挡了大多数开发者。而 CUDA Tile 将让 Tiling 将成为 CUDA 生态的主流,另一边,业界的大多数主流 AI 生态其实早就转向了 Tiling。

换言之,Tiling 是大家更熟悉的工具,只需要先解决好 CUDA Tile 代码与其他 Tiling 体系之间的互译问题,开发者就可以非常轻松地将 CUDA 软件移植到其他 AI 芯片生态中,而不必再从底层结构开始重新梳理。

从这个角度来看,Jim Keller 的观点确实是有道理的,不过关键点就在于其他厂商是否愿意继续跟随英伟达,打造一个适用于 CUDA Tile 的移植工具。其实国内也有厂商在全盘复刻 CUDA 生态,比如刚刚上市的摩尔线程,他们的 MUSA 生态的目标就是在国产 GPU 上打造一个类似于 CUDA 的平台,让同一套软件能在图形、计算、多媒体和 AI 等多个产品线上复用。

图源:摩尔线程

为了解决生态问题,摩尔线程打造了一套 MUSA SDK,里面包括运行时、编译器、GPU 加速数学库、神经网络库和通信库,并提供 MUSIFY 这样的迁移工具,允许开发者将 CUDA 代码直接转成 MUSA 版本,并且配备了一系列的专用库来减少开发者切换生态的成本。

而在接下来的时间里,摩尔线程也需要考虑如何重建 MUSA 生态对 CUDA 生态的适配,并进一步拓展其对国产芯片的适配性。如果摩尔线程可以整合好生态,那么也可以更好承接 CUDA 生态的国产化,成为国产 AI 生态的基座之一。

当然,要面对这个问题的也不止摩尔线程,英特尔、AMD 等其他芯片企业也是一样的。不管怎样,接下来几年里,围绕 AI 生态展开的博弈只会变得更加激烈。英伟达希望进一步加深与 AI 行业的捆绑,而其他厂商则要在追赶 CUDA 生态的同时构筑自己的护城河,一场没有硝烟的战争已然到来。

    

End

雷科技 2025" 年度灯塔产品榜 " 评选启动!致敬堪称 " 科技之光、时代大作 " 的科技产品,欢迎关注~

欢迎扫码添加小雷微信

记得备注想进群的手机品牌哦

跟小雷一起畅聊数码与科技

另外小雷建了很多粉丝群,欢迎扫码加入!

大家伙一块聊聊天,分享玩机技巧~

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 ai 编程 半导体
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论