自 GPT-2 以来,语言模型已经取得了长足的进步,用户现在可以通过 LM Studio 等用户友好的应用程序快速轻松地部署高度复杂的大语言模型(LLM)。通过和 AMD 协作,这些工具致力于使每个人都可以使用 AI,而不需要编码或技术知识。
llama.cpp 和 LM Studio 概述
LM Studio 基于 llama.cpp 项目,是当前非常流行的快速部署语言模型的框架。它没有依赖性,可以仅使用 CPU 进行加速——尽管它也有 GPU 加速功能。LM Studio 使用 AVX2 指令来加速基于 x86 的 CPU 的现代大语言模型。
性能对比:吞吐量和延迟
AMD 锐龙 AI 为这些最先进的工作负载进行加速,并在基于 llama.cpp 的应用程序(如用于 x86 笔记本电脑的 LM Studio)中提供了领先的性能。值得注意的是,大语言模型通常对内存速度非常敏感。
在我们的对比测试中,英特尔笔记本电脑的 RAM 实际上更快,达到 8533MT/s,AMD 笔记本电脑的 RAM 为 7500MT/s。尽管如此,AMD 锐龙 AI 9 HX 375 处理器每秒 token 生成速度却比竞争对手快出 27%。
【参考信息:每秒 token 生成量或 tk/s 表示一个大语言模型(LLM)能够以多快的速度输出 token(大致对应于每秒在电脑屏幕上显示的单词数)。】
AMD 锐龙 AI 9 HX 375处理器可以在Meta Llama 3.2 1b Instruct(4-bit 量化)中实现每秒高达 50.7 个 token的性能。
对大型语言模型进行基准测试的另一个指标是 " 输出首个 token 的时间 ",它测量了从您提交提示到模型开始生成 token 所需时间之间的延迟。在这里,我们看到,在较大的模型中,基于 AMD"Zen 5" 架构的锐龙 AI HX 375 处理器比竞争对手的同类处理器快 3.5 倍。
在 Windows 中使用可变显存(VGM)来加快模型吞吐量
AMD 锐龙 AI CPU 中的三个加速器都有自己的工作负载专业化和它们擅长的场景。AMD 基于 XDNA 2 架构的 NPU 在运行 Copilot+ 工作负载时为持续的 AI 功能提供了令人难以置信的能效,CPU 为工具和框架提供了广泛的覆盖范围和兼容性,而 iGPU 通常按需处理 AI 任务。
LM Studio 提供了一个 llama.cpp 端口,可以使用与供应商无关的 Vulkan API 来加速框架。这里的加速通常取决于硬件功能和 Vulkan API 的驱动程序优化。与仅使用 CPU 模式相比,在 LM Studio 中打开 GPU offload 后 Meta Llama 3.2 1b Instruct 的性能平均提升可达 31%。像Mistral Nemo 2407 12b Instruct 这样的大型模型在 token 生成阶段由于受到带宽限制,平均提升可达 5.1%。
我们观察到,当在 LM Studio 中使用基于 Vulkan 的 llama.cpp 版本并打开 GPU offload 时,与仅使用 CPU 的模式相比,竞争对手的处理器在除一个模型外的所有测试模型中的平均性能都明显较低。因此,为了保持对比测试的公平性,我们没有将英特尔酷睿 Ultra7 258v 在 LM Studio 中使用基于 Vulkan 的 Llama.cpp 的 GPU offload 性能纳入对比过程。
AMD 锐龙 AI 300 系列处理器还包括一个名为可变显存(VGM)的功能。通常,程序将利用 iGPU 的 512MB 专用分配内存块以及位于系统 RAM" 共享 " 部分的第二个内存块。VGM 允许用户将 512MB 专用分配块扩展到高达 75% 的可用系统 RAM 容量。这种连续内存分配显著提高了内存敏感型应用程序的吞吐量。
在开启 VGM(16GB)后,我们看到Meta Llama 3.2 1b Instruct 的性能平均提升了 22%,与使用 iGPU 加速和 VGM 相结合时的 CPU 模式相比,平均速度总共提高了 60%。即使是更大的模型,如Mistral Nemo 2407 12b Instruct,与仅使用 CPU 的模式相比,性能也提升了 17%。
对比:Mistral 7b Instruct 0.3
虽然竞争对手的笔记本电脑在 LM Studio 中使用基于 Vulkan 的 Llama.cpp 版本没有提供加速,但我们使用英特尔 AI Playground 应用程序(基于 IPEX-LLM 和 Lang Chain)比较了 iGPU 性能,力求在最佳的用户友好型 LLM 体验之间进行公平的比较。
我们使用了英特尔 AI Playground 提供的模型,即Mistral 7b Instruct v0.3 和 Microsoft Phi 3.1 Mini Instruct。在 LM Studio 中使用可比的量化后,我们发现AMD 锐龙 AI 9 HX 375 在 Phi 3.1 中的速度相比竞争对手快了 8.7%,在 Mistral 7b Instruct 0.3 中的速度相比对手快了 13%。
AMD 致力于推进 AI 前沿技术的发展,让每个人都能使用 AI,但如果最新的 AI 成果被技术或编码技能等高门槛所限制,那这一切就不可能发生——这就是 LM Studio 这样的应用程序的重要性所在。除了作为在本地部署 LLM 的一种快速而轻松的方式之外,这些应用程序允许用户在第一时间体验最先进的模型(前提是 llama.cpp 项目支持该架构)。
AMD 锐龙 AI 加速器提供了令人难以置信的性能,启用可变显存(VGM)等功能可以为 AI 用例提供更好的性能。所有这些结合在一起,为 x86 笔记本电脑上的语言模型提供了令人难以置信的用户体验。
登录后才可以发布评论哦
打开小程序可以发布评论哦