智东西
作者 | 陈骏达
编辑 | 云鹏
智东西 7 月 23 日报道,就在刚刚,阿里巴巴 Qwen 团队开源了其最新一代旗舰编程模型
Qwen3-Coder-480B-A35B-Instruct。Qwen 团队称,这是该团队迄今为止最强大的开源智能体编程模型,拥有 480B 参数,激活参数为 35B,原生支持 256K 上下文,并可通过外推扩展至 100 万上下文(输入),其最大输出为 6.5 万 token。
在基准测试中,Qwen3-Coder 在编程和智能体任务上拥有不错的性能,于 Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器使用)和 Agentic Tool-Use(智能体工具调用)三类任务中获得了开源 SOTA,超过 Kimi K2、DeepSeek V3 等开源模型和 GPT-4.1 等闭源模型,并可与 Claude Sonnet 4 这一以编程能力著称的模型相媲美。
Qwen3-Coder 将提供多种尺寸,本次开源的是其最强大的变体,其参数量超过了阿里旗舰模型 Qwen3 的 235B(2350 亿),小于 Kimi K2 的 1T(1 万亿)。据阿里官方介绍,借助 Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品牌官网最快只需 5 分钟。
除了模型之外,Qwen 还开源了一个由 Gemini Code 分叉而来的智能体编程命令行工具—— Qwen Code,这一工具进行了定制提示和函数调用协议的适配,能更充分的释放 Qwen3-Coder 在智能体编程任务上的能力。
这一模型已在阿里云旗下大模型服务平台百炼上线,其 API 采用了阶梯计费的方式,根据输入 token 量调整价格。在 256K~1M 一档,其输入价格为 6 美元 / 百万 token,输出价格为 60 美元 / 百万 token。相比之下,Claude Sonnet 4 的输入输出价格分别为 3 美元 / 百万 token、15 美元 / 百万 token,与 Qwen3-Coder 128k~256k 一档的价格持平。
Qwen3-Coder 也已在 Qwen Chat 网页版上线,用户可免费体验。此外,其 480B 版本已在 Hugging Face、魔搭等开源社区发布,可供下载和本地部署。Qwen 还在一篇博客文章中详细分享了模型的技术细节。
模型开源地址:
https://huggingface.co/Qwen
Qwen Code 开源地址:
https://github.com/QwenLM/qwen-code
博客地址:
https://qwenlm.github.io/blog/qwen3-coder/
一、深夜上线 Qwen Chat,海外网友已经玩疯了
在 Qwen 团队官宣 Qwen3-Coder 发布前,这一模型已经悄然在 Qwen Chat 官网上线,手速快的海外网友们贡献了一批实测案例。
这一案例让 Qwen3-Coder 打造一个 Wordle 单词游戏,规则是在六次尝试中猜出一个长度为 5 个字母的单词。最终,Qwen3-Coder 交付的游戏页面和源代码如下。
提供案例的网友称,Qwen3-Coder 在指令遵循、UI 设计、动画方面的能力惊人,大部分测试结果一次就跑通了,完全不需要推理。不过,在 Wordle 游戏设计这一任务上,Qwen 并没有使用单词解析器,也没有引用来源,而是决定自行枚举所有 5 个字母的单词。
在一则找不同游戏的开发案例中,可以看到与昨日发布的 Qwen3-235B-A22B-2507 相比,Qwen3-Coder 在审美和完成度上要明显好于前者。
智东西则尝试让 Qwen3-Coder 开发一个中英文术语库,并支持增删改查的基础功能。可以直观感受到,由于并未开启推理,Qwen3-Coder 的开发速度极快,20 多秒便完成了初步结果,在对其生成结果进行进一步修改时,速度同样较快。
其最终生成的结果从 UI 角度上看的确美观清晰,功能运转正常,不过并没有遵循提示词中使用 PHP+MySQL 进行开发的指令。其最终交付的结果作为功能演示、原型展示完全足够,但在真实部署场景中的可扩展性还需进一步优化。
智东西还让 Qwen3-Coder 给自己出了一道 3D HTML 开发题,内容是创建一个 3D 旋转的立方体展示台,六个面显示不同颜色,自动旋转,添加光照效果和阴影等。Qwen3-Coder 交付的结果完成度不错,基本实现了主要功能,旋转动效、阴影等处理到位。
编程能力之外,Qwen3-Coder 还提供了许多其他的玩法,包括图像生成、视频生成等,并支持文档、图片、视频、音频等内容的上传,这可能是通过工具调用实现的。
正式发布后,Qwen 官方也提供了 Qwen3-Coder 的部分用例。
例如,可以让其打造一个基于物理的烟囱拆除模拟,具有受控爆炸。
打造可互动的太阳系模拟,行星之间的关系基本准确。
开发出的网页小游戏完成度不错。
二、预训练仍有扩展空间,在 20000 个独立环境进行强化学习
Qwen 团队在技术博客中分享了 Qwen3-Coder 的部分训练细节,该团队认为,目前预训练仍有进一步的扩展空间。
预训练阶段,Qwen3-Coder 使用了 7.5 万亿 token 数据,其中代码占比 70%,因此,模型在编程方面表现出色,同时也保留了通用和数学能力。
上下文方面,Qwen3-Coder 原生支持 256K 上下文,并可通过 YaRN 扩展至 1M,针对仓库规模和动态数据(例如拉取请求)进行了优化,从而适配智能体编程场景。
Qwen3-Coder 的上一代模型 Qwen2.5-Coder 被运用于扩展合成数据,具体而言,Qwen2.5 清洗并重写了噪声数据,提升了整体数据质量。
后训练阶段,Qwen 团队认为,与普遍关注竞赛级代码生成不同,所有代码任务都天然适合执行驱动(execution-driven)的大规模强化学习。该团队在更广泛的现实世界编程任务上扩大了代码强化学习训练规模。
通过自动扩展多样化编程任务的测试用例,Qwen 团队创建了高质量的训练实例,进一步释放了强化学习的潜力。这不仅提高了代码执行成功率,还为其他任务带来了收益。
这也启发该团队进一步探索难以解决,却易于验证的任务类型,这有望成为强化学习的沃土。
在现实世界的软件工程任务(例如 SWE-Bench)中,Qwen3-Coder 必须与环境进行多轮交互,涉及规划、使用工具、接收反馈和做出决策。在 Qwen3-Coder 的后训练阶段,Qwen 团队引入了长视距强化学习(智能体强化学习),鼓励模型通过使用工具进行多轮交互来解决现实世界任务。
智能体强化学习的关键挑战在于环境扩展。为解决这一问题,该团队构建了一个可扩展的系统,能够并行运行 20000 个独立环境。该基础设施为大规模强化学习提供了必要的反馈,并支持大规模评估。
因此,Qwen3-Coder 在 SWE-Bench Verified 中实现了开源模型中的最佳性能,且无需使用推理(测试时扩展)。
同时开源的 Qwen Code 是一个用于研究目的的命令行界面(CLI)工具,基于 Gemini CLI 开发,针对 Qwen-Coder 模型进行了增强的解析器和工具支持。
除了 Qwen Code,还可以使用 Claude Code 与 Qwen3-Coder 一起编程。只需在 Dashscope 平台上申请一个 API 密钥,并安装 Claude Code 即可开始编程。
结语:更多尺寸即将推出,探索编程智能体自我提升
在 Cursor 断供 Claude 等适用于编程领域的模型之际,Qwen3-Coder 的本次开源给国内开发者提供了最新的替代选项。
Qwen 团队透露,他们仍在努力提高 Coding Agent 的性能,旨在让它承担软件工程中复杂和乏味的任务,从而释放人类的生产力。
Qwen3-Coder 的更多模型尺寸即将推出,可维持部署成本和性能之间的平衡。此外,该团队正在探索 Coding Agent 是否可以实现自我提升。
登录后才可以发布评论哦
打开小程序可以发布评论哦