量子位 09-24
AIME‘25满分炸场!Qwen一波七连发,全家桶大更新
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

它来了,它来了!

新一代旗舰模型Qwen3-Max带着满分成绩,正式地来了——

国产大模型首次在 AIME25 和 HMMT 这两个数学评测榜单拿下100 分!

和前不久 Qwen3-Max-Preview 一致,参数量依旧是超万亿的规模。

但这次正式的发布在版本上有了一个划分:

指令版(Instruct)

思考版(Thinking)

而且 Qwen3-Max 在性能上也有了一定的提升(情商智商,双商增强)。

刚才我们提到的数学满分,正是思考版所拿下的成绩。

至于指令版,则是在 SWE-Bench 评测(大模型用 coding 解决真实世界问题)中斩获 69.6 分,位列全球第一梯队。

以及在 Tau2 Bench 测试(考察 Agent 工具调用能力)中,超过 Claude Opus4 和 DeepSeek V3.1,拿下 74.8 分的成绩。

强,确实是有点强。

但有一说一,如果说 Qwen3-Max 是一把 " 火 ",那么在刚刚的云栖大会上,通义团队还散出了很多的 " 星 "。

视觉:Qwen3-VL 重磅开源

从 Qwen3-Max 散出来的第一个 " 星 ",就是视觉理解模型Qwen3-VL

其实它在今天凌晨的时候已经开源,属于 " 微鲜 " 出炉,但确实是大家比较期待的那一个。

具体而言,这次的型号叫做Qwen3-VL-235B-A22B,同样分为指令版推理版

其中,指令版本在多项主流视觉感知评测中,性能达到甚至超过 Gemini 2.5 Pro;而推理版本则是在众多多模态推理的评测基准下取得了 SOTA 的表现。

除此之外,Qwen3-VL-235B-A22B 指令版还支持在带图推理,并且在四项基准测试中的成绩均有所提升。

网友在看到成绩之后,甚至直呼:

Qwen3-VL 真是个怪物(太强了)。

实际测试效果现在也已经放出来了。

例如把一张手绘的网页 " 喂 " 给 Qwen3-VL,它就能唰唰唰地给出 HTML 和 CSS:

再如给它下面这张图:

并让 Qwen3-VL 完成如下任务:

找出属于以下类别的所有实例:" 头部、手部、男性、女性、眼镜 "。请以 JSON 格式报告边界框坐标。

更复杂的视频理解,Qwen3-VL 也是不在话下:

更多案例可以通过下面的视频了解一下:

从技术层面来看,Qwen3-VL 还是采用了原生动态分辨率设计,但在结构设计上进行了更新

一是采用 MRoPE-Interleave。原始 MRoPE 按时间 ( t ) 、高度 ( h ) 、宽度 ( w ) 顺序划分,使时间信息集中在高频维度。Qwen3-VL 改为 t、h、w 交错分布,实现全频覆盖,提升对长视频的理解,同时保持图像理解能力。

二是引入 DeepStack,融合 ViT 多层特征,增强视觉细节捕捉和图文对齐。

团队将视觉 tokens 的单层注入扩展为 LLM 多层注入,并优化特征 token 化:对 ViT 不同层输出分别 token 化并输入模型,从而保留从低层到高层的多层次视觉信息。实验表明,该设计显著提升了多种视觉理解任务的表现。

三是将视频时序建模由 T-RoPE 升级为 文本时间戳对齐机制。通过 " 时间戳 - 视频帧 " 交错输入,实现帧级时间与视觉内容的精细对齐,并原生支持 " 秒数 " 和 "HMS" 两种输出。如此一来,便改进提升了模型在事件定位、动作边界检测、跨模态时间问答等复杂时序任务中的语义感知与时间精度。

全模态:Qwen3-Omni 开源

Qwen3-Omni 虽然是昨天凌晨已经开源,但在这次云栖大会中也是一同亮相,主打的就是一个全模态

它是首个原生端到端全模态人工智能模型,在一个模型中统一了文本、图像、音频和视频,并且在 22 个音视频基准测试中达到了 SOTA 的水平。

目前已经开源的版本包括:

Qwen3-Omni-30B-A3B-Instruct

Qwen3-Omni-30B-A3B-Thinking

Qwen3-Omni-30B-A3B-Captioner

不过基于 Qwen3-Omni 还衍生出了更多好玩且强悍的细分大模型。

例如今天发布的Qwen3-LiveTranslate就是其中一个——视、听、说全模态同传大模型!

目前,它已经实现了覆盖 18 种语言的离线和实时两种音视频翻译能力。

从公开测试的成绩来看,Qwen3-LiveTranslate-Flash 的准确率已经超过了 Gemini-2.5-Flash、GPT-4o-Audio-Preview 等:

即便是在环境嘈杂的地方,Qwen3-LiveTranslate-Flash 依旧是能 hold 得住:

至于具体效果,来感受一下具体实操的效果:

英文原文:What is   mask? This is   mask. This is   mask. This is   mask. This is   Musk.

视觉增强前:什么是口罩?这是口罩,这是口罩,这是口罩,这是口罩。

视觉增强后:什么是口罩?这是面膜,这是口罩,这是面具,这是马斯克。

网友看罢,也是有亿点点震惊在身上的:

我都觉得有点恐怖了。

除了翻译之外,Qwen 版 Banana —— Qwen3-Image-Edit 的新版本,也是非常有趣的一个模型。

不仅支持多图融合,提供 " 人物 + 人物 "," 人物 + 商品 "," 人物 + 场景 " 等多种玩法,还增强了人物、商品、文字等单图一致性。

而且它还原生支持 ControlNet,可通过关键点图改变人物姿势,还可轻松实现换装需求。

编程:Qwen3-Coder 升级

新升级的Qwen3-Coder-Plus玩了一套 " 组合拳 ":Qwen Code、Claude Code 系统联合训练。

如此打法之下,它的性能效果得到了显著的提升;可以看到相较于之前的版本,在各项基准测试中的分数都有所增长:

与此同时,与之相关的编程产品Qwen Code也有了升级动作,增加了对多模态模型和 sub-agent 的支持。

换言之,你现在用 Qwen Code 的时候,可以输入图像了:

然后已经有网友开始在实测了,Qwen3-Coder-Plus 打造的一座 3D 宝塔效果是这样的:

Qwen 的终点,不只是开源

最后,总结一下这次云栖大会中的亮点。

首先就是从前天至今,阿里通义千问已经陆陆续续发布、开源大大小小近十款模型,已经是让国内外业界人士对阿里云的开源速度叹为观止。

但有一说一,在听完阿里云智能集团董事长兼 CEO吴泳铭的演讲之后,我们发现,通义千问要做的事情,远不止于此。

因为吴泳铭表示,实现 AGI 已然是确定性事件,但这还仅是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能(ASI)。

而要实现 ASI,则需要以互联网为起点,经历四个阶段:

第一阶段是智能涌现(学习人)、其次是自主行动(辅助人)、接下来是自我迭代(超越人),最后就是超级人工智能(ASI)。

除此之外,吴泳铭还非常有远见地认为:

大模型将是下一代操作系统,自然语言是以后的源代码,AI Cloud 是下一代计算机。

未来全世界或只会有 5-6 个超级云计算平台。

但需要明确的一点是,AI 越强,人类越强。

One More Thing

哦对了,通义千问那个新一代基础模型架构——Qwen3-Next,今天也正式发布了!

它的模型总参数量大约是 80B,但实际上,仅仅在激活 3B 的情况下,它的性能就可以跟 Qwen3-235B 媲美。

计算效率,可以说是直接 Pro Max 了 ~

而且与密集模型 Qwen3-32B 相比,它的训练成本降低了超 90%,长文本推理吞吐量提升超过 10 倍。

不得不说,未来大模型的训练和推理效率,要变得更加有意思了。

参考链接:

https://qwen.ai/research

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

数学 开源 智商 分辨率 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论