智东西 06-23
3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 李水青

编辑 | 心缘

智东西 6 月 23 日报道,月之暗面今日开源多模态模型 Kimi-VL-A3B-Thinking-2506,这是其首个开源多模态推理模型 Kimi-VL-A3B-Thinking 发布两个月后的更新版本,可凭借 2.8B 激活参数(16B 总参数)在多项测评中超越 GPT-4o、Qwen2.5-VL-7B 等模型。

Hugging Face 截图

开源地址:

https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506

与之前的版本相比,2506 版本提供了多项全新或改进的功能:

1、它在消耗更少 tokens 的同时思考得更聪明:2506 版本在多模态推理基准上达到了更好的准确率:MathVision 上得分为 56.9(+20.1),MathVista 上为 80.1(+8.4),MMMU-Pro 上为 46.3(+3.2),MMMU 上为 64.0(+2.1),而平均需要减少 20% 的思考长度。

2、思考过程更清楚可见:与之前的思考版本不同,2506 版本在一般的视觉感知和理解上也能达到相同甚至更好的能力,例如 MMBench-EN-v1.1(84.4)、MMStar(70.4)、RealWorldQA(70.0)、MMVet(78.4),超越或匹配其非思考模型(Kimi-VL-A3B-Instruct)的能力。

3、扩展至视频场景:2506 版本在视频推理和理解基准方面也有显著提升。它在 VideoMMMU 上为开源模型刷新记录(65.2),同时在通用视频理解方面也保持了良好的性能,在 Video-MME 上达到 71.9,与 Kimi-VL-A3B-Instruct 相当。

4、分辨率进一步提升:2506 版本支持单张图像 320 万像素(1792×1792),比上一版本提升了 4 倍。这在高分辨率感知和 OS-agent 基准测试中带来了显著提升:在 V* Benchmark(未使用额外工具)上得分为 83.2,在 ScreenSpot-Pro 上得分为 52.8,在 OSWorld-G 上得分为 52.5。

具体来看,与业界顶尖模型和 Kimi-VL 的两个先前版本的比较,2506 版本测试性能明显提升 :

在通用多模态方面,2506 版本在 MMBench-EN-v1.1(Acc)、OCRBench(Acc)、MMStar(Acc)、MMVet(Acc)多项测评的得分超过 OpenAI 的 GPT-4o。

在推理能力方面,2506 版本在 MMMU(val,Pass@1)、MMMU-Pro(Pass@1)上的测试成绩超过 Qwen2.5-VL-7B、Gemma3-12B-IT,不如 GPT-4o,但差距有所缩小。

在数学能力方面,2506 版本在 MATH-Vision(Pass@1)、MathVista_MINI(Pass@1)中得分大超 GPT-4o。

在视频能力方面,2506 版本在 VideoMMMU(Pass@1)、MMVU(Pass@1)、Video-MME(w/sub.)多项测评中超过 Qwen2.5-VL-7B、Gemma3-12B-IT,与 GPT-4o 的差距缩小。

在 Agent 落地方面,2506 版本在 ScreenSpot-Pro(Acc)、ScreenSpot-V2(Acc)、OSWorld-G(Acc)测试中得分都超越 Qwen2.5-VL-7B。

在长文本方面,2506 版本在 MMLongBench-DOC(Acc)测试中超越 Qwen2.5-VL-7B,与 GPT-4o 接近。

如下图所示,与 30-70B 的开源模型对比,2506 版本的大部分测试已经超越 Qwen2.5-VL-32B、Gemma3-27B-IT,看齐 Qwen2.5-VL-72B。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 分辨率
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论