智东西 1小时前
别只盯着Gemini 3!这款国产模型提前实现“随手拍解题”,速度超Gemini 2.5 Flash五倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 王涵

编辑 | 漠影

在 AI 快速渗透日常生活的当下,单一功能模型已经不能满足用户的日常所需,多功能模型成为主流趋势,也成为大模型厂商的 " 兵家必争之地 "。

今日凌晨,全世界都在期待的 Gemini 3 重磅上线,一个模型就囊括了原生多模态、推理、Agent 多种能力。

而在 Gemini 3 之前,11 月 18 日,国产大模型厂商昆仑万维就发布了其轻量级多模态理解智能体 Skywork R1V4-Lite。

Skywork R1V4-Lite 是一款 " 能行动的 " 轻量级多模态智能体。它不仅能进行深度推理,还首次在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。

具体来说,Skywork R1V4-Lite 有四大核心优势:

1. 随手拍解题,即时多模态感知的主动视觉操作;

2. 多模态深度研究,拥有轻量级搜索增强能力;

3. 看图即可规划,主动式多模态任务规划;

4. 小尺寸、快响应、低成本

针对其应用场景,智东西对 R1V4-Lite 进行了一个全方位的测评。与传统只能 " 看图回答 " 的模型不同,R1V4-Lite 能够在真实场景中随手拍照即可完成复杂任务。

也就是说用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite 就能自己观察、操作、推理并给出答案。

目前,R1V4-Lite 已经上线,限时免费体验。

Skywork API 平台:

https://platform.skyworkmodel.ai/

Skywork API 接口文档:

https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html

技术报告:

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf

Github 地址:

https://github.com/SkyworkAI/Skywork-R1V

一、全面超越 Gemini 2.5 Flash,R1V4-Lite 用小尺寸 " 四两拨千斤 "

R1V4-Lite 继承了 Qwen3 A3B 轻量架构设计,通过模型优化,其在模型规模、推理速度与吞吐效率之间实现了微妙的工程平衡,让 R1V4-Lite 在真实生产环境中展现出超过同体量模型的性能表现。

响应速度上,R1V4-Lite 仅为 Gemini 2.5 Pro 的 1/19,约为 Gemini 2.5 Flash 的 1/5。但其 Token 吞吐量则达到了 Gemini 2.5 Pro/Flash 的 2 倍左右。

依托更强的推理压缩能力与极低的工具调用轮次,R1V4-Lite 的端到端完成能力比 Gemini 2.5 Pro 快 2.9 倍,比 Gemini 2.5 Flash 快 1.7 倍。

从基准测试上看,在多个权威视觉与感知基准上,R1V4-Lite 在 8 个多模态理解基准评测上超过 Gemini 2.5 Flash,其中 5 个任务上超过 Gemini 2.5 Pro 的水平。

在多模态 DeepResearch 类任务中,R1V4-Lite 在 mm-search 上以 66 分超过 Gemini 2.5 Flash 的 64.9 分,在 FVQA 上以 67 分明显高于 Gemini 2.5 Flash 的 60.8 分。

这一系列结果验证了其「图像操作 × 深度推理交织训练」范式的有效性。

凭借 " 低延迟 × 高吞吐 × 极低成本 " 的组合优势, R1V4-Lite 适用于:实时问答、视觉检索、智能助手、多模态工具调用、高并发等在线生产场景。

二、不止看图说话,给 R1V4-Lite 一张街景,就能分析出地点

如今,大多数多模态模型仍停留在 " 封闭式智能 " 阶段,即推理只发生在模型内部,既不能主动获取外部信息,也无法执行操作或验证结果,缺乏反馈时幻觉更容易出现。

与传统只能 " 看图回答 " 的模型不同,Skywork R1V4-Lite 能够在真实场景中随手拍照就可以完成复杂任务。

也就是说,用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite 就能自己观察、操作、推理并给出答案,找到用户想要的信息、完成用户的指令。

最近,第十五届全运会在在广东举行,全运会的吉祥物 " 喜洋洋 " 和 " 乐融融 " 凭借着可爱的外表和活泼童真的动作在全网爆火。

我在 R1V4-Lite 中上传了一张吉祥物的照片,要求他帮我裁剪出一个粉色的吉祥物,并且放大。

仅需数秒,R1V4-Lite 便返回相关结果。值得关注的是,图片中包含多个粉色吉祥物,而 R1V4-Lite 精准筛选出身边未出现白色吉祥物的目标对象。

随后,我又上传了一张航拍场馆图,非常简短地问 R1V4-Lite" 这是哪里?"

从 R1V4-Lite 的回答汇总可以看到,其可以主动开展图像分析与信息提取,根据不同任务需求灵活调用图像搜索、文字搜索等工具,并结合网页搜索功能,最终输出准确且具备充分依据的答案。

三、 一边读图一边搜索,R1V4-Lite 还能当 " 淘宝识图 "

不仅如此,R1V4-Lite 在联网搜索下会自动触发深度研究能力。

通过构建推理脚手架,R1V4-Lite 能够与外部世界进行搜索、检索、比对等主动交互,进而触发搜索、检索、比对等多种外部资源交互,将搜索结果与视觉推理深度融合,形成 " 搜索—推理—验证 " 的闭环。模型由此获得跨模态、跨资源的知识扩展能力。

例如,我发给 R1V4-Lite 了一张电视剧海报,并提问:这是什么电视剧的海报,主演角色都有谁,什么时候开播,共有几集?

仅需数秒,R1V4-Lite 便主动完成图像信息识别,随即调取图像搜索工具,精准判定该海报为《唐朝诡事录之西行》相关物料。

后续其进一步调用文字搜索工具,基于从图像中提取的关键信息,从维基百科、百度百科等权威来源检索核实,最终完整回应了提问,整个过程流畅高效、精准可靠。

R1V4-Lite 在回答时会主动提供信源链接供用户参考,基于这一优势,其同样可应用于 " 识图搜索 " 场景。

我上传了新生代演员王安宇的写真海报,先是提问 " 图片中的男生是谁?",同时要求获取该男生上身外套在淘宝及品牌官网的售卖链接。

这次任务复杂度更高,R1V4-Lite 的回答耗时有所增加,但仍控制在 1 分钟左右。从结果来看,其不仅能主动调用对应工具推进任务执行,还具备报错后的自主调整能力。在遭遇回归报错时,R1V4-Lite 可自行更改搜索路径重新尝试。

即便未能找到用户所需的特定售卖链接,其也会附上相关参考信息,保障回复的实用性。

四、 一句话帮你规划,R1V4-Lite 还是你的 " 生活管家 "

此外,R1V4-planner-lite 还支持真正意义上的 " 主动式多模态 Agentic 规划 "。

以单张图像为起点,该系统可自动构建可执行的多轮任务链,完成任务分解、工具选择、参数生成、执行顺序规划等核心动作。

这标志着模型实现了从传统 " 看图回答 " 到 " 看图行动 " 的跨越,首次具备视觉驱动的行动规划能力。

在此基础上,R1V4-Planner-Lite 将规划能力延伸至系统级:模型会综合用户意图、上下文信息、可用工具及任务依赖关系,自动生成结构化执行方案,并以高可解释性的形式,明确每一步的工具选择、参数配置及核心目的,为 Agentic 智能提供了可控性、透明度与稳定性保障。

本次测试中,我未上传图片,而是直接向 R1V4-Planner-Lite 下达指令,要求其规划一条途经《唐朝诡事录之西行》取景地的旅行路线。

即便指令中未明确提及具体地名,其仍能精准理解需求,为用户制定出合理的旅行计划并推荐详细行程。

随后,我上传了一份体测报告,要求其据此生成健身计划。结果显示,R1V4-Planner-Lite 准确识别出体测指标中需提升的关键部分,并针对性地制定了完整的健身方案。

结语:昆仑万维用多模态新范式 " 以小博大 "

体验下来最直观的感受就是:Skywork R1V4-Lite 实在太方便了。

虽然 R1V4-Lite 本次是闭源发布,并未开源模型权重, 但其证明了——小模型也能很强,小模型也能很快,小模型也能多模态。

R1V4-Lite 的成功不仅来自工程优化,更源自其背后的多模态新范式:图像操作 × 深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力,展示了轻量多模态智能体的全新可能性。

这一结果进一步说明:能力密度比参数规模更重要,小模型也能逼近闭源模型的真实表现。

在 AI 实用化需求不断增强的当下,昆仑万维通过高频节奏的技术发布,持续将新能力输送到产业侧,推动多模态 AI 更快地渗透到日常工作与生活中。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

flash 昆仑万维 王涵
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论