别只盯着Gemini 3！这款国产模型提前实现“随手拍解题”，速度超Gemini 2.5 Flash五倍

智东西

作者 | 王涵

编辑 | 漠影

在 AI 快速渗透日常生活的当下，单一功能模型已经不能满足用户的日常所需，多功能模型成为主流趋势，也成为大模型厂商的 " 兵家必争之地 "。

今日凌晨，全世界都在期待的 Gemini 3 重磅上线，一个模型就囊括了原生多模态、推理、Agent 多种能力。

而在 Gemini 3 之前，11 月 18 日，国产大模型厂商昆仑万维就发布了其轻量级多模态理解智能体 Skywork R1V4-Lite。

Skywork R1V4-Lite 是一款 " 能行动的 " 轻量级多模态智能体。它不仅能进行深度推理，还首次在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。

具体来说，Skywork R1V4-Lite 有四大核心优势：

1. 随手拍解题，即时多模态感知的主动视觉操作；

2. 多模态深度研究，拥有轻量级搜索增强能力；

3. 看图即可规划，主动式多模态任务规划；

4. 小尺寸、快响应、低成本

针对其应用场景，智东西对 R1V4-Lite 进行了一个全方位的测评。与传统只能 " 看图回答 " 的模型不同，R1V4-Lite 能够在真实场景中随手拍照即可完成复杂任务。

也就是说用户不需要设计提示词，不需要提供额外信息，只需拍一张图，R1V4-Lite 就能自己观察、操作、推理并给出答案。

目前，R1V4-Lite 已经上线，限时免费体验。

Skywork API 平台：

https://platform.skyworkmodel.ai/

Skywork API 接口文档：

https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html

技术报告：

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf

Github 地址：

https://github.com/SkyworkAI/Skywork-R1V

一、全面超越 Gemini 2.5 Flash，R1V4-Lite 用小尺寸 " 四两拨千斤 "

R1V4-Lite 继承了 Qwen3 A3B 轻量架构设计，通过模型优化，其在模型规模、推理速度与吞吐效率之间实现了微妙的工程平衡，让 R1V4-Lite 在真实生产环境中展现出超过同体量模型的性能表现。

响应速度上，R1V4-Lite 仅为 Gemini 2.5 Pro 的 1/19，约为 Gemini 2.5 Flash 的 1/5。但其 Token 吞吐量则达到了 Gemini 2.5 Pro/Flash 的 2 倍左右。

依托更强的推理压缩能力与极低的工具调用轮次，R1V4-Lite 的端到端完成能力比 Gemini 2.5 Pro 快 2.9 倍，比 Gemini 2.5 Flash 快 1.7 倍。

从基准测试上看，在多个权威视觉与感知基准上，R1V4-Lite 在 8 个多模态理解基准评测上超过 Gemini 2.5 Flash，其中 5 个任务上超过 Gemini 2.5 Pro 的水平。

在多模态 DeepResearch 类任务中，R1V4-Lite 在 mm-search 上以 66 分超过 Gemini 2.5 Flash 的 64.9 分，在 FVQA 上以 67 分明显高于 Gemini 2.5 Flash 的 60.8 分。

这一系列结果验证了其「图像操作 × 深度推理交织训练」范式的有效性。

凭借 " 低延迟 × 高吞吐 × 极低成本 " 的组合优势， R1V4-Lite 适用于：实时问答、视觉检索、智能助手、多模态工具调用、高并发等在线生产场景。

二、不止看图说话，给 R1V4-Lite 一张街景，就能分析出地点

如今，大多数多模态模型仍停留在 " 封闭式智能 " 阶段，即推理只发生在模型内部，既不能主动获取外部信息，也无法执行操作或验证结果，缺乏反馈时幻觉更容易出现。

与传统只能 " 看图回答 " 的模型不同，Skywork R1V4-Lite 能够在真实场景中随手拍照就可以完成复杂任务。

也就是说，用户不需要设计提示词，不需要提供额外信息，只需拍一张图，R1V4-Lite 就能自己观察、操作、推理并给出答案，找到用户想要的信息、完成用户的指令。

最近，第十五届全运会在在广东举行，全运会的吉祥物 " 喜洋洋 " 和 " 乐融融 " 凭借着可爱的外表和活泼童真的动作在全网爆火。

我在 R1V4-Lite 中上传了一张吉祥物的照片，要求他帮我裁剪出一个粉色的吉祥物，并且放大。

仅需数秒，R1V4-Lite 便返回相关结果。值得关注的是，图片中包含多个粉色吉祥物，而 R1V4-Lite 精准筛选出身边未出现白色吉祥物的目标对象。

随后，我又上传了一张航拍场馆图，非常简短地问 R1V4-Lite" 这是哪里？"

从 R1V4-Lite 的回答汇总可以看到，其可以主动开展图像分析与信息提取，根据不同任务需求灵活调用图像搜索、文字搜索等工具，并结合网页搜索功能，最终输出准确且具备充分依据的答案。

三、一边读图一边搜索，R1V4-Lite 还能当 " 淘宝识图 "

不仅如此，R1V4-Lite 在联网搜索下会自动触发深度研究能力。

通过构建推理脚手架，R1V4-Lite 能够与外部世界进行搜索、检索、比对等主动交互，进而触发搜索、检索、比对等多种外部资源交互，将搜索结果与视觉推理深度融合，形成 " 搜索—推理—验证 " 的闭环。模型由此获得跨模态、跨资源的知识扩展能力。

例如，我发给 R1V4-Lite 了一张电视剧海报，并提问：这是什么电视剧的海报，主演角色都有谁，什么时候开播，共有几集？

仅需数秒，R1V4-Lite 便主动完成图像信息识别，随即调取图像搜索工具，精准判定该海报为《唐朝诡事录之西行》相关物料。

后续其进一步调用文字搜索工具，基于从图像中提取的关键信息，从维基百科、百度百科等权威来源检索核实，最终完整回应了提问，整个过程流畅高效、精准可靠。

R1V4-Lite 在回答时会主动提供信源链接供用户参考，基于这一优势，其同样可应用于 " 识图搜索 " 场景。

我上传了新生代演员王安宇的写真海报，先是提问 " 图片中的男生是谁？"，同时要求获取该男生上身外套在淘宝及品牌官网的售卖链接。

这次任务复杂度更高，R1V4-Lite 的回答耗时有所增加，但仍控制在 1 分钟左右。从结果来看，其不仅能主动调用对应工具推进任务执行，还具备报错后的自主调整能力。在遭遇回归报错时，R1V4-Lite 可自行更改搜索路径重新尝试。

即便未能找到用户所需的特定售卖链接，其也会附上相关参考信息，保障回复的实用性。

四、一句话帮你规划，R1V4-Lite 还是你的 " 生活管家 "

此外，R1V4-planner-lite 还支持真正意义上的 " 主动式多模态 Agentic 规划 "。

以单张图像为起点，该系统可自动构建可执行的多轮任务链，完成任务分解、工具选择、参数生成、执行顺序规划等核心动作。

这标志着模型实现了从传统 " 看图回答 " 到 " 看图行动 " 的跨越，首次具备视觉驱动的行动规划能力。

在此基础上，R1V4-Planner-Lite 将规划能力延伸至系统级：模型会综合用户意图、上下文信息、可用工具及任务依赖关系，自动生成结构化执行方案，并以高可解释性的形式，明确每一步的工具选择、参数配置及核心目的，为 Agentic 智能提供了可控性、透明度与稳定性保障。

本次测试中，我未上传图片，而是直接向 R1V4-Planner-Lite 下达指令，要求其规划一条途经《唐朝诡事录之西行》取景地的旅行路线。

即便指令中未明确提及具体地名，其仍能精准理解需求，为用户制定出合理的旅行计划并推荐详细行程。

随后，我上传了一份体测报告，要求其据此生成健身计划。结果显示，R1V4-Planner-Lite 准确识别出体测指标中需提升的关键部分，并针对性地制定了完整的健身方案。

结语：昆仑万维用多模态新范式 " 以小博大 "

体验下来最直观的感受就是：Skywork R1V4-Lite 实在太方便了。

虽然 R1V4-Lite 本次是闭源发布，并未开源模型权重，但其证明了——小模型也能很强，小模型也能很快，小模型也能多模态。

R1V4-Lite 的成功不仅来自工程优化，更源自其背后的多模态新范式：图像操作 × 深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力，展示了轻量多模态智能体的全新可能性。

这一结果进一步说明：能力密度比参数规模更重要，小模型也能逼近闭源模型的真实表现。

在 AI 实用化需求不断增强的当下，昆仑万维通过高频节奏的技术发布，持续将新能力输送到产业侧，推动多模态 AI 更快地渗透到日常工作与生活中。

宙世代

一起剪

相关标签