
智东西
作者 | 王涵
编辑 | 漠影
在 AI 快速渗透日常生活的当下,单一功能模型已经不能满足用户的日常所需,多功能模型成为主流趋势,也成为大模型厂商的 " 兵家必争之地 "。
今日凌晨,全世界都在期待的 Gemini 3 重磅上线,一个模型就囊括了原生多模态、推理、Agent 多种能力。
而在 Gemini 3 之前,11 月 18 日,国产大模型厂商昆仑万维就发布了其轻量级多模态理解智能体 Skywork R1V4-Lite。
Skywork R1V4-Lite 是一款 " 能行动的 " 轻量级多模态智能体。它不仅能进行深度推理,还首次在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。
具体来说,Skywork R1V4-Lite 有四大核心优势:
1. 随手拍解题,即时多模态感知的主动视觉操作;
2. 多模态深度研究,拥有轻量级搜索增强能力;
3. 看图即可规划,主动式多模态任务规划;
4. 小尺寸、快响应、低成本
针对其应用场景,智东西对 R1V4-Lite 进行了一个全方位的测评。与传统只能 " 看图回答 " 的模型不同,R1V4-Lite 能够在真实场景中随手拍照即可完成复杂任务。
也就是说用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite 就能自己观察、操作、推理并给出答案。
目前,R1V4-Lite 已经上线,限时免费体验。
Skywork API 平台:
https://platform.skyworkmodel.ai/
Skywork API 接口文档:
https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html
技术报告:
https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf
Github 地址:
https://github.com/SkyworkAI/Skywork-R1V
一、全面超越 Gemini 2.5 Flash,R1V4-Lite 用小尺寸 " 四两拨千斤 "
R1V4-Lite 继承了 Qwen3 A3B 轻量架构设计,通过模型优化,其在模型规模、推理速度与吞吐效率之间实现了微妙的工程平衡,让 R1V4-Lite 在真实生产环境中展现出超过同体量模型的性能表现。
响应速度上,R1V4-Lite 仅为 Gemini 2.5 Pro 的 1/19,约为 Gemini 2.5 Flash 的 1/5。但其 Token 吞吐量则达到了 Gemini 2.5 Pro/Flash 的 2 倍左右。
依托更强的推理压缩能力与极低的工具调用轮次,R1V4-Lite 的端到端完成能力比 Gemini 2.5 Pro 快 2.9 倍,比 Gemini 2.5 Flash 快 1.7 倍。
从基准测试上看,在多个权威视觉与感知基准上,R1V4-Lite 在 8 个多模态理解基准评测上超过 Gemini 2.5 Flash,其中 5 个任务上超过 Gemini 2.5 Pro 的水平。

在多模态 DeepResearch 类任务中,R1V4-Lite 在 mm-search 上以 66 分超过 Gemini 2.5 Flash 的 64.9 分,在 FVQA 上以 67 分明显高于 Gemini 2.5 Flash 的 60.8 分。
这一系列结果验证了其「图像操作 × 深度推理交织训练」范式的有效性。

凭借 " 低延迟 × 高吞吐 × 极低成本 " 的组合优势, R1V4-Lite 适用于:实时问答、视觉检索、智能助手、多模态工具调用、高并发等在线生产场景。
二、不止看图说话,给 R1V4-Lite 一张街景,就能分析出地点
如今,大多数多模态模型仍停留在 " 封闭式智能 " 阶段,即推理只发生在模型内部,既不能主动获取外部信息,也无法执行操作或验证结果,缺乏反馈时幻觉更容易出现。
与传统只能 " 看图回答 " 的模型不同,Skywork R1V4-Lite 能够在真实场景中随手拍照就可以完成复杂任务。
也就是说,用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite 就能自己观察、操作、推理并给出答案,找到用户想要的信息、完成用户的指令。
最近,第十五届全运会在在广东举行,全运会的吉祥物 " 喜洋洋 " 和 " 乐融融 " 凭借着可爱的外表和活泼童真的动作在全网爆火。
我在 R1V4-Lite 中上传了一张吉祥物的照片,要求他帮我裁剪出一个粉色的吉祥物,并且放大。

仅需数秒,R1V4-Lite 便返回相关结果。值得关注的是,图片中包含多个粉色吉祥物,而 R1V4-Lite 精准筛选出身边未出现白色吉祥物的目标对象。
随后,我又上传了一张航拍场馆图,非常简短地问 R1V4-Lite" 这是哪里?"

从 R1V4-Lite 的回答汇总可以看到,其可以主动开展图像分析与信息提取,根据不同任务需求灵活调用图像搜索、文字搜索等工具,并结合网页搜索功能,最终输出准确且具备充分依据的答案。
三、 一边读图一边搜索,R1V4-Lite 还能当 " 淘宝识图 "
不仅如此,R1V4-Lite 在联网搜索下会自动触发深度研究能力。
通过构建推理脚手架,R1V4-Lite 能够与外部世界进行搜索、检索、比对等主动交互,进而触发搜索、检索、比对等多种外部资源交互,将搜索结果与视觉推理深度融合,形成 " 搜索—推理—验证 " 的闭环。模型由此获得跨模态、跨资源的知识扩展能力。
例如,我发给 R1V4-Lite 了一张电视剧海报,并提问:这是什么电视剧的海报,主演角色都有谁,什么时候开播,共有几集?

仅需数秒,R1V4-Lite 便主动完成图像信息识别,随即调取图像搜索工具,精准判定该海报为《唐朝诡事录之西行》相关物料。
后续其进一步调用文字搜索工具,基于从图像中提取的关键信息,从维基百科、百度百科等权威来源检索核实,最终完整回应了提问,整个过程流畅高效、精准可靠。
R1V4-Lite 在回答时会主动提供信源链接供用户参考,基于这一优势,其同样可应用于 " 识图搜索 " 场景。
我上传了新生代演员王安宇的写真海报,先是提问 " 图片中的男生是谁?",同时要求获取该男生上身外套在淘宝及品牌官网的售卖链接。

这次任务复杂度更高,R1V4-Lite 的回答耗时有所增加,但仍控制在 1 分钟左右。从结果来看,其不仅能主动调用对应工具推进任务执行,还具备报错后的自主调整能力。在遭遇回归报错时,R1V4-Lite 可自行更改搜索路径重新尝试。
即便未能找到用户所需的特定售卖链接,其也会附上相关参考信息,保障回复的实用性。
四、 一句话帮你规划,R1V4-Lite 还是你的 " 生活管家 "
此外,R1V4-planner-lite 还支持真正意义上的 " 主动式多模态 Agentic 规划 "。
以单张图像为起点,该系统可自动构建可执行的多轮任务链,完成任务分解、工具选择、参数生成、执行顺序规划等核心动作。
这标志着模型实现了从传统 " 看图回答 " 到 " 看图行动 " 的跨越,首次具备视觉驱动的行动规划能力。
在此基础上,R1V4-Planner-Lite 将规划能力延伸至系统级:模型会综合用户意图、上下文信息、可用工具及任务依赖关系,自动生成结构化执行方案,并以高可解释性的形式,明确每一步的工具选择、参数配置及核心目的,为 Agentic 智能提供了可控性、透明度与稳定性保障。
本次测试中,我未上传图片,而是直接向 R1V4-Planner-Lite 下达指令,要求其规划一条途经《唐朝诡事录之西行》取景地的旅行路线。
即便指令中未明确提及具体地名,其仍能精准理解需求,为用户制定出合理的旅行计划并推荐详细行程。
随后,我上传了一份体测报告,要求其据此生成健身计划。结果显示,R1V4-Planner-Lite 准确识别出体测指标中需提升的关键部分,并针对性地制定了完整的健身方案。
结语:昆仑万维用多模态新范式 " 以小博大 "
体验下来最直观的感受就是:Skywork R1V4-Lite 实在太方便了。
虽然 R1V4-Lite 本次是闭源发布,并未开源模型权重, 但其证明了——小模型也能很强,小模型也能很快,小模型也能多模态。
R1V4-Lite 的成功不仅来自工程优化,更源自其背后的多模态新范式:图像操作 × 深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力,展示了轻量多模态智能体的全新可能性。
这一结果进一步说明:能力密度比参数规模更重要,小模型也能逼近闭源模型的真实表现。
在 AI 实用化需求不断增强的当下,昆仑万维通过高频节奏的技术发布,持续将新能力输送到产业侧,推动多模态 AI 更快地渗透到日常工作与生活中。


登录后才可以发布评论哦
打开小程序可以发布评论哦