4 月 28 日,商汤科技发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该系列基于今年 3 月商汤自主研发的 NEO unify 架构,在单一模型上统一了多模态理解、推理与生成。
传统多模态模型多采用视觉编码器搭配语言骨干的拼接方式,存在信息损耗。SenseNova U1 去除了视觉编码器和变分自编码器,直接在像素上运行,重建统一表征空间。
该架构由商汤与南洋理工大学 S Lab 合作研发,让图像和文本在同一套表征体系中被直接处理,减少了模块间的信息损耗和延迟。
商汤本次开源的是轻量版 SenseNova U1 Lite,包含两个规格:基于稠密网络的 8B MoT 版本,以及采用混合专家架构的 A3B MoT 版本。
相关代码已在 GitHub 和 Hugging Face 平台上线。商汤表示,未来计划推出体量更大的版本并公布详细技术报告。
效率是该模型较为突出的特点。8B 参数规模下,它在多模态理解、生成与推理等多个维度上逼近甚至部分超越一些商业闭源模型。
在 AI2D 等理解基准中拿到 91.7 分,在复杂信息图生成任务中平均得分 50.7,是目前开源模型里表现最强的。
在通用图像生成测试中,生成质量可比肩 Qwen Image 2.0 Pro 或 Seedream 4.5,同时推理响应速度更快。
视觉推理方面,在 VBVR(UMM)测试中拿到 60.5 分,高于 Nano Bananaz 的 49.6。在 WISE 维度上取得 69.0 分,领先于 Qwen Image 的 63.0。
此外,SenseNova U1 支持连续性图文创作输出,只需单次单模型调用即可完成分步骤图文生成,图像风格保持高度连贯,这在行业内属首次实现。
该模型还表现出较强的物理空间理解能力,未来可应用于机器人系统,在单一模型闭环内完成环境感知、推理和任务执行。
商汤此次开源并非孤立行动。在国内开源大模型市场,阿里巴巴通义千问(Qwen)系列占据明显优势,截至 2026 年 3 月累计下载量突破 10 亿次,占全球开源模型总下载量 50% 以上。
DeepSeek 则通过持续的价格策略压低了 AI 调用成本。商汤选择在这个时间点开源 U1,市场分析认为其意图是从收取短期授权费转向构建开发者生态,复制阿里巴巴 Qwen 的路径,通过模型免费带动周边服务和基础设施实现商业变现。
开源能否帮助商汤在阿里 Qwen 已经占据主导的市场上打开局面,目前尚无定论。对商汤而言,关注点已从单一模型的技术指标,转向 SenseNova 整个生态系统的开发者活跃度和实际应用规模。
当技术架构的创新已经落地,接下来的问题在于开发者是否愿意迁移,以及与之配套的工具链和服务能否形成足够的黏性。



登录后才可以发布评论哦
打开小程序可以发布评论哦