快科技 6 月 11 日消息,据媒体报道,智象未来(HiDream.ai)推出的商用版图像生成模型 HiDream-O1-Image-1.5,在全球知名独立 AI 模型评测平台 Artificial Analysis 的文生图榜单(Text to Image Leaderboard)中位列全球第二,综合评分仅次于 OpenAI。
该榜单采用匿名对比、用户投票与 ELO 动态排名机制,最大程度降低品牌认知对评测结果的影响,更能反映真实用户在开放生成场景中的偏好判断。

在这一专业评测体系下,HiDream-O1-Image-1.5 在超过 4000 个样本对比中获得了 1265 ELO 评分。该成绩不仅体现了模型在图像质量上的竞争力,也反映出其在语义遵循、复杂画面生成、文字渲染及多主体控制等综合能力上的显著提升。
据悉,半个月前,智象未来 HiDream-O1 系列的开源模型 HiDream-O1-Image-Dev-2604 刚刚拿下文生图榜单开源模型全球第一。开源版本证明了像素级原生全模态架构能够在开放评测与开发者社区中顺利跑通。

此次表现优异的 HiDream-O1-Image-1.5 商用版本,则进一步面向广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP 创作等更高要求的商业场景,展现出强大的图像质量、文字渲染、复杂排版、多主体一致性及视觉叙事能力。
HiDream-O1-Image-1.5 的技术核心是其原生全模态架构—— Unified Transformer(UiT)。
与传统文生图模型常见的 " 文本编码器 + VAE + 扩散模型 " 模块化路径不同,UiT 从底层将图像像素、文本 Token、视频体素以及音频、动作、空间关系等原始信号映射进同一个共享 Token 空间,由同一套 Transformer 完成理解、生成与推理。

这意味着模型不再需要在不同模态之间反复转换信息,从而在文字密集排版、多主体生成、分镜叙事等复杂任务中显著减少了细节损耗与语义错位。
智象未来的长期目标是构建原生全模态世界模型。其理念在于:一张图像承载着现实世界某一时刻的主体、空间、材质、光影与关系——只有稳定理解并生成这些状态,模型才能进一步处理连续时间中的运动、因果、镜头和叙事。
HiDream-O1-Image-1.5 的表现验证了 UiT 架构的可扩展性,也为后续多图一致性、视频首帧生成乃至长视频生成提供了更稳定的底层能力。
【本文结束】如需转载请务必注明出处:快科技
责任编辑:鹿角


登录后才可以发布评论哦
打开小程序可以发布评论哦