钛媒体 App 5 月 16 日消息,腾讯混元发布业内首个毫秒级响应的实时生图大模型 Hunyuan Image 2.0(参数规模提升数 10 倍),支持文本、语音、草图等多种交互方式。只需一句话、写一个 prompt 或是画一笔线稿,图像就能同步生成,更具写实质感。Hunyuan Image 2.0 基于单双流 DiT 架构,提升生成效率,同时对图像质感做了系统性重构,没有牺牲任何细节。此外,Hunyuan Image 2.0 引入多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化 caption 系统,可理解语义并推测画面表达意图,再一步步拆解画出。
登录后才可以发布评论哦
打开小程序可以发布评论哦