驱动之家 05-16
首个毫秒级响应的实时生图大模型!腾讯混元图像2.0正式发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 5 月 16 日消息,今天腾讯正式发布了业内首个毫秒级响应的实时生图大模型——混元图像 2.0(Hunyuan Image2.0)。

目前已经在腾讯混元官方网站上线,并对外开放注册体验,该模型主要有两大特点:实时生图、超写实画质。

相比前代模型,腾讯混元图像 2.0 模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领先模型。

在同类商业产品每张图推理速度需要 5 到 10 秒的情况下,腾讯混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了传统 " 抽卡—等待—抽卡 " 的方式。

除了速度快以外,腾讯混元图像 2.0 模型图像生成质量提升明显,通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像可有效避免 AIGC 图像中的 "AI 味 ",真实感强、细节丰富、可用性高。

在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准 GenEval(Geneval Bench)上,腾讯混元图像 2.0 模型准确率超过 95%,远超其他同类模型。

提示词:人像摄影,爱因斯坦,背景是东方明珠,自拍视角

腾讯表示,腾讯混元图像 2.0 引入多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化 caption 系统,不仅能理解你在说什么,更能推测出你希望画面「怎么表达」。

哪怕你一句话里埋了三层含义,它也能一一拆解,再一笔一笔画出来。

除了文字输入,腾讯混元图像 2.0 还可以通过语音直接输入提示词,系统将语音自动转写为文字,并在识别后即时生成图像,适用于直播讲解、移动创作等场景。

也可以上传草图作为参考,模型能自动识别线稿的结构与构图逻辑,再结合提示词内容补全光影、材质、背景等细节,迅速扩展成图。

腾讯混元图像 2.0 模型生成的图片:

人像摄影风格

动物特写

复古摄影

动漫风格

真实人物风格

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 爱因斯坦
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论