作者 | 黄昱
编辑 | 周智宇
年初," 文生视频 " 模型 Sora 的出现,掀起了全球竞逐 AI 视频生成的热潮;近 10 个月过去,Sora 迟迟没有对外开放,而作为后来者的腾讯混元,抢先加入了这一战场。
12 月 3 日,腾讯混元大模型正式上线视频生成能力,C 端用户通过腾讯元宝 APP 就可申请试用,企业客户通过腾讯云提供服务接入,目前 API 同步开放内测申请。
把文生视频摆上牌桌,这是继文生文、文生图、3D 生成之后,腾讯混元大模型的又一新里程碑。与此同时,腾讯开源该视频生成大模型,参数量 130 亿,是当前最大的视频开源模型。
据华尔街见闻了解,腾讯混元的视频生成几乎没有门槛,用户只需要输入一段文字描述,腾讯混元生成视频大模型就可以生成一段五秒的视频。
相较于 Sora 分钟级别以及一些 " 类 Sora" 产品 10s 的视频生成时长,腾讯混元的视频生成时长不太让人振奋。
在当日的媒体沟通会上,腾讯混元多模态生成技术负责人表示,视频时长不是技术问题,而是纯算力和数据问题,因为时间扩长一倍,它的算力是一个平方级的上升,所以不是很划算。
此外,他指出,大部分人用视频的情况下都是一个镜头接一个镜头,所以混元视频生成模型第一版先放 5s 时长的出来,优先满足大部分的需求。" 未来如果大家有很多强烈需求,要做很长的一镜到底,我们再去做升级。"
腾讯混元生成视频目前主要呈现四大特点:写实画质、语义遵从、动态流畅、原生转场。
在技术路线上,腾讯混元视频生成模型选择了跟 Sora 类似的 DiT 架构,并在架构设计上进行多处升级,包括引入多模态大语言模型作为文本编码器、基于自研 Scaling Law 的全注意力 DiT、自研 3D VAE 等。
腾讯混元多模态生成技术负责人指出,混元算是业内首个或者特别少数拿多模态大语言模型来做文本编码器的视频生成模型。业界现在更多还是选用 T5 模型和 CLIP 模型作为文本编码器。
之所以这样选择,是因为腾讯混元是看中了这条技术路线的三大优点,包括增强复杂文本的理解能力、原生图文对齐能力以及支持系统提示词。
此外,腾讯混元多模态生成技术负责人提到,在做 GPT 之前,OpenAI 花了很多心思去验证 Scaling Law(用更多的数据训练更大的模型)在语言模型中的有效性,但在视频生成领域学术界或业界没有把 Scaling Law 是否有效公开出来。
在此背景下,腾讯混元团队自己把图像、视频生成的 Scaling Law 验证了一边,最终得出结论,图像 DiT 有,视频基于图像 DiT 做二阶段的训练一样是有 Scaling Law 的性质在的。
" 所以我们首版腾讯混元视频生成模型是基于这套比较严格的 Scaling Law 的推论,做了一个 130 亿的模型。" 腾讯混元多模态生成技术负责人说道。
与此同时,腾讯混元也在疾行视频生成生态模型的探索,包括图生视频模型、视频配音模型、驱动 2D 照片数字人等。
腾讯混元多模态生成技术负责人指出,相较于文生视频,图生视频模型在可用性的推进上进展会更快,可能在不到一个月之内混元会发布最新进展。
自去两年前 ChatGPT 掀起的 AI 大模型热潮以来,大语言模型技术路径已收敛,而视频生成模型仍处于探索期。
东方证券分析师指出,在 OpenAI 的技术方向引领下,目前语言模型的技术路径基本就是 GPT 这一条路。而多模态技术方面,目前没有一家公司处于绝对领先地位,技术路径仍存在探索的可能。
腾讯混元多模态生成技术负责人也表示,文生视频整体都处于不太成熟的阶段,综合合格率都不高。
作为多模态生成中难度最大的领域,视频生成对算力、数据等资源要求较高,目前相较于文本、图像成熟度更低,同时面临商业化、产品化进展较慢的挑战。
OpenAI 也宣布由于算力短缺而推迟 Sora 的更新,导致至今尚未对外开放。
尽管如此,为了更快抢占市场,去年十一月以来,视频生成领域的成果密集落地。
截至目前,国内外不少大模型厂商都实现了类 Sora 产品落地,包括国内 MiniMax、智谱、字节、快手、爱诗科技等,海外 Runway、Pika、Luma。不过,由于算力和技术等因素,视频生成时长一般在 10s 以内。
为了推进商业化,大模型厂商必须找到更多视频生成的应用场景。这次,腾讯给出的思路是:混元视频生成模型画面具备高质感,可用于工业级商业场景例如广告宣传、动画制作、创意视频生成等场景。
视频 AI 是多模态领域的最后一环,也是更容易催生爆款应用的领域,但如何在算力投入与商业化之间缺的平衡,依然是目前 " 类 Sora" 的视频生成模型们必须解决的一大难题。
登录后才可以发布评论哦
打开小程序可以发布评论哦