创业邦-原创 07-29
手机免费玩!200亿独角兽推“中国版Sora”,已悄悄投资十余家公司
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

来源丨创业邦(ID:ichuangyebang)

作者丨巴里

编辑丨关雎

又一中国版 Sora 登场!

日前,智谱 AI 正式发布视频生成大模型产品——清影(Ying)。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒)," 清影 " 就能生成 1440x960 清晰度的高精度视频。

输入一段文字后(俗称 Prompt),用户可以选择自己想要生成的风格,包括卡通 3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满 AI 想象力的视频片段。

清华系背景的智谱 AI 是国内头部 AI 大模型独角兽公司,其背后投资方堪称豪华,包括阿里、腾讯、小米、美团、蚂蚁、红杉中国、高瓴资本等,估值已达到约 30 亿美元(约合 217 亿元人民币)。

时长 6 秒,免费不限量

有手机就能玩

话不多说,先拉出来遛一遛。

提示词:在霓虹灯闪烁的城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K 高清。

除了文本生成视频,也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。

同时,基于 " 清影 " 的 " 老照片动起来 " 小程序也会同步上线,只需一步上传老照片,AI 就能让凝练在旧时光中的照片灵动起来。

在生成式视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。" 我们积极在模型层面探索更高效的 scaling 方式。" 在智谱 Open Day 上,智谱 AI CEO 张鹏表示:" 随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强有力作用。"

" 本次清影(Ying)底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。我们将继续努力迭代,在后续版本中,陆续推出更高分辨率、更长时长的生成视频功能。"

智谱 AI 方面称,即日起,所有用户均可通过智谱清言 App 免费体验 AI 文本生成视频和图像生成视频的服务,无需预约,免费用户也可以不限次数使用。

清影 API 也同步上线,企业和开发者都可以通过调用 API 的方式,体验并使用清影的文生、图生视频能力,据称这也是国内上线的首个视频生成 API。

智谱 " 清影 " 与 Sora

到底有何异同?

在 OpenAI 用 Sora 震惊科技业界半年后,越来越多的公司跟进了多模态。

智谱 AI 总裁王绍兰介绍说,智谱开发的视频生成大模型 CogVideoX 与 Sora 在技术原理上还是有一致性的,同样采用了 DiT+Transformer 的架构,跟随着整个文生视频的技术路线。

但是在此基础上,智谱 " 清影 " 在视频生成过程中也做了很多算法上的改进。

首先是数据层面的提升。

文生视频很重要的一点就在于要理解文字内容,并且能够对应到图像的生成上去。而目前大量的视频其实都缺少很好的文字描述。

尽管影视剧画面下方都会配有字幕,但字幕往往是剧中角色的对话,并不是对图像本身的描述。所以,从训练语料上来看,这些视频素材并不太适合做文生视频的训练。

7 月 12 日,智谱 AI 刚刚开源了视频理解模型 CogVLM2-Video。顾名思义,视频理解模型也就是用户发来一段视频,模型能够用文字描述出来。因此,在有了这样一个视频理解模型之后,就可以把原来大量没有被人工标注的视频变成适合做文生视频训练的素材。

实际上,智谱 AI 从很早就开始部署多模态生成式 AI 模型,此次的清影也充分利用了之前的技术积累。从 2021 年开始,智谱 AI 先后发布了 CogView(NeurIPS ’ 21)、 CogView2(NeurIPS ’ 22)、CogVideo(ICLR ’ 23)、Relay Diffusion(ICLR ’ 24)、CogView3 (2024)等多项研究。

值得注意的是,与快手可灵视频模型不同,智谱 AI 作为大模型厂商并没有自己的视频数据,因此其训练数据主要有两大来源:其一是公开数据集,其二就是找到视频数据的合作伙伴,智谱 AI 目前拥有 B 站、央视频和华策影视这三家合作方。

其次是算法层面的提升。

在处理视频和语言对应训练的时候,需要将其 token 化,但是视频的 token 和语言文字的 token 又不一样。token 化就是记号化,用独特数据符号取代敏感数据。

这其中涉及两个问题:一是视频的数据量巨大,语言实际上是对事件的抽象,但视频是非常具象的,二是视频还存在空间和时间维度的问题。

所以,智谱 AI 也对此进行了改进:在整个视频 token 化的过程中,智谱 AI 自研了高效三维变分自编码器结构(3D VAE),可对视频进行强力压缩,仅相当于原视频大小的 2%。

在这次的训练中,智谱 " 清影 " 的算力支持来自于北京亦庄人工智能公共算力平台,经过数据压缩之后,整体的训练时间大大缩短,极大地提升了效率。

另外,所有的视频都要和内容对应起来。在内容对应的时候,文字和内容之间的对应关系还涉及时间同步的问题。

为此,智谱 AI 自研了一个将文本、时间、空间融合起来的 transformer 架构,摒弃了传统的 cross attention 模块,而是在输入阶段就将文本嵌入和视频嵌入连接起来,以便更充分地进行两种模态的交互。

同时,智谱 AI 通过 expert adaptive layernorm 对文本和视频两个模态进行分别处理,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

与 Sora 仍存在差距

追求技术的可普及性和成本

智谱 AI 成立于 2019 年 6 月,起源于清华大学计算机系知识工程实验室。

CEO 张鹏在清华大学计算机系获得本科和博士学位,研究方向为知识图谱。董事长刘德兵是中科院计算所博士,曾任清华数据科学研究院科技大数据研究中心副主任。

据睿兽分析,智谱 AI 至少完成了 7 轮融资,投资方阵容可谓豪华,包括了阿里、腾讯、小米、美团、蚂蚁集团、金山软件、红杉中国、高瓴资本、启明创投、清华控股等众多知名机构。

智谱 AI 融资历程

今年 6 月,有市场消息称,中东石油巨头沙特阿美旗下基金参与了智谱 AI 的投资,本轮融资额约 4 亿美元,投后估值达到约 30 亿美元(约合 217 亿元人民币)。智谱 AI 也成为第一个获得国外基金投资的国内 AI 独角兽。

值得注意的是,智谱 AI 在投资布局上也不遑多让,已经投资了十多家 AI 相关公司。

在应用层方面,智谱 AI 投资了同为 " 清华系 " 的面壁智能、生数科技,也布局了医疗、法律和文娱行业场景的大模型应用公司。

在 AI 基础架构层面,智谱 AI 投资了专注于高性能存储解决方案的焱融科技,专注算力建设的数道智算,以及 " 清华系 " 的清程极智、无问芯穹和硅基流动。

智谱 AI 投资事件

在视频生成赛道,已有字节、快手等大厂,也有爱诗科技、生数科技等专注于视频模型的初创公司。不过,在国内大模型独角兽公司里面,智谱 AI 可以说是首个推出视频生成产品的。

4 月 27 日,智谱 AI 投资的生数科技发布首个文生视频模型 Vidu,官方称,该模型全面对标 Sora,能够生成最长为 16 秒的视频,分辨率 1080P。6 月 6 日,快手自研视频生成大模型 " 可灵 " 官网上线,并发布 20 余款根据文字提示生成的示例视频,该模型支持生成长达 2 分钟、帧率 30fps 的视频,分辨率可高达 1080p,并支持自由的宽高比。

不过,Sora 在今年 2 月发布后至今一直没有向公众开放使用;快手可灵于 7 月 24 日刚刚开放内测,需要付费最低 66 元(首周优惠最低 33 元)的月卡才能使用。

而此次,智谱 " 清影 " 发布即全量上线,无需申请、无需付费,所有 C 端用户都能直接体验到 " 清影 " 的 AI 文生视频、图生视频能力。

不过,虽然生成是完全免费的,但生成视频需要排队,智谱 AI 提供了两种加速排队的订阅方式,包括 5 元加速 1 天、199 元加速 1 年。在 B 端," 清影 " 仍然会收取一定费用,标准价格为 0.5 元 / 次,也可购买不同价格和优惠的资源包。

对于视频模型的商业化,张鹏认为,现阶段,无论是 To C 还是 To B,大规模商业化都还比较早期。

他解释道," 说实话我们也不知道商业化策略未来会怎么走、什么样的形式最好。目前所谓收费的策略更多的是一种自己的尝试,想看看市场和用户的反馈,后面根据大家的反馈及时调整。对应的成本方面,在目前刚刚上线的阶段也还无法做出统计。"

有观点称,视频模型势必将对影视行业造成直接冲击。

张鹏也对此回应道,现有的 AI 视频生成技术无法彻底替代影视行业,更多是辅助的作用,但 AI 对于影视行业的变化是有积极意义的。目前来讲,把 AI 直接用在面向观众的影视生产过程当中可能还是不太够,最多是做小规模的创作。

他表示," 如果 AI 真正要完成电影制作等更高要求的任务,可能还得要有一段路去走。"

对于 OpenAI 的视频模型 Sora,张鹏也承认与世界顶级水平之间存在的差距。

" 清影现在还只是一个初步的阶段性成果,还达不到像 Sora 演示出来那么好、生成那么长的视频,还需要更多的努力。我们在不断用自己的方式往前追赶,怎么把视频生成算力成本降下来,响应速度提升上去,让技术人人可用。"

他最后表示,我们在追求技术高度的同时,也同时追求技术的可普及性和成本,这也是我们团队的特点。

本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系 editor@cyzone.cn。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 腾讯 独角兽 分辨率 清华
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论