生活消费网 02-18
昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2 月 18 日,昆仑万维开源中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1、中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1。

开源地址:

1、SkyReels-V1:https://github.com/SkyworkAI/SkyReels-V1

2、SkyReels-A1:https://github.com/SkyworkAI/SkyReels-A1

3、技术报告:https://skyworkai.github.io/skyreels-a1.github.io/report.pdf

4、SkyReels 官方地址:skyreels.ai

1. SkyReels-V1:Human-Centric Video Foundation Model,中国首个面向 AI 短剧创作的开源视频生成模型

SkyReels-V1 可实现影视级人物微表情表演生成,支持 33 种细腻人物表情与 400+ 种自然动作组合,高度还原真人情感表达。正如以下视频所示,SkyReels-V1 支持生成大笑、怒吼、惊讶、哭泣等微表情,展现出人物情感丰沛的表演细节。即使有大幅度肢体动作,SkyReels-V1 生成的微表情也完美贴合人物肢体表演。

同时,SkyReels-V1 为 AI 视频生成带来了电影级光影美学,基于好莱坞级的高质量影视数据训练,当前 SkyReels 生成的每一帧画面,在构图、演员站位、相机角度等都具备电影级的质感。无论是单人镜头表演细节,还是多人构图,当前已具备精准的表情控制和高质感画面。

更重要的是,SkyReels-V1 不仅支持文生视频、还能支持图生视频,是开源视频生成模型中参数最大的支持图生视频的模型,在同等分辨率下各项指标实现开源 SOTA。

图 1 丨 SkyReels-V1 文生视频指标对比(来源:昆仑万维 SkyReels)

能够实现这样的 SOTA 级别,不仅依赖于昆仑万维 SkyReels 团队基于自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影 & 电视剧 & 纪录片数据。更依托团队自研「Human-Centric」的视频理解多模态大模型,大幅提升视频中人物相关的理解能力,尤其是自研人物智能解析系统。

综上所述,得益于扎实的数据工作和先进的人物智能解析系统,SkyReels-V1 可以实现:

影视化表情识别体系:11 种针对影视戏剧中的人物表情理解,如不屑、不耐烦、无助、厌恶等表情的理解;

人物空间位置感知:基于人体三维重建技术,实现对视频中多人的空间相对关系理解,助力模型生成影视级人物站位;

行为意图理解:构建超过 400 种行为语义单元,实现对人物行为的精准理解;

表演场景理解:实现人物 - 服装 - 场景 - 剧情的关联分析。

SkyReels-V1 不仅是全球极少数开源的视频生成模型,还是围绕人物表演、开源视频生成模型中性能最强的。

在自研推理优化框架「SkyReels-Infer」的加持下,大幅提升推理效率,实现 544p 分辨率,推理基于单台 4090 只需 80s,还支持分布式多卡并行,支持 Context Parallel,CFG Parallel,和 VAE Parallel。此外,采取 fp8 quantization 以及 parameter-level offload,满足低显存用户级显卡运行需求;支持 flash attention、SageAttention,模型编译优化等,进一步优化延迟;基于开源 diffuser 库,提升易用性。

正如下图 2 所示,在同等 RTX4090 资源情况下对比 ( 4 卡 ) ,SkyReels-Infer 版本比 HunyuanVideo 官方版本端到端延迟减少 58.3% ( 293.3s vs 464.3s ) ;SkyReels-Infer 版本具备更鲁棒的部署策略,支持用户级别显卡 1 卡 -8 卡的推理部署。

图 2 丨推理生成 544p 视频,使用相同卡数的 RTX 4090,SkyReels-Infer 版本端到端延迟优于 HunyuanVideo 官方 ( xdit ) 58.3%

在同等 A800 资源情况下对比,SkyReels-Infer 版本比 HunyuanVideo 官方版本端到端延迟减少 14.7%~28.2%(如图 3 所示),SkyReels-Infer 版本具备更鲁棒的多卡部署策略。

图 3 丨推理生成 544p 视频,SkyReels-Infer 版本具备更鲁棒的多卡部署策略,支持 8 卡部署

2.SkyReels-A1:首个 SOTA 级别的基于视频基座模型的表情动作可控算法

为了实现更加精准可控的人物视频生成,昆仑万维还开源了 SOTA 级别的基于视频基座模型的表情动作可控算法 SkyReels-A1,对标 Runway 的 Act-One,SkyReels-A1 支持视频驱动的电影级表情捕捉,实现高保真微表情还原。能够基于任意人体比例(包括肖像、半身及全身构图)生成高度逼真的人物动态视频,其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

SkyReels-A1 不仅支持侧脸的表情控制生成、还能实现更加逼真的眉眼微表情生成和更大幅度的头部与自然身体动作。SkyReels-A1 能够实现更大幅度的人物表情驱动。相比 Runway 的 Act-One,SkyReels-A1 可以迁移更复杂的表情动作,生成的人物面部神情可以配合肢体及画面内容实现更栩栩如生的表演。

3. 以开源之姿,以破局之势,昆仑万维致力于推动全球 AI 短剧创作生态繁荣发展

昆仑万维一直坚持开源,推动技术平权。昆仑万维同时将 SOTA 级别的 SkyReels-V1 和 SkyReels-A1 进行开源,是 AI 短剧行业首例,也是昆仑万维 SkyReels 回馈行业迈出的一小步,更是促进 AI 短剧创作和视频生成行业枝繁叶茂的一大步。

我们相信在进行推理优化的升级和可控算法的开源后,它们将为用户带来低成本、可控性更强的 AIGC 能力。昆仑万维希望通过更多优秀视频生成模型的开源和极致的 AI 短剧产品能力,为用户带来低成本实现 AI 短剧创作的可能性、突破行业目前视频生成一致性差的问题,让大众通过自己的电脑生成精细且可控的人物表演。

此次开源的视频大模型,不仅是一次技术突破,有助于缩小全球内容产业的数字鸿沟,更是文化产业生产力的一次革命。未来,短剧与游戏、虚拟现实等领域的跨界发展,将会加速产业融合。AI 短剧也有希望从 " 技术实验 " 迈向 " 主流创作 ",成为全球文化输出的新载体。

" 实现通用人工智能,让每个人更好地塑造和表达自我 " 是公司的使命,未来,昆仑万维及 SkyReels 还将开源更多视频生成模型和算法、通用模型,通过开源实现 AGI 平权,推动 AI 短剧生态的持续建设和繁荣,促进开源社区、开发生态以及 AI 行业的发展。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

昆仑万维 开源 开源中国 分辨率 好莱坞
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论