一张图就能创建上半身动作视频,方法还入选了 ICCV 2025!
来自清华大学、IDEA(粤港澳大湾区数字经济研究院)的研究人员提出新框架GUAVA,不需要多视角视频、不需要针对不同个体单人训练,仅需 0.1 秒就能从单图创建一个上半身 3D 化身。
通常来说,创建逼真且富有表现力的上半身人体化身(如包含细致面部表情和丰富手势),在电影、游戏和虚拟会议等领域具有重要价值。
但截至目前,仅凭单张图像实现这一目标仍然是一个重大挑战,而且同时还需要易于创建和支持实时渲染。
而 GUAVA,作为第一个从单张图像创建可驱动上半身 3D 高斯化身的框架,与需要多视图视频或单人训练的 3D 方法不同——可以在秒级时间内完成推理重建,并支持实时动画和渲染。
与基于扩散模型的 2D 方法相比,GUAVA 使用 3D 高斯来确保更好的 ID 一致性和实时渲染。而且还引入一种富有表现力的人体模型 EHM,解决了现有模型在捕捉细致面部表情方面的局限性。
此外,它还利用逆纹理映射技术以准确地预测高斯纹理,并结合一个神经渲染器来提高渲染质量。
实验结果显示,GUAVA 在渲染质量和效率方面优于现有 2D 和 3D 方法。
下面详细来看 GUAVA 所采用的方法。
3DGS 的兴起催生了许多 3D 化身重建方法,然而这些方法仍然存在一些局限性:
逐 ID 练:每个个体都需要单独训练;
训练复杂性:该过程耗时,需要标定的多视图或单目视频;
表现力有限:头部重建方法缺乏身体动作表示,而全身方法则忽略了细致的面部表情。
另外,扩散模型在视频生成方面取得了显著成果。一些工作通过添加额外条件,如关键点或 SMPLX 渲染图,来引导扩散模型的生成过程,扩展了模型在生成可控人体动画视频上的应用。
但问题是,虽然这些方法实现了良好的视觉效果,其局限性却依旧存在:
ID 一致性:难以保持一致的 ID,尤其是在姿势发生大变化时;
效率:高计算成本和多步去噪导致推理速度慢,阻碍了实时应用;
视点控制:2D 方法无法轻松调整相机姿势,从而限制了视点控制。
而 GUAVA 则通过以下举措进行了改进。
(1)EHM 模型与精确跟踪
为了解决 SMPLX 模型在捕捉面部表情上的不足,GUAVA 引入了 EHM(Expressive Human Model)。
EHM 结合了 SMPLX 和 FLAME 模型,能够实现更准确的面部表情表示。
同时,研究人员设计了对应的两阶段追踪方法,实现从单张图像到姿态的准确估计——首先利用预训练模型进行粗略估计,然后使用 2D 关键点损失进行精细优化,从而为重建提供精确的姿势和表情参数。
(2)快速重建与双分支模型
GUAVA 基于追踪后的图像,通过单次前向推理方式完成化身的重建。
它包含两个分支:一个分支根据 EHM 顶点和投影特征预测粗略的 " 模板高斯 ",另一个分支则通过 " 逆纹理映射 " 技术,将屏幕特征映射到 UV 空间,生成捕捉精细细节的 "UV 高斯 "。
这两种高斯组合成完整的 Ubody 高斯,从而在保持几何结构的同时,捕捉丰富的纹理细节。
(3)实时动画与渲染
重建完成后,Ubody 高斯可以根据新的姿势参数进行变形和动画。
最后,通过神经细化器对渲染的图像进行优化,以增强细节和渲染质量。
实验设置方面,研究人员从 YouTube、OSX 和 HowToSign 收集视频数据集,主要关注人体上半身视频。
其中训练集包含超过 62 万帧,测试集包含 58 个 ID。
为确保评估的全面性,实验采用了多种指标:
自重演(self-reenactment)场景下,通过 PSNR、L1、SSIM 和 LPIPS 评估动画结果的图像质量;
跨重演(cross-reenactment)场景下,使用 ArcFace 计算身份保留分数(IPS)以衡量 ID 一致性。
评估中与 MagicPose、Champ、MimicMotion 等 2D 方法以及 GART、GaussianAvatar 和 ExAvatar 3D 方法进行比较。
定量结果如下:
(1)Self-reenactment
与 2D 方法相比,GUAVA 在所有指标(PSNR, L1, SSIM, LPIPS)上均表现最佳,并在动画和渲染速度上达到约 50 FPS,而其他方法仅为每秒几帧。
与 3D 方法相比,GUAVA 的重建时间仅为 0.1 秒左右,而其他方法需要数分钟到数小时。
(2)Cross-reenactment
GUAVA 在身份保留分数(IPS)上显著优于其他所有 2D 方法,证明了其在不同姿势下保持 ID 一致性的能力。
定性结果显示,尽管 2D 方法能生成高质量图像,但它们在保持 ID 一致性和准确恢复复杂手势及面部表情方面存在不足。
例如,Champ 的手部模糊 ,MagicPose 存在失真 ,而 MimicMotion 则无法保持 ID 一致性。
3D 方法在处理精细的手指和面部表情方面存在困难,也缺乏泛化能力,在未见区域或极端姿势下会产生伪影。
GUAVA 则能对未见区域生成合理的结果,在极端姿势下表现出更好的鲁棒性,并提供更准确、更细致的手部和面部表情。
为了验证方法中各个部分的有效性,论文还进行了充分的消融实验。
小结一下,论文所提出的 GUAVA,是一个用于从单张图像重建可动画、具有细腻表现力上半身 3D 化身的快速框架。
研究通过引入 EHM 模型及其精确跟踪方法,增强了面部表情、形状和姿势的捕捉能力,并通过 UV 高斯和模板高斯的两个推理分支共同构建一个上半身高斯。
实验结果表明,GUAVA 在渲染质量和效率方面均优于现有方法。它实现了约 0.1 秒的重建时间,并支持实时动画和渲染。
目前相关代码已开源,感兴趣可以进一步关注。
论文地址 : https://arxiv.org/pdf/2505.03351
项目主页:https://eastbeanzhang.github.io/GUAVA/
开源代码:https://github.com/Pixel-Talk/GUAVA
视频 Demo: https://www.bilibili.com/video/BV1k45AzaEpW/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦