IT之家 02-13
Soul开源实时数字人模型,单卡4090实现96FPS流式推理!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 2 月 13 日消息,社交平台 Soul 官方今天在公众号宣布开源实时数字人生成模型 SoulX-FlashHead,能够在单张消费级显卡上实现 " 高质量高画质 " 实时数字人

SoulX-FlashHead 在 RTX 4090、5090 显卡上的表现如下:

Lite 版本(高速率):单卡 4090 推理帧率可达 96 FPS,只需要 6.4G 显存,最高支持 3 路并发。

Pro 版本(高画质):单卡 5090 推理帧率 16.8 FPS,双卡可实现 25 FPS+,FID(视觉质量指标)和 Lip-sync(唇形一致指标)在跑分中上达到 SOTA,解决 " 小模型没好画质 " 的行业痛点。

据介绍,这款模型的参数量为 1.3B,在训练时使用了双向蒸馏机制(Oracle-Guided Distillation),利用 Ground Truth 作为先知锚点进行强约束,能够让人物特征始终保持稳定,就像给模型装上了校准器一样。

同时,这款模型还在 10000+ 小时训练素材中精炼出 782 小时的高质量音画数据,经过切分、DWpose 关键点、唇形一致分数过滤等多个处理步骤,为模型提供纯净 " 养料 "。

应用方面,这款模型可以用于 7x24h 矩阵直播、游戏 NPC 引擎以及 AI 一对一外教等场景,IT 之家附上开源地址如下:

论文:https://www.arxiv.org/pdf/2602.07449

项目:https://soul-ailab.github.io/soulx-flashhead/

代码:https://github.com/Soul-AILab/SoulX-FlashHead

模型:https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B

数据集:https://huggingface.co/datasets/Soul-AILab/VividHead

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 it之家 社交平台
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论