36氪 09-02
采用「MyTwins.ai」数字分身,「开学季 Ai 第一课」为直播行业带来了新场景
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

9 月 1 日,「阿里云 - 云工开物」邀请了 4 位院士 / 教授,用 " 自己的数字分身 " 给大家讲授 AI 相关的知识。此次「开学季 Ai 第一课」采用的技术,是由36 氪此前曾报道的「数字生命技术领域创新企业「MyTwins.ai」提供的。

张亚勤院士的数字人(采用 MyTwins.ai 数字分身技术生成) 图片来源:MyTwins.ai

本次公开课导师包括图灵奖得主 John E. Hopcroft,中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤,浙江大学人工智能研究所所长吴飞,复旦大学计算机学院教授黄萱菁,阿里云高校合作部负责人李贝,向观众展示了教育领域可以用老师的数字分身来给学生讲课。

作为数字分身直播产品的提供方,MyTwins.ai 在年初与淘宝知名头部主播陈洁 Kiki 合作后,持续进行了一系列技术迭代,现阶段已经能够让数字分身以不同的体态、表情、拍摄角度 " 出镜 ",适应更多视频及直播环境。

数字人直播带货的概念在近年来逐渐火爆,成为电商竞争新赛道的同时,也掀起了数字人技术新一轮的发展浪潮。而在 AI 技术的支持下,数字人主播以其低成本的优势,吸引了大量的关注。

图片来源:MyTwins.ai

早期很多数字人产品,只能让数字人保持单一体态,根据口播内容做一些简单的口型变化和上肢动作。MyTwins.ai 相关负责人告诉 36 氪,早期数字人受限技术而无法做到声音与口型同步,比如发 " 阿 " 的声音,嘴巴应该是张大的,数字人的嘴巴却是闭着的。

" 后来我们采用 3D Flame 技术对人脸建模,通过声音驱动 3D 几何表征形变,再使用 3D Gaussian 进行渲染。在口型、表情、姿态的精准度上,远远高于传统的纯 2D 技术路线所展现的效果。"

此外,为了让用户快速拿到生成好的数字分身,降低产品的使用门槛,MyTwins.ai 研发了一套通用模型。

该通用模型由两个模块构成:基于 VAE 的 Audio2Motion(声音到 3D 几何驱动)算法,在 3D 几何空间上实现对口型、表情的驱动;3D->2D 的人脸生成算法,渲染出高清晰度、口型贴合的数字人。

以前需要 2-3 分钟的视频素材,花费数小时的时间训练数字人;在技术组合迭代后,MyTwins.ai 已实现用 30 秒的视频素材进行小样本微调,训练时间缩短到 5 分钟,有效提升了效率。

举例而言,在此次的「AI 第一课」中,John E. Hopcroft 数字分身建模的原视频便只有 30 秒,且在原视频清晰度较低的情况下,数字人精准还原了 " 表情、口型 " 等面部微变化。

当然,数字分身若想适应更多场景,还有很长的路要走。对于 MyTwins.ai 而言,现阶段直播带货依然是团队主攻的研发方向之一。

为了能够帮商家直播卖货做成交,MyTwins.ai 自研了一整套直播行业 AI 解决方案,特别是针对直播行业的主播大语言模型。

对于很多商家——尤其是没做过直播电商的商家来说,从零搭建直播团队的成本和风险都不小。如果初期效果差,人员工资便是一笔不小的固定支出;效果好了,如果主播团队选择跳槽,那商家便又要从头开始。

MyTwins.ai 基于多年在直播领域的数据积累,研发了直播行业主播大语言模型。商家只要输入 " 商品名称、卖点 " 即可用头部主播的讲品方法论,由 AI 自动撰写头部主播风格的商品卖货讲稿,还能在直播间实时回复用户的问题,促进成交转化。

" 从海量的直播数据中,我们构建了优质的直播行业数据集,微调开源 LLM,并从讲品风格、场景营造、深挖卖点、诱导消费等维度,让模型学习到头部主播带货的讲品精髓。"MyTwins.ai 相关负责人表示。

艾媒咨询数据显示,2023 年中国数字人带动的产业市场规模和核心市场规模分别为 3334.7 亿元和 205.2 亿元,预计 2025 年将分别达到 6402.7 亿元和 480.6 亿元。随着数字人产业的不断成熟,对于商家来说,数字人直播将有机会成为卖货的核心渠道。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 阿里云 院士 直播带货
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论