10 月 29 日,开源社区 Hugging Face 最新趋势榜显示,Soul App 张璐团队推出的开源模型 SoulX-Podcast 在发布仅一天后即登顶 TTS(Text To Speech,文本到语音)模型趋势榜。

作为全球最具影响力的 AI 开源平台之一,Hugging Face 汇聚了数百万开发者与海量模型,SoulX-Podcast 能在激烈竞争中快速位列榜首,不仅反映出其在语音合成领域的技术实力,也体现出开源社区对该模型的关注。
据悉,SoulX-Podcast 由 Soul AI Lab 联合西北工业大学 ASLP@NPU 团队与上海交通大学 X-LANCE Lab 共同研发并开源。该模型专为多人、多轮语音对话场景设计,能够在中文、英文以及四川话、粤语等多语种和方言之间灵活切换,还支持副语言风格表达,如笑声、叹息等,使语音内容更具真实感与情感层次。
传统 TTS 系统在复杂对话环境中常面临上下文衔接不自然、缺乏情绪控制、人物语调单一等问题。SoulX-Podcast 通过改进建模结构和数据策略,在语音连贯性、角色情感控制与韵律自然性等方面实现突破,能稳定生成超过 60 分钟的多轮对话语音,角色切换流畅、情绪转变自然,呈现出更接近真人交流的声音效果。这一特性使其在播客制作、虚拟语音互动以及语音克隆等场景中均表现突出。

在开源社区发布后,SoulX-Podcast 引发了广泛讨论。众多 AI 从业者与技术爱好者在 Hugging Face 社区及社交平台上分享体验与技术分析,对这一国产语音合成模型的开放能力表示认可。Hugging Face 首席执行官 Clément Delangue 也转发了相关讨论,进一步扩大了模型在国际社区中的影响力。
此次 SoulX-Podcast 登顶 Hugging Face 榜单,既显示出当前业界对 AI 语音交互技术的高度热情,也是外界对 Soul 在 AI 交互研究方面的持续投入与技术积累的认可。Hugging Face 趋势榜基于全球开发者的实际使用与互动数据生成,SoulX-Podcast 取得优秀成绩,表明其在易用性与创新性方面获得用户认可,也让国产 AI 语音技术的进展受到更多国际关注。
Soul 张璐团队长期关注 "AI 与社交 " 的结合方向,持续在语音对话合成、全双工通话、拟人化表达等领域推进研究与应用。通过开源 SoulX-Podcast,团队在语音交互技术上再次取得重要进展,为业界提供了可复用、可拓展的技术框架。该成果的开源与传播,正在推动更多开发者参与语音生成技术的研究与实践,促进 AI 语音生态的开放共建。


登录后才可以发布评论哦
打开小程序可以发布评论哦