Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

根据开源社区 Hugging Face 10 月 29 日最新榜单数据 ,SoulX-Podcast 模型在发布第二天登顶 TTS ( Text To Speech, 从文本到语音 ) 趋势榜。

此前 ,Soul App AI 团队 ( Soul AI Lab ) 联合西北工业大学 ASLP@NPU 团队和上海交通大学 X-LANCE Lab 正式开源 SoulX-Podcast, 该模型是一款专为多人、多轮对话场景打造的语音生成模型 , 支持中、英、川、粤等多语种 / 方言与副语言风格 , 能稳定输出超 60 分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

传统语音合成系统在多人、多轮对话场景常面临一些痛点问题 , 例如上下文衔接不自然 ; 缺少副语言 ( 如笑 / 叹气 ) 、方言等的可控生成能力 , 缺少 " 活人感 "; 情绪状态无法随对话内容流畅改变 , 影响沉浸体验等。SoulX-Podcast 致力于解决这些核心问题 , 其在播客场景、通用语音合成或克隆场景下出色表现 , 以及生动、真实的语音体验也让该模型在开源社区发布后迅速获得关注。

作为全球最大 AI 开源社区 ,Hugging Face 汇聚了超百万开发者 , 海量开源模型在此发布 , 全球活跃开发者们则 " 用手投票 ", 让高性能表现、高效易用的模型脱颖而出。SoulX-Podcast 在发布第二天快速冲上 Hugging Face TTS 趋势榜榜首 , 并且在趋势总榜排名持续上升中。这也证明了行业对 AI 语音对话的关注 , 以及模型本身的较高吸引力和讨论度。

在开源社区受到广泛关注之外 ,SoulX-Podcast 在发布后也引发了众多 AI 从业者、AI 发烧友的讨论 , 以及对国产语音合成开源模型能力的认可。

Hugging Face CEO Clément Delangue 转发相关讨论内容

据了解 ,Soul AI 团队未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升 , 并加速技术在多样化应用场景与整体生态中的融合落地 , 为用户带来更加沉浸、智能且富有温度的交互体验 , 持续提升个体的幸福感与归属感。同时 , 团队将进一步深化开源生态建设 , 与全球开发者携手 , 共同拓展 AI 语音等前沿能力的边界 , 探索 "AI + 社交 " 的更多可能。

Demo Page: https://soul-ailab.github.io/soulx-podcast

Technical Report: https://arxiv.org/pdf/2510.23541

Source Code: https://github.com/Soul-AILab/SoulX-Podcast

HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

宙世代

一起剪

相关标签