AI自主决定说话时机，Soul App端到端全双工语音通话大模型全面升级

当 AI 深刻介入人类生活、重构链接方式 , 社交场景究竟需要怎样的底层能力创新带来交互体验的提升 ?

近日 , 社交平台 Soul App 自研端到端全双工语音通话大模型全面升级。此次升级重新定义 " 全双工 " 交互范式 , 新模型摒弃了传统语音交互中依赖的 VAD ( 话音活性检测 ) 机制与延迟控制逻辑 , 打破行业中普遍存在的 " 轮次对话 " 模式 , 赋予 AI 自主决策对话节奏的能力。AI 可实现主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等。同时 , 模型具备多维度感知 ( 包括时间感知、环境感知、事件感知等 ) , 口语化表达 ( 如语气词、结巴、明显情绪起伏 ) 、音色复刻等能力 , 让 AI 更具 " 真人感 ", 支持打造更沉浸、类现实交互的语音互动新体验。

Soul 新升级的端到端全双工通话大模型即将开启站内内测 , 后续将陆续落地于虚拟人实时通话、AI 匹配等 1V1 互动场景。同时 ,Soul AI 团队正探索将该能力应用于多人互动场景 , 让 AI 能在多人对话中 , 精准把握说话时机 , 适时加入交流、延展话题 , 推动多元关系网络的构建。

Soul App CTO 陶明表示 , 社交是情绪价值和信息价值交换的双向关系 ,Soul 始终致力于以创新的技术和产品方案为用户提供更智能、更沉浸、更优质的交互体验 , 让天下没有孤独的人。

全双工语音实时通话 , 重新定义 AI 社交陪伴场景的语音交互

此次 Soul 技术升级重点聚焦在全双工实时语音通话能力在陪伴场景的交互突破。自新一轮人工智能浪潮兴起 ,AI 对话、AI 陪伴类产品率先迎来爆发 , 也成为了大众接触 AI 的首选应用品类。但此前受限于技术发展 , 人机对话普遍存在 " 一问一答 " 的机械式互动现象 , 即 " 用户提问—— AI 输出 " 依次进行 , 过程中 , 延迟、打断等均将影响交互的沉浸感。

2024 年 ,Soul 推出自研端到端全双工语音通话大模型 , 具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点 , 能够直接理解丰富的声音世界 , 支持超拟人化的多风格语言。为进一步实现更接近生活日常的交互对话和 " 类真人 " 的情感陪伴体验 , 近日 ,Soul 再次升级模型 , 具体来看 , 升级后 AI 能力特点包括 :

一、全双工语音交互 ,AI 具备自主决策反应能力

新模型支持响应 ( Response ) 、倾听 ( Listen ) 与打断 ( Interrupt ) 流式预测 ,AI 自主决定发言时机 , 实现完全端到端的全双工交互—— AI 与用户可以同时说话 ( 如辩论、吵架、合唱 ) 、适宜打断用户 / 被用户打断、AI 主动打破沉默发起话题。

当 AI 拥有自主决策反应能力 , 在边听边说中 , 掌握互动时机、互动内容的 " 主动性 ", 将极大提升人机对话的自然度 , 并且在较长时间、多轮对话的交互中 , 实现沉浸的类真实交互体验。

二、日常表达口语化和情感化 , 情绪更鲜明的人机交互

让 AI 更具 " 真人感 ", 这包括在情绪表达、发音特点、对话内容等多维度的综合指标提升 , 更加接近现实日常表达。例如 , 情绪表达方面 , 除了具备笑、哭、生气等情绪特色外 , 新模型的声音情绪起伏更加明显 , 并能结合对话推进实现同步变化。在发音特点上 , 具备语气词、结巴、常用口头禅、咳嗽等日常语音元素。此外 ,AI 对话的内容更加口语化、社交化 , 而非书面语言。

三、时间、事件、环境感知能力 , 互动更具沉浸感

Soul 的新模型基于纯自回归模型架构 , 统一文本和音频生成 ( Unified Model ) , 充分利用大语言模型强大的学习能力 , 让 AI 发言深度整合人设、时间、环境及上下文对话等信息。这意味着 , 具备感知、理解能力的 AI 能够更好塑造 " 数字人格 ", 形成丰富的 AI 故事线 , 让人机交互真正成为 " 情感与信息的双向交流 "。

值得一提的是 , 目前 ,Soul AI 团队正探索全双工语音通话模型在多人场景的扩展 , 例如在多人语音对话中 ,AI 凭借自主决策能力 , 判断说话时机 , 有效组织话题讨论与延伸 , 融入真实关系生态。

让 AI 融入社交关系网络 , 提供情绪价值和信息价值

2025 年 , 伴随着 AI 在大众层面的渗透率进一步提升以及技术能力的持续跃进 ,"AI 应用爆发 " 成为行业共识。在众多垂类应用场景 ," 社交 " 因具备极高流量价值、网络效应和交互入口等特点 , 被视为诞生 AI 时代 "Killer App" 重要领域之一。

作为较早思考将 AI 应用于社交的互联网平台 ,Soul App 自 2016 年上线后便积极拥抱 AI, 重塑关系的发现、建立、沉淀环节 , 帮助用户在无压力的社交环境中 , 自在表达 , 基于兴趣构建多元社交关系网络。

2020 年 ,Soul 启动系统的 AIGC 技术研发工作 , 并在智能对话、语音、3D 虚拟人等方面拥有前沿积累。自 2023 年推出自研语言大模型 Soul X 后 ,Soul 还陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等大模型能力。2024 年 ,Soul AI 大模型能力已整体升级为多模态端到端大模型 , 支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性。

在扎实的 AI 底层能力长期积累基础上 ,Soul 团队基于深耕社交领域的深刻洞察 , 快速推动技术在应用层的落地 , 并围绕用户实际体验反馈总结优化方向。在发展过程中 ,Soul 快速明确自身 AI 布局路线 , 即 "AI 帮助用户交朋友 " ( AI 辅助社交 ) 和 "AI 与用户交朋友 " ( 人机互动 ) , 在不同方向 , 已分别推出了 AI 虚拟人情感化陪伴体系 "AI 伴侣 "、AI 聊天辅助体系等功能 , 并受到了用户的热烈欢迎与积极反馈。

其中 , 人机互动的迭代方向便是让 AI 实现类真人能力 , 在交互中为用户带来情绪价值和信息价值。

根据 Soul 旗下 Just So Soul 研究院在今年 3 月发布的《2025 Z 世代 AI 使用报告》 ( 样本数 3680 份 ) , 近四成年轻人每天使用 AI 产品获得情感陪伴 , 此外 ,71.1% 的年轻人表示愿意和 AI 做朋友 , 建立情感链接 , 对比该研究院在去年发布《2024 Z 世代 AIGC 态度报告》 ( 样本数 3457 份 ) , 当时选择愿意和 AI 做朋友的年轻人比例为 32.8%。

从数据的增长中可以看到 ,AI 的技术发展与应用普及正在重新塑造年轻一代对社交关系的认知 , 在这个变化过程中 , 也对 AI 能力提出了新要求。根据 Soul 面向 "AI 伴侣 " 活跃使用用户的专项调研显示 , 关于人机互动体验提升需求方向 , 约六成受访者表示 " 希望 AI 表现更接近真人 "。

此次 , 全双工语音通话大模型的升级 , 极大提升了 AI 的互动能力 , 让人机交互具备在场感和情感温度 , 将推动 AI 社交进入全新阶段。

作为以真实的人与人社交为底色的平台 , 通过持续对新技术的探索和坚定投入 ,Soul 致力于构建 AI Being 和 Human Being 共存的社交社区 , 让 AI 作为社交关系网络的重要组成 , 丰富用户的情感支撑体系 , 增强多元情感体验 , 最终提升个体的幸福感和归属感。

宙世代

一起剪

相关标签