智东西
编译 | 王欣逸
编辑 | 程茜
智东西 11 月 3 日消息,10 月 29 日,美国语音生成创企 Cartesia 创始人兼首席执行官 Karan Goel 在社交平台 X 上宣布推出全新的语音模型 Sonic-3,同时还披露其已完成 1 亿美元(约合人民币 7.12 亿元)融资,英伟达参投。
Cartesia 创立于 2023 年,由 5 位斯坦福 AI 实验室研究员创立,其中 Chris Ré 是他们导师、Albert Gu、Brandon Yang 是华人。值得一提的是,Cartesia 首席科学家兼联合创始人 Albert Gu 是 Mamba 作者之一,而另一位华人 Brandon Yang 曾在谷歌大脑团队工作。
Cartesia 创始人团队,从左到右依次为:Brandon Yang、Karan Goel、Albert Gu 和 Arjun Desai(图源:Cartesia)
此前,Cartesia 曾在 2024 年 12 月获得 Index Ventures 领投的 2700 万美元(约合人民币 1.92 亿元)种子轮融资,仅过去不到 3 个月,2025 年 3 月,Cartesia 就宣布完成了 6400 万美元(约合人民币 4.56 亿元)的 A 轮融资。
外媒 AIM Media House 称,Cartesia 提供了基于 SSM(状态空间模型)架构的语音生成和语音识别模型,Sonic-3 采用的是非 Transformer 架构,适用于实时对话和语音交互应用。
目前,包括云计算平台 ServiceNow、AI 客服平台 Cresta 和 Decagon 在内的数千家企业都借助 Sonic 模型每月处理数百万次对话。
智东西第一时间对 Sonic-3 进行了实测。智东西让 Sonic-3 用中文讲一个故事,Sonic-3 只用了两秒就生成播放了音频,不过 Sonic-3 说中文的流畅度还有待提升。
智东西又让其用英文随机念了一段纪录片旁白,相比于中文,英文则相当流畅自然,几乎听不出来是 AI 生成的。
一、斯坦福全明星阵容,Mamba 作者也上了
斯坦福 AI 实验室对多年来的 SSM 研究成果进行了转化,创办了 Cartesia。
Cartesia 联合创始团队相识于斯坦福,由两位华人、两位印度人及他们的共同导师组成。在校期间,他们便发明了 SSM,用于训练更高质量、更高效的大模型。
Cartesia 首席科学家兼联合创始人 Albert Gu 是 Mamba 的主要作者之一。相比传统 Transformer 模型,Mamba 的 SSM 模型则实现了低延迟、高精度的序列预测。同时 Albert Gu 还入选了 2024 年《时代》杂志全球最具影响力人物名单。
Cartesia CEO 兼联合创始人 Karan Goel 博士毕业于斯坦福大学,在卡内基梅隆大学攻读硕士期间曾获得 Siebel Scholar 奖学金,在斯坦福期间还受到了斯坦福计算机科学系副教授艾玛 · 布伦斯基尔、斯坦福以人为本 AI 研究中心主任李飞飞等许多杰出教授的指导。
过去四年,Cartesia 团队积极构建 SSM 背后的理论,并将其扩展到文本、音频、视频、图像和时间序列数据等各种模态,取得了最先进的成果。基于在斯坦福对 SSM 的研究,创始团队一开始就瞄准了 SSM 架构和语音模型。
Cartesia 为用户提供了一个企业级 AI 语音平台,用户在该平台上可以使用语音与文本转换的模型——文本转语音模型 Sonic 和语音转文本模型 Ink,还可以构建语音 Agent。
二、配备 42 种语言和自定义发音,响应速度不到 0.2s
Cartesia 公司的发展节奏相当之快,伴随着 Cartesia 拿到最新的一轮融资,该公司推出了全新的 Sonic-3 模型。
Sonic-3 模型在支持语言数量、可控性和速度上存在优势。用户可以选择系统配备的 42 种语言和 500 多种音色进行文本转语音功能,在 Sonic-2 的 15 种语言的基础上大大增加。
Cartesia 可支持语言(图源:Cartesia)
在 Sonic-3 语音库里,共有 10 种中文声音类型可供选择,而配备较多的英文语音还更细地分成了 11 种不同地区的口音。
拥有 11 种口音的英文(图源:Cartesia)
在可控性上,该模型不仅能进行基本的语音生成,还能够通过 API 参数和 SSML 标签对音量、语速和情绪进行精细控制,能精准捕捉人的情绪,包括笑声、语调及微妙的情感转换等,支持自定义发音。
Sonic-3 的模型延迟仅为 90 毫秒,端到端总响应时间在 190 毫秒以内,外媒 AIM Media House 称该模型已跻身全球最快的实时语音 AI 系统之列。
Sonic-3 还支持语音克隆的功能,并支持微调使其更还原参考原声。此外,新模型还能对生成的语音进行自动缓冲与延续,这意味着,实时语音处理将变得更加高效与自然。
语音克隆(图源:Cartesia)
与大多数依赖 Transformer 架构的语音模型不同,Sonic-3 基于 SSM 架构。基于 Transformer 架构的模型会通过重新回顾先前对话来预测下一个词,从而导致语音生成的延迟与低效。而 SSM(例如 S4 和 Mamba 等创新技术)更接近人类思维模式,它们能够持续理解主题和对话,无需从头开始回顾所有内容,这使得 Sonic-3 能够生成既自然又快速的语音。
利用 Sonic 模型,Cartesia 的平台可以帮助企业构建具备复杂任务处理能力的语音 Agent,包括客户支持、日程安排,甚至轻松愉快的恶作剧等。
创建个性化 Agent(图源:Cartesia)
结语:Cartesia 要革新实时语音模型赛道
在 AI 音频生成赛道上,不乏有 MiniMax、Genspark、ElevenLabs 等强劲的竞争对手。伴随着 Cartesia 获得新一轮融资,Sonic-3 新模型投入使用,语音模型赛道竞争更加激烈。
ServiceNow 产品副总裁 Ravi Krishnamurthy 称:"Cartesia 的 SSM 架构为我们的语音 Agent 带来了企业级的速度和质量。"
近几年,Cartesia 一直朝着 SSM 架构努力,随着实时对话需求的急剧增长,这一技术或将为企业和其他用户提供更为精准、快速的解决方案。


登录后才可以发布评论哦
打开小程序可以发布评论哦