编译 | 徐豫
编辑 | 云鹏
智东西 2 月 27 日消息,美国情感智能技术 AI 创企Hume AI昨天发布了新款文生语音大模型 Octave,该大模型可依据用户输入的提示词或剧本,生成有人设特点、有语调起伏、有情感色彩的 AI 语音,并允许用户通过文本指令二次调整和创作。该公司由DeepMind 前研究员 Alan Cowen于 2021 年创立,最近一轮融资后估值为2.19 亿美元。
Hume AI 联合创始人兼 CEO Alan Cowen 在接受 VentureBeat 视频电话采访时说道:" 我们推出了首个 AI 文生语音大模型,该模型能够理解上下文中的词汇,并预测出适当的情绪、节奏、韵律和重音,从而使 AI 语音听起来比以往更人性化。"
▲ Octave 可以根据简单提示词变换 AI 语音的语气和语调(图源:Hume AI 官网)
换而言之,相比于过往一板一眼念文本的 AI 味语音,Octave 旨在让 AI 语音更有人情味。按照 Cowen 的描述,这些 AI 语音不仅带有愤怒、悲伤或快乐等情绪,还可以把多种情感交织融合在一起,例如 " 夹杂着幽默或恼怒的轻度沮丧 "。在 Cowen 看来,该模型较为适合需要预先制作的有声读物、播客、视频画外音和视频游戏角色配音。
▲ Octave 可以表达开心、愤怒、焦虑等多种情感(图源:Hume AI 官网)
该公司在社交媒体平台 X 上也连发多帖说明 Octave 的具体功能和训练过程。据 Hume AI 方面透露,用于训练 Octave 的语言数据是传统文生语音大模型的1000 倍,这也是 Octave 能够像人类演员一样理解剧本,并使用更逼真的情感、语义、节奏、词语、重音等要素的原因。其训练数据中包含了数百万小时的公开长篇语音数据和 Hume AI独家采集的声音、视频数据。
除了文生语音大模型,Hume AI 还在利用 Octave 训练 AI 系统,以更好地预判用户的 AI 语音生成需求。
在一项人类评审盲测的对比实验中,Octave 的输出在音质、自然度以及语音生成与预期描述匹配度等方面均优于 ElevenLabs,这意味着其 AI 语音生成过程的可控性和 AI 语音生成质量均高于行业水准。
▲ Octave 所生成的 AI 语音在自然度、提示词匹配度、音频质量方面超过了 ElevenLabs(图源:Hume AI 官网)
在推出 Octave 前,Hume AI 已推出了两代自研的同理心语音界面(EVI),该公司声称 EVI 是第一个具有情商的对话式 AI。
当前首发版本的 Octave 主要支持的语言是英语,其次是西班牙语,后续可能还会上线更多语种。此外,该模型在 Hume AI 开发者平台上的使用强度有一定限制,现支持的音频格式有MP3、WAV 和 PCM。
一、4 大 AI 语音生成功能,能代入情节和人设
Octave 文生语音大模型不仅支持生成带有人设和人类情感色彩 AI 语音,还将推出语音克隆功能。
Cowen 称,该模型除了能理解单个句子内的情感,还能进一步捕捉上下文之间的情感联系,从而更具表达力和细节度。Octave 除了能够理解情节转折、情感暗示、角色特征,还学会了如何将它们结合起来,因此它不仅可以 " 温柔地朗读情书 ",也能 " 充满活力地播报体育赛事 "。
1、语音生成:具有情境感知能力且人性化
Octave 能够预测语音的调性、节奏和音色,并判断初何时应低语密谋、何时应放声高喊、何时应平静地解释事实。
换句话说,Octave 能够解析剧本或提示词中的情节转折、情感暗示和角色特征,并将其转化为自然带感情的语音,听起来就像演员在朗读剧本一样。
▲ Octave 可以根据上下文内容转变 AI 朗读的语气和语调(图源:Hume AI 官网)
2、语音设计:可深入理解提示词和剧本含义
基于提示词或剧本,Octave 能够生成各种设定的 AI 语音。这是由于它会自动解析一段文字内容的含义和风格,包括人称代词、简称、用词等等,从而生成一段与角色相符的连贯语音内容。
此外,在语音设计功能中,你还可以通过更具体的角色描述来引导 Octave,例如结合特定口音、人设特征、职业角色等。相关描述类似于 " 耐心且富有同理心、用 ASMR 方式说话的咨询师 "、" 戏剧化的中世纪骑士 "、" 中年好莱坞电影预告片解说员 "。
▲ Octave 可以理解较为复杂的人设或角色(图源:Hume AI 官网)
同时,你也可以选择跳过语音设计功能,直接在 Playground 上即时生成语音。只点击页面上的 " 生成 " 按键,而不勾选 " 语音设计 " 功能,Octave 就会仅依据剧本生成语音,并且可以将其另存为一段新语音。
不过出于安全考虑,涉及较为逼真的孩童语音和特定人物的模仿语音,其 AI 语音生成将受限。
3、表演指令:用生成的 AI 语音二次创作
参照人类演员,Octave 也能接受并理解指令。
在表演指令功能中,其可以基于现有语音类型,进一步用指定的情感或说话风格来朗读新剧本。
▲ Octave 支持用户二次调整句子的语气和语调(图源:Hume AI 官网)
4、语音克隆:即将上线
Hume AI AI 称,只需一段5 秒的音频,Octave 就能快速克隆出其语音。而 Octave 开发团队正为这一语音克隆功能寻求安全保障,因此该功能将于接下来几周内稍晚推出。
未来几周内,该公司还有计划改进 Octave 的核心功能,持续优化富有表现力的语音生成、不同情感和风格的提示、新语音生成以及多位说话者间流畅对话等方面。
二、40 多种预设语音,开发者现可上手使用
Octave 现已在platform.hume.ai平台和 Hume AI 的API上线。
目前,在线平台上,创作者和开发者可使用 Octave 以下4 项功能:
语音设计;
表演指令;
超过 40 种预设语音的语音库;
用于生成有声书、播客等长篇内容的项目界面(预览版)。
而在开发者平台上,Octave 可通过 Python 和 TypeScript SDK 访问,这些 SDK 会处理身份验证,并提供类型化接口,以确保集成的可靠性。其命令行界面支持快速原型设计、测试以及直接从终端批量处理。
这些开发者工具简化了用 Octave 生成语音素材的过程,缩短了新语音应用的上市时间。
▲ Octave 操作界面(图源:Hume AI 官网)
目前,Hume AI 的 API 允许开发人员每分钟对 Octave 模型发出最多50 次请求,文本长度上限为5000 个字符,描述上限为1000 个字符。每个请求最多可生成5 个输出,支持的音频格式包括 MP3、WAV 和 PCM。
三、对比 ElevenLabs,Octave 更符合人类喜好
Hume AI AI 对 Octave 开展了内部评估,将该大模型与业内领先的 AI 文生语音大模型 ElevenLabs进行对比。
这项基准测试包含120 个多样化语音描述的样本,用于模拟用户在文生语音大模型中会提出的各种语音风格。这些样本既覆盖了细腻、叙事化的描述,例如 " 温暖、父亲般的声音,具有丰富的低音,略带沙哑且语调令人安心,如同一位经验丰富的说书人 ",也有简洁、简短的提示词,例如 " 充满活力、年轻、略带嘶哑 "。
Hume AI 团队用 Gemini 为每个描述生成了一段合理对话,然后分别让 Octave 和ElevenLabs 的 AI 语音生成工具 Voice Design各生成了3 个语音样本,再让180 位人类评审盲测对比上述两款文生语音大模型基于相同提示词生成的语音样本,并为音质、自然度以及提示词匹配度投票。
测试结果显示,Octave 在这三项人类偏好指标上均略胜一筹,音质方面被71.6%的人类评审选择,自然度方面被51.7%的人类评审选择,而提示词匹配度方面有57.7%的人类评审认为其更契合预期。
▲在 Hume AI 内部测试中,其 AI 文生语音大模型 Octave 能力优于 ElevenLabs(图源:Hume AI 官网)
四、免费版声音定制不设限,专业版提供超 8h 使用额度
Hume AI 目前采用订阅制的收费方式,主要分为免费、Creator、Creator Pro 和 Enterprise 4 大类收费项目。
免费版:每月1 万个字符的文本转语音,总时长约10 分钟,无限自定义声音;
入门版(3 美元 / 月) :每月3 万个字符,总时长约30 分钟,额外最多支持20 个项目;
Creator(10 美元 / 月) :每月10 万个字符,总时长约100 分钟,额外字符按使用量定价(0.20 美元 /1000 个),额外最多支持1000 个项目;
专业版(50 美元 / 月) :50 万个字符,总时长约500 分钟,额外字符按使用量定价(0.15 美元 /1000 个),额外最多支持3000 个项目。
而规模化、商业和企业级接入使用收费标准则有所不同。
规模(150美元 / 月) :200 万个字符,总时长约2000 分钟,额外字符按使用量定价(0.13 美元 /1000 个),额外最多支持1 万个项目;
商业(900 美元 / 月) :1000 万个字符,总时长约1 万分钟,额外字符按使用量定价(0.10 美元 /1000 个),额外最多支持2 万个项目;
企业(自定义价格) :无限使用、自定义法律条款、安全保障、大幅折扣的批量价格和优先支持。
结语:AI 语音类人化新突破,有望造福数字人等产业
AI 语音仍是目前主要的人机交互方式。
Hume AI 新的文生语音大模型 Octave 及其情感智能语音技术,有望解决长期以来 AI 语音应答机械、语调生硬、音色千篇一律的痛点,使得人机语音交互更接近于人与人之间沟通。
同时,Octave 也可以为影视、视听、新媒体、数字人等多个行业产出定制化配音,加速 AI 语音的商业化落地。
来源:Hume AI X 账号、Hume AI 官方博客、VentureBeat
登录后才可以发布评论哦
打开小程序可以发布评论哦