驱动之家 昨天
阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提升超15%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 8 月 22 日消息,今日,阿里通义发布新一代端到端的语音识别大模型 Fun-ASR,该模型增强了上下文感知和高精度语音转写能力,在家装、保险等多个行业场景的语音识别准确率均提升了 15% 以上。

据了解,Fun-ASR 是大语言模型驱动的语音识别算法,其基于自研语音算法和监督微调的 Qwen3 训练,并采用前沿的模型架构以及先进的文本模态对齐技术,可有效保护和增强大模型的语言处理能力;

此外,Fun-ASR 集成了 RAG 方案,可提供自动化音频信息检索功能,最高可导入 1000 多个自定义热词。

基于该功能,系统能够根据输入音频精确获取相关领域热词、文档及前文记录,大幅提升特定领域内的关键词识别效果。

为解决语音识别不准确、噪声干扰、语种混淆以及生成幻觉等问题,通义团队还在 ASR 模型训练中引入了 RL(强化学习)技术,此策略有效减少识别过程中的幻觉,提高整体系统的准确性与可靠性。

值得一提的是,在四川话、粤语、闽南语等多地方言上,Fun-ASR 取得了领先同类产品的表现。

此外,Fun-ASR 对远场拾音和近场降噪的等多样环境也表现出了良好的适应性,无论是会议室、工位,还是超市、户外,均可有效保证识别准确率。

在训练数据上,Fun-ASR 基于上亿小时音频数据的训练,全面涵盖了互联网、科技、家装、畜牧、汽车等十多个领域的专业术语,在多个垂直领域的识别准确率显著提升。

实测数据显示,Fun-ASR 在保险行业的准确率较以往提升 18%,在家装、畜牧等行业也实现了 15%-20% 的提升。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 语音识别 准确 效果 互联网
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论