IT之家 15小时前
速度与准确性的权衡:苹果新语音转录 API 对比测试
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 7 月 4 日消息,科技媒体 9to5Mac 昨日(7 月 3 日)发布博文,对比测试了苹果系统的全新转录 API,认为该 API 在速度上优于 OpenAI 的 Whisper 模型,但在准确性上仍有一定差距。

IT 之家注:该媒体使用一段 9to5Mac Daily 的播客音频测试,长度为 7 分 31 秒,对比了苹果的新转录 API、OpenAI 的 Whisper Large v3 Turbo(通过 MacWhisper 应用)和英伟达的 Parakeet v2 模型。

测试平台为 M2 Pro 芯片的 MacBook Pro 笔记本,配备了 16GB 内存,使用 Metric: cer 和 Metric: wer 两款 Hugging Face Spaces 来分析实际的字符错误率(CER)和单词错误率(WER)。

结果显示,Parakeet v2 的转录时间最短,仅为 2 秒,但 CER 和 WER 较高;Whisper Large V3 Turbo 的准确性最高,但转录时间长达 40 秒;苹果的模型在速度上接近 Parakeet,但准确性优于后者。

模型转录时间字符错误率单词错误率
Parakeet v22 seconds5.8%12.3%
Whisper Large V3 Turbo40 seconds0.2%1.5%
Apple9 seconds1.9%10.3%

该媒体还使用了 ChatGPT、Claude 和 Gemini   为基线来计算 CER 和 WER。结果显示,每个模型的性能都有所不同,但 Whisper 在准确性上仍领先。

ChatGPT ( o4-mini-high )

模型转录时间字符错误率单词错误率
Parakeet v22 seconds6.0%12.3%
Whisper Large V3 Turbo40 seconds0.4%1.4%
Apple9 seconds2.1%10.2%

Claude ( Sonnet 4 )

模型转录时间字符错误率单词错误率
Parakeet v22 seconds8.4%11.0%
Whisper Large V3 Turbo40 seconds0.1%1.0%
Apple9 seconds3.5%8.2%

Gemini ( 2.5 Pro )

模型转录时间字符错误率单词错误率
Parakeet v22 seconds7.6%12.3%
Whisper Large V3 Turbo40 seconds0.3%0.4%
Apple9 seconds3.4%5.3%

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论