智东西 01-05
OpenAI押注无屏交互,语音AI可实时对话,设备预计明年发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

编译|万贵霞

编辑|王涵

智东西 1 月 5 日消息,1 月 1 日,据外媒 The Information 报道,有知情人士称,OpenAI 计划于 2026 年第一季度推出全新的语音 AI 模型,而其首款完全通过语音指令操控而非屏幕交互的个人设备,预计仍需一年左右时间才能正式面世。

该设备或为 OpenAI CEO 萨姆・阿尔特曼(Sam Altman)2025 年 11 月 21 日访谈中提及的 AI 硬件产品矩阵中的另一款产品。除单一产品外,OpenAI 还在规划一整套设备矩阵,可能包括智能眼镜和无屏幕智能音箱等。

多位 ChatGPT 员工透露,目前 OpenAI 的语音 AI 模型在回复准确性和响应速度上明显落后于文本模型。为此,OpenAI 在过去两个月内整合了多个工程、产品和研究团队,对语音 AI 进行了一次全面重构。

一、语音 AI 模型架构重塑,更自然、更" 像人" 的语音对话

OpenAI 计划在 2026 年第一季度初发布的全新语音 AI 模型,将在音质、延迟和交互方式上进一步逼近真实对话体验,甚至能够在用户说话的同时进行语音播报,呈现更接近 " 对话伙伴 " 的状态。

回顾 OpenAI 在语音方向上的技术演进,2022 年其推出的 Whisper 是一套以高准确率著称的自动语音识别(ASR)系统,主要解决 " 听懂人说话 " 的问题;2025 年,OpenAI 进一步发布了 GPT-realtime 语音转语音模型,开始探索低延迟、连续对话式的语音交互。这一系列尝试,也为如今全新一代语音 AI 模型的架构重塑奠定了基础。

GPT-realtime 功能介绍(来源:OpenAI Platform)

The Information 报道称,OpenAI 在语音 AI 模型上的改进已初见成效。新一代模型在架构层面进行了调整,能够生成听感更自然、情绪更丰富的语音回复,同时在回答深度和准确性上也有明显提升。

与现有模型相比,新的语音 AI 模型可以实现与用户 " 同步说话 ",并在对话中更好地应对打断和插话。这种实时、连续的语音交互能力,是当前语音 AI 模型尚未具备的。

值得注意的是,驱动语音 AI 模型的底层大型语言模型,与当前驱动 ChatGPT 文本回复的模型并不完全相同。

在团队配置上,语音 AI 项目的关键负责人之一是昆丹 · 库马尔(Kundan Kumar)。他是一名语音 AI 研究员,于今年夏天从全球 AI 陪伴应用 " 一哥 "、美国 AI 聊天机器人独角兽公司 Character.AI 加入 OpenAI,负责主导相关工作。

此外,项目核心成员还包括产品研究主管本 · 纽豪斯(Ben Newhouse),他曾推动 OpenAI 将原本面向文本 AI 的基础设施重构为支持语音模型,多模态 ChatGPT 的产品经理杰基 · 香农(Jackie Shannon)。

二、AI" 伴侣型 " 设备,主动理解环境与用户目标

OpenAI 的研究人员正在同步推进一款语音驱动的个人设备,其核心理念是让用户通过语音而非屏幕与 AI 交互。

据知情人士透露,今年夏天,参与该设备研发的研究人员曾向内部员工展示相关构想:这款 AI 语音设备将更像是一个与用户并肩工作的伙伴,能够主动提供建议,帮助用户完成目标,而不仅仅是应用程序或软件的语音入口。

在获得用户授权的前提下,该设备可通过语音和视频感知周围环境及用户自身状态,从而提供更具情境感知能力的服务。

目前,已有多名 OpenAI 员工参与到与该设备相关的不同环节中,包括供应链管理、工业设计以及模型研究等。

在硬件设计层面,据此前智东西报道,OpenAI 于 2025 年 5 月 21 日以近 65 亿美元(约合人民币 455 亿元)的价格收购了 io 公司,io 团队的大部分成员(约 55 人)加入 OpenAI。io 公司由前苹果首席设计官乔纳森 · 艾维(Jony Ive)联合创立,负责为 OpenAI 设计这款全新的 AI 硬件产品。

OpenAI 发文,io 团队已正式加入 OpenAI(来源:OpenAI 官网)

多位知情人士还透露,OpenAI 并不打算只推出单一设备,而是计划分阶段发布一系列产品,内部讨论过的形态包括智能眼镜以及完全无显示屏的智能音箱。

三、无屏交互的前提是先习惯使用语音功能

The Information 的报道中提到,OpenAI 的研究人员正在开发这款语音驱动的个人设备,是希望用户通过语音而非屏幕进行交互。

这一思路在 Al 研究界并非个例。包括 Thinking Machines Lab 在内的不少研究机构都认为,语音是人类最自然的交流方式,人机交互也应回归这一形态。

不过,一位前 OpenAI 员工提到,目前的现实挑战在于,大量 ChatGPT 用户并不习惯使用语音功能。原因既可能是语音体验尚不成熟,也可能是部分用户根本不知道 ChatGPT 支持语音交互。

这意味着,在推出语音优先的硬件产品之前,OpenAI 需要先培养用户的使用习惯。

结语:当 AI 走向 " 去屏幕化 ",下一代设备轮廓初现

在 OpenAI 的设备设想中," 无屏幕 " 被视为一项重要设计方向。部分业内人士认为,这种形态有助于降低用户对设备的成瘾程度。

乔纳森 · 艾维目前正深度参与 OpenAI 的硬件研发。他曾提到,对他而言,参与这类项目至关重要,因为他认为未来的新型设备,或许是修复过去消费电子产品所带来问题的一种方式。

与谷歌、亚马逊、Meta、苹果等科技巨头类似,OpenAI 也在积极布局新一代个人 AI 设备,包括可穿戴产品。在这些公司看来,当前最主流的设备形态——如 iPhone ——并未真正为未来的 AI 能力而设计,而这正是下一轮硬件创新的突破口所在。

来源:The Information、TechCrunch、维基百科

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 语音交互 美国 王涵
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论