OpenAI押注无屏交互，语音AI可实时对话，设备预计明年发布

智东西

编译｜万贵霞

编辑｜王涵

智东西 1 月 5 日消息，1 月 1 日，据外媒 The Information 报道，有知情人士称，OpenAI 计划于 2026 年第一季度推出全新的语音 AI 模型，而其首款完全通过语音指令操控而非屏幕交互的个人设备，预计仍需一年左右时间才能正式面世。

该设备或为 OpenAI CEO 萨姆・阿尔特曼（Sam Altman）2025 年 11 月 21 日访谈中提及的 AI 硬件产品矩阵中的另一款产品。除单一产品外，OpenAI 还在规划一整套设备矩阵，可能包括智能眼镜和无屏幕智能音箱等。

多位 ChatGPT 员工透露，目前 OpenAI 的语音 AI 模型在回复准确性和响应速度上明显落后于文本模型。为此，OpenAI 在过去两个月内整合了多个工程、产品和研究团队，对语音 AI 进行了一次全面重构。

一、语音 AI 模型架构重塑，更自然、更" 像人" 的语音对话

OpenAI 计划在 2026 年第一季度初发布的全新语音 AI 模型，将在音质、延迟和交互方式上进一步逼近真实对话体验，甚至能够在用户说话的同时进行语音播报，呈现更接近 " 对话伙伴 " 的状态。

回顾 OpenAI 在语音方向上的技术演进，2022 年其推出的 Whisper 是一套以高准确率著称的自动语音识别（ASR）系统，主要解决 " 听懂人说话 " 的问题；2025 年，OpenAI 进一步发布了 GPT-realtime 语音转语音模型，开始探索低延迟、连续对话式的语音交互。这一系列尝试，也为如今全新一代语音 AI 模型的架构重塑奠定了基础。

GPT-realtime 功能介绍（来源：OpenAI Platform）

The Information 报道称，OpenAI 在语音 AI 模型上的改进已初见成效。新一代模型在架构层面进行了调整，能够生成听感更自然、情绪更丰富的语音回复，同时在回答深度和准确性上也有明显提升。

与现有模型相比，新的语音 AI 模型可以实现与用户 " 同步说话 "，并在对话中更好地应对打断和插话。这种实时、连续的语音交互能力，是当前语音 AI 模型尚未具备的。

值得注意的是，驱动语音 AI 模型的底层大型语言模型，与当前驱动 ChatGPT 文本回复的模型并不完全相同。

在团队配置上，语音 AI 项目的关键负责人之一是昆丹 · 库马尔（Kundan Kumar）。他是一名语音 AI 研究员，于今年夏天从全球 AI 陪伴应用 " 一哥 "、美国 AI 聊天机器人独角兽公司 Character.AI 加入 OpenAI，负责主导相关工作。

此外，项目核心成员还包括产品研究主管本 · 纽豪斯（Ben Newhouse），他曾推动 OpenAI 将原本面向文本 AI 的基础设施重构为支持语音模型，多模态 ChatGPT 的产品经理杰基 · 香农（Jackie Shannon）。

二、AI" 伴侣型 " 设备，主动理解环境与用户目标

OpenAI 的研究人员正在同步推进一款语音驱动的个人设备，其核心理念是让用户通过语音而非屏幕与 AI 交互。

据知情人士透露，今年夏天，参与该设备研发的研究人员曾向内部员工展示相关构想：这款 AI 语音设备将更像是一个与用户并肩工作的伙伴，能够主动提供建议，帮助用户完成目标，而不仅仅是应用程序或软件的语音入口。

在获得用户授权的前提下，该设备可通过语音和视频感知周围环境及用户自身状态，从而提供更具情境感知能力的服务。

目前，已有多名 OpenAI 员工参与到与该设备相关的不同环节中，包括供应链管理、工业设计以及模型研究等。

在硬件设计层面，据此前智东西报道，OpenAI 于 2025 年 5 月 21 日以近 65 亿美元（约合人民币 455 亿元）的价格收购了 io 公司，io 团队的大部分成员（约 55 人）加入 OpenAI。io 公司由前苹果首席设计官乔纳森 · 艾维（Jony Ive）联合创立，负责为 OpenAI 设计这款全新的 AI 硬件产品。

OpenAI 发文，io 团队已正式加入 OpenAI（来源：OpenAI 官网）

多位知情人士还透露，OpenAI 并不打算只推出单一设备，而是计划分阶段发布一系列产品，内部讨论过的形态包括智能眼镜以及完全无显示屏的智能音箱。

三、无屏交互的前提是先习惯使用语音功能

The Information 的报道中提到，OpenAI 的研究人员正在开发这款语音驱动的个人设备，是希望用户通过语音而非屏幕进行交互。

这一思路在 Al 研究界并非个例。包括 Thinking Machines Lab 在内的不少研究机构都认为，语音是人类最自然的交流方式，人机交互也应回归这一形态。

不过，一位前 OpenAI 员工提到，目前的现实挑战在于，大量 ChatGPT 用户并不习惯使用语音功能。原因既可能是语音体验尚不成熟，也可能是部分用户根本不知道 ChatGPT 支持语音交互。

这意味着，在推出语音优先的硬件产品之前，OpenAI 需要先培养用户的使用习惯。

结语：当 AI 走向 " 去屏幕化 "，下一代设备轮廓初现

在 OpenAI 的设备设想中，" 无屏幕 " 被视为一项重要设计方向。部分业内人士认为，这种形态有助于降低用户对设备的成瘾程度。

乔纳森 · 艾维目前正深度参与 OpenAI 的硬件研发。他曾提到，对他而言，参与这类项目至关重要，因为他认为未来的新型设备，或许是修复过去消费电子产品所带来问题的一种方式。

与谷歌、亚马逊、Meta、苹果等科技巨头类似，OpenAI 也在积极布局新一代个人 AI 设备，包括可穿戴产品。在这些公司看来，当前最主流的设备形态——如 iPhone ——并未真正为未来的 AI 能力而设计，而这正是下一轮硬件创新的突破口所在。

来源：The Information、TechCrunch、维基百科

宙世代

一起剪

相关标签