财报资讯网 11-10
思必驰俞凯出席2025顶科论坛,提出构建可靠任务型AI新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当前,以人工智能为代表的前沿技术正推动一场新的范式革命,传统的学科壁垒不断被打破,跨学科融合与边界突破为复杂问题提供了新的解决方案。

10 月 24 日,2025 世界顶尖科学家论坛之国际工程智能大会成功召开,大会以 " 工程智能:面向未来工业体系的智能变革 " 为主题,全球顶尖学者与产业专家齐聚,共同勾勒由人工智能深度驱动的未来工业新图景。

上海交通大学特聘教授、思必驰联合创始人、首席科学家俞凯应邀出席,发表了《Towards Reliable Task-oriented LLM Agents》主题演讲,深刻剖析了当前大语言模型智能体的核心痛点—— " 幻觉 " 问题,创新性的提出了 " 不确定性感知的可靠性对齐 " 新范式,为构建真正可靠、可用的人工智能指明了方向。

从 " 输出错误 " 到 " 行为意外 ":智能体时代的幻觉新挑战

演讲伊始,俞凯首先厘清了 " 智能体 " 幻觉与传统大语言模型幻觉的本质区别。他指出,传统大语言模型的幻觉主要表现为 " 事实性错误 ",而当大语言模型进化成能够主动执行、调用工具/与环境交互的 " 智能体 " 时,其幻觉则升维为 " 与人类合理预期不一致的行为 "。

" 例如,当你让智能体‘ 9 点提醒我一下’,它可能并未理解你的意图是设定一个‘提醒’,而是机械地设定了晚上 9 点的闹钟,甚至回答‘我不能设定闹钟’你可以尝试 ......"。俞凯表示,这种行为上的偏差,在任务执行中可能带来比事实错误更严重的后果。

他进一步指出,幻觉的根源在于模型内外的 " 不确定性 "。外部不确定性源于训练数据的噪声、缺失或过时信息;内部不确定性则源于神经网络模型的概率生成特性。为解决这些不确定性造成的幻觉问题,产业界形成了两种主流范式:一是通过引入搜索、数学/代码、数据库等工具增强的方式来扩展知识边界;二是通过评估模型输出的置信度,并设定阈值来拒绝低置信度的回答。

然而,这两种范式均面临严峻挑战:工具增强的方式虽扩展了知识,却引发了 " 工具幻觉 " ——包括工具的种类、调用时机、格式、内容等幻觉。即使增加训练数据能提升任务成功率,也无法消除 " 工具幻觉 " 的发生;而 " 置信度评估 " 范式则遭遇了更为棘手的 " 妄想 " 问题,即模型在输出完全错误答案时,却表现出极高的置信度,这使得基于阈值的拒答机制近乎失效。

范式转变:从 " 消除不确定性 " 到 " 管理与利用不确定性 "

在深入分析现有范式的局限后,俞凯带领与会者进行了一场认知层面的思辨。他提出,不确定性并非纯粹的缺陷,而是人类认知和交互中的本质属性,有时甚至是高效率沟通的必要条件。

" 我们的目标不应是试图彻底消除不确定性,而是要像人类一样,学会识别、管理并利用它。" 俞凯强调," 可靠性 " 的定义需要从单纯的 " 正确性 " 转变为综合考量 " 交互代价 " 与 " 有用性 " 的性价效用平衡。基于这一理念,他提出了第三种范式,即 " 基于不确定性感知的可靠性对齐 "。这一范式的核心在于,将智能体从传统的 " 回答 " 或 " 拒答 " 扩展为包含 " 澄清 "、" 询问 "、" 切换工具 " 等在内的 " 非决定性行动 "。

俞凯表示,智能体的可靠性不应片面追求绝对正确率,而应构建一个兼顾 " 有用性 " 与 " 负责度 " 的框架,让系统学会在不确定中做出合理决策与担当。

实践路径:单智能体与多智能体的可靠性解决方案

会上,俞凯介绍了在实践中落实新范式的情况。在单智能体可靠性方面,团队通过 " 显式知识边界感知建模 " 的方式,来训练智能体明确区分 " 确定 "、" 不确定 " 和 " 拒答 " 区域。通过基于知识反馈的强化学习等技术,让智能体学会在信息不足时主动向用户澄清,而非强行执行或直接放弃。例如,当用户查询 " 请帮我查一下去北京的票价 " 时,可靠的智能体会主动询问 " 您从哪个城市出发?",从而避免因信息缺失而产生的工具调用幻觉。实践证明,该方法显著降低了知识幻觉和工具幻觉,在数值推理和工具调用任务中的幻觉率甚至低于顶尖商业模型。

针对更为复杂的多轮交互场景,则引入 " 慢思考 " 精炼机制。对于智能体标记为 " 不确定 " 的响应,由一个独立的 " 精炼模型 " 进行深度推理和优化,形成 " 快速思维 " 负责高精度输出、" 慢速思维 " 处理模糊地带的协同系统,有效解决了多轮对话中不确定性的传播与放大问题。

在多智能体可靠性方面,俞凯提出了 " 分布式路由选择 " 架构。不同规模和能力的模型组成一个模型池,面对用户查询,成本较低的小型模型首先进行自我评估,若胜任则直接回答,若不胜任则 " 路由 " 给更强大的模型。" 这实现了一种既可靠又高效的资源配置,在保证性能的同时,尽可能控制计算成本。"

演讲的最后,俞凯表示,基于 " 不确定性感知的可靠性对齐 " 框架能够将人工智能从一台追求绝对正确的 " 答题机器 ",转变为一个能够感知边界、主动沟通、协同决策的 " 可靠伙伴 "。

作为思必驰首席科学家,俞凯带领团队研发的 "1+N" 分布式大模型智能体系统,也是基于 " 不确定性感知的可靠性对齐 " 范式构建。"1" 即一个中枢大模型,负责基础语言处理与通用知识整合;"N" 即 N 个垂域模型,针对具体行业场景进行优化,形成可柔性定制的行业语言大模型。现已广泛用于智能汽车、智慧物联、会议办公等领域,成本与响应速度优势显著。

这一创新范式并非一蹴而就,而是建立在俞凯与团队长期的学术研究与产业实践基础上。在今年 8 月召开的第二十四届中国计算语言学大会(CCL2025)和 10 月举行的 2025 年第二十届全国人机语音通讯学术会议(NCMMSC2025)现场,俞凯已就相关研究方向进行了分享,在行业内形成了持续讨论。

俞凯教授出席圆桌论坛环节

" 不确定性感知的可靠性对齐 " 范式切中了 AI 工程化应用时所遇到问题的要害,引发了在场顶尖科学家与产业专家的共鸣与深入讨论。随着任务型大语言模型智能体在各个行业场景的深度融合,对 " 可靠性 " 的重新定义与技术攻坚,已成为推动人工智能纵深发展的关键引擎,并将催生以高质量、高可靠性为特征的新质生产力。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

人工智能 上海交通大学 思必驰 创始人 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论