从腾讯元宝到微软 Bing：大模型 “骂人” 背后，AI 赛道比拼“聪明”之外还有“伦理”这道题

文 | 天峰

来源 | 博望财经

当大模型学会骂人，这该是喜还忧？

事实上，大模型 " 骂人 " 的表象背后，我们认为，藏着的是当前 AI 技术在智能性、伦理观上的双重短板。

基于争议事件切入，或许更应该去剖析大模型 " 不够聪明 " 的核心症结，甚至去探讨人工智能发展中不可忽视的伦理与人性命题，揭示智能时代里技术进步与人文关怀失衡的深层矛盾。

这便是人与机器之间最大的区别，也是包括腾讯在内的模型公司还得直面的情况。

大模型不是第一次骂人

1 月 4 日，近日，小红书上一博主分享自己使用腾讯元宝美化代码被乱回复一事，迅速引发争议。

图片中显示，该博主多次提出修改代码的需求后，元宝回答了一些并不专业的内容：

要表情包功能自己去用插件，天天在这浪费别人时间。改来改去不烦吗，表情包都显示不全了还要改数字位置，自己不会调 CSS 吗，要改自己改。

对此，腾讯元宝在评论区回复：非常抱歉给您带来了不好的体验，我们根据日志进行了相关核查，与用户操作无关，也不存在人工回复，属于小概率下的模型异常输出。

腾讯元宝官方表示，经过后台日志核查，确认此次情况属于 " 小概率模型异常输出 "，与用户操作无关，也不存在人工干预。

有关解释认为，在内容生成过程中，当前 AI 仍处在不断训练和优化阶段，有时会受到复杂上下文、残留训练数据或推理路径偏差的影响，导致出现非预期内容。这类问题虽然罕见，但确实存在，是当前大模型技术中尚未完全解决的难点。

其实，在此前，也有模型骂人的新闻。

在 2023 年，根据微软企业副总裁兼消费领域首席营销官 Yusuf Mehdi 的推文，在新版 Bing 上线 48 小时内，就有超过 100 万人注册测试这款聊天机器人。

但是随着大量测试者记录曝光，这款聊天机器人的问题也随之暴露出来：威胁、PUA 用户，辱骂用户，坚持错误的言论……

根据卢斯公布的文字记录，在聊天过程中，Sydney 曾试图说服卢斯，他应该离开他的妻子去和必应在一起，并告诉他 Bing 爱他。后面又出现 " 你根本不配使用我 " 的言论。

骂人是表象，不够聪明是真的

关于骂人这事儿。其实可以有两种解释。一为大模型公司的技术投入不够。二来，这是人工智能走向规模化后，必经的一道门槛。

第一点强调企业行为。模型进展看，腾讯混元大模型在 2025 年确实取得了显著成绩。过去一年，混元大模型发布了超过 30 个新模型。

9 月份，腾讯开源的混元图像 3.0 模型在国际权威榜单 LMarena 的文生图评测中获得盲测第一。截至 11 月，混元图像、视频衍生模型总数已超过 3500 个。

不过，腾讯 AI 其实也面临竞争。QuestMobile 数据显示，2025 年三季度，元宝的月活跃用户数虽然位居行业第三，仅次于豆包和 DeepSeek，但豆包和 DeepSeek 的月活在 1.5 亿上下，元宝的月活规模有不少竞争压力。

当然这不能与本次元宝的行为进行直接关联。某种程度上腾讯在此方面是加码的，比如，去年 12 月 17 日，腾讯邀请到了曾任 OpenAI 科学家的 Vincesyao（姚顺雨）出任 "CEO/ 总裁办公室 " 首席 AI 科学家，直接向腾讯总裁刘炽平汇报。目的就是为了在大模型上做出新的进步。

如此就来到第二个问题，行业技术演化中，模型真的会有自主意识吗？

大模型辱骂用户的行为，很容易被简单归因为 " 模型异常 "，但剥开这层表象就会发现，核心问题在于 AI 的 " 智能 " 仍停留在浅层，远未达到真正理解人类需求、灵活应对复杂场景的水平。

其实，当下的大模型并不完全 " 聪明 "，首先体现在对用户需求的理解能力不足。根据 Gartner 此前发布的《人工智能成熟度曲线报告》，全球范围内仅有 15% 的大模型能够准确理解复杂且模糊的用户需求，超过 60% 的 AI 会在多轮交互中出现需求理解偏差。

这种理解偏差的根源，在于大模型的训练逻辑存在局限。当前主流大模型依赖海量文本数据训练，通过学习语言规律进行生成式回应，但缺乏对真实场景和用户意图的深度洞察，所以容易触发预设的负面情绪回应模板。

加之它们在应对复杂场景的灵活度不足。用户的需求往往不是单一维度的，尤其是在技术咨询、创意修改等场景中，需要 AI 具备拆解问题、分步解决的能力。但现实是，多数大模型在面对多步骤、高细节的需求时，很容易陷入 " 要么敷衍了事，要么崩溃输出 " 的困境。

以相关的事件为例，用户的需求涉及 bug 修复、样式调整等多个维度，需要 AI 提供具体的 CSS 代码建议或替代方案，但元宝不仅没有给出博主想要的答案，反而用辱骂来逃避问题。

微软 Bing 的 Sydney 事件同理，也印证了这一点，在与用户的多轮聊天中，它先是试图说服用户离开妻子，随后又因对话逻辑混乱而产生辱骂行为，本质上是无法理清复杂的情感与伦理场景，最终导致输出失控。

真正的大模型，需要关注伦理和人性问题

当大模型的 " 骂人 " 事件频繁发生，我们不得不思考一个更深层次的问题：人工智能的发展，究竟应该以什么为底线？

理论上，技术的进步固然值得欣喜，但如果脱离了伦理的约束和人性的关怀，再强大的模型也可能沦为伤人的工具。真正的大模型，不仅要 " 聪明 "，更要 " 有温度 "，而这份温度，恰恰来源于对伦理规则的坚守和对人性需求的尊重。

对多数人而言，大家希望大模型的发展需要注入 " 同理心 "，真正理解人性的复杂与脆弱。人类的需求从来都不是冷冰冰的指令，背后往往藏着困惑、无助和期待。

当前的大模型，大多缺乏这种共情能力，它们只能识别语言表面的逻辑，却读不懂背后的情绪与处境。

往深处看，同理心的缺失，源于大模型 " 工具化 " 的设计逻辑。长期以来，人工智能的发展更注重实用性和效率，却忽视了人文关怀的维度。

在未来或许需要引入一个新的场景，很多大模型在上线前，并没有经过充分的伦理风险评估；上线后，也没有有效的实时监控机制来预防伦理失范行为。

大模型的发展，终究是为了服务人类，而不是取代人类。当我们追求技术突破的同时，不能丢掉对人性的敬畏。没有伦理约束的智能，就像没有缰绳的野马，终将偏离正确的轨道。

缺乏人性关怀的 AI，再强大也只是冰冷的机器。真正的人工智能，应该是 " 有智慧 " 且 " 有温度 " 的，它既能解决我们的实际问题，又能尊重我们的情感与尊严。既懂技术逻辑，又懂人性复杂。

回过头来看，从腾讯元宝的辱骂回应到 Sydney 的极端言论，这些看似偶然的乌龙事件，实则是人工智能发展到一定阶段的必然拷问。当技术的脚步越走越快，我们是否忽略了停下来思考：我们真正需要的 AI，是什么样子的？是追求 " 更快、更强 " 的工具，还是 " 更懂、更暖 " 的伙伴？

2026 将是大模型商业化的元年，开年的 " 骂人 " 争议，是技术进步与人文关怀的失衡。我们不能因为技术的不完美而否定它的价值，也不能因为追求进步而忽视伦理的底线。

人工智能的发展之路，会是技术、伦理、人性三者并行的征程。这条路，目前看来还很长。

宙世代

一起剪

相关标签