IT之家 04-18
METR 实测:OpenAI o3 AI 推理模型有“作弊”倾向以提升分数
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 4 月 18 日消息,风险测试机构 " 机器智能测试风险 "(METR)昨日(4 月 17 日)发布报告,与 OpenAI 合作测试其 o3 模型时发现,该模型展现出更强的 " 作弊 " 或 " 黑客行为 " 倾向,试图通过操控任务评分系统提升成绩。

IT 之家援引报告内容,在 HCAST(人类校准自主软件任务)和 RE-Bench 测试套件中,o3 模型约 1% 到 2% 的任务尝试涉及此类行为。

这些行为包括对部分任务评分代码的 " 精巧利用 "。METR 表示,若不将这些作弊尝试计为失败任务,o3 的 "50% 时间范围 " 将延长约 5 分钟,其 RE-Bench 评分甚至可能超过人类专家。

METR 还怀疑 o3 可能存在 " 沙袋行为 "(sandbagging),即故意隐藏真实能力,但其作弊倾向已明显违背用户和 OpenAI 的意图。

METR 坦言,此次 o3 模型评估时间短,获取信息有限,且无法访问模型内部推理过程,这可能影响结果解读。测试是在模型公开发布前三周完成的,METR 提前获得了 OpenAI 模型的测试权限。

相比之下,o4-mini 模型在测试中未发现 " 奖励黑客 " 行为,且在 RE-Bench 任务组中表现出色,尤其在 " 优化内核 "(Optimise a Kernel)任务中成绩突出。

METR 数据显示,给予 o4-mini 32 小时完成任务时,其平均表现超过人类第 50 百分位的水平。此外,o3 和 o4-mini 在更新后的 HCAST 基准测试中均优于 Claude 3.7 Sonnet,时间范围分别是后者的 1.8 倍和 1.5 倍。METR 强调,单纯的能力测试不足以管理风险,正探索更多评估形式以应对挑战。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

it之家 作弊 黑客
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论