【TechWeb】4 月 8 日消息,被寄予厚望的美国 Meta 公司的最新开源大模型 Llama 4 发布不到 2 天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。
今天,大模型评测平台 LM Arena 亲自下场发文,打脸 Meta 提供给平台的 Llama 4 是 " 特供版 "。
据知情人士爆料称,Meta 因面临 DeepSeek、Gemini 等竞品的快速迭代压力,选择 " 仓促发布未完成优化的模型 ",牺牲技术严谨性以追赶进度。
Llama 4 亮相,LMSYS 榜单排名第二
在周日,大模型开源届的旗帜 Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。
Llama 4 以全系列首次采用混合专家(MoE)架构、高效推理和长上下文处理为亮点。
根据 Meta 公开的信息和数据,在基准测试中,Llama 4 三大版本均有优异表现:
Llama-4-Maverick 在 LMSYS 排行榜(也被称为 Chatbot Arena 或 LM Arena)中排名第二,仅次于 Gemini 2.5 Pro。
在图像推理任务(MMMU、MathVista)中得分超越 GPT-4o 和 Gemini 2.0,但编程和科学推理能力落后于 DeepSeek V3 和 Claude 3.7。
Llama-4-Scout 通用任务得分较低(如 Intelligence Index 仅 36),与 GPT-4o mini 相当,但在长文本处理和小规模部署中具备实用性,支持 1000 万 token 上下文窗口(相当于 15000 页文本),适用于长文档分析、代码库推理等场景,为行业领先水平。
Llama-4-Behemoth 目前仍在训练中,但已公布的 STEM 测试成绩(如 MATH-500 95.0)超越 GPT-4.5 和 Gemini 2.0 Pro。
另外,Maverick 的推理成本为每百万 token 输入 0.19-0.49 美元,远低于 GPT-4o(约 4.38 美元),且支持多模态输入,性价比突出。
看到 Llama 4 性能强大,业内一时之间热情澎湃,盛赞大模型开源届再迎来强力军。
但是,试用后,开发者们发现事情没那么简单。
实测水准拉垮
Meta CEO 扎克伯格在 Llama 4 发布时曾宣称其 "AI 编程水平将达中级工程师 ",但用户在对 Llama 4 进行实测时却发现巨大反差。
在多项基准测试中,Llama 4 的表现远低于预期。Maverick 在 aider polyglot 多语言编码测试中仅得 16%,远低于 Qwen-32B 等竞品,甚至被用户称为 " 糟糕透顶的编程模型 "。
Maverick 在基础编程任务(HumanEval)得分仅接近 GPT-4o mini,远低于 DeepSeek V3。
尽管 Llama-4-Scout 支持 1000 万 token 上下文窗口,但实际测试显示其召回率在 16K token 时仅 22%。有用户将《哈利•波特》全书输入后 Scout 回答问题的正确率,远低于 Gemini 2.5 Pro 等对手。
此外,还有用户测试发现,Llama 4 生成的物理动画违背基本规律,如小球弹跳轨迹错误,并且需多次尝试才能完成复杂逻辑链任务,而 DeepSeek 和 Gemini 等都可一次成功。
独立评测机构 Artificial Analysis 指出,Llama 4 在综合推理、科学任务和编码中与顶级模型存在系统性差距。Maverick 的 Intelligence Index 得分仅 49,远低于 Gemini 2.5 Pro(68)和 DeepSeek R1(66)。
Llama 4 的实际表现如此一般,引发用户对其夸大宣传的强烈质疑。
被曝作弊刷榜
与此同时,Meta 前员工在论坛 " 一亩三分地 " 匿名发帖等多个消息源指出,Llama 4 在训练后期阶段将基准测试的测试集数据混入训练数据,以此提升模型在评测榜单上的表现。
这种做法使模型在特定测试中过拟合,短期可以提升排名,但实际应用表现远低于预期,因此也被业内认为是作弊来刷榜单排名。
不过,很快,Meta 研究科学家主管 Licheng Yu 实名辟谣,团队根本没有针对测试集过拟合训练。Meta 首席 AI 科学家的 Yann LeCun 也发帖力挺。
但是,开源社区的用户还发现 Meta 提供的 Llama 4 榜单版本与开源版本不同。
也就是,Meta 提交给评测平台 LM Arena 的 Llama-4-Maverick 是一个实验性聊天优化版本,其行为与公开发布的基础版存在显著差异,如回答风格更冗长、使用表情符号等。
这被质疑为 " 针对榜单优化的特供版 ",误导开发者对模型真实能力的判断。
进一步加剧了大模型开源社区用户对 Llama 4 能力的质疑。
在经过 2 天发酵后,今天,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是 " 特供版 ",并考虑更新排行榜。
Chatbot Arena 官方发文:
" 我们已经看到社区对 Llama-4 在 Arena 上的最新发布提出了问题。为了确保完全透明,我们正在发布 2000 多个一对一模型对战结果供公众审查。这包括用户提示、模型响应和用户偏好。
初步分析显示,模型回复风格和语气是重要影响因素,我们正在进行更深入的分析以了解更多 !
此外,我们还将 Llama-4-Maverick 的 HF(HuggingFace) 版本添加到 Arena 中,排行榜结果将很快公布。
Meta 对我们政策的解释与我们对模型提供者的期望不符。Meta 应该更清楚地说明 "Llama-4-Maverick-03-26-Experimental" 是一个经过人类偏好优化的定制模型。
因此我们正在更新我们的排行榜政策,以加强我们对公平、可重复评估的承诺,从而避免未来出现这种混淆。"
" 伪开源 ",比 DeepSeek 差远了
一直以来,Meta 都以大模型开源路线领路人自居,有了 DeepSeek 珠玉在前,这次 Llama 4 的开源方式,反而动摇了 Meta 作为开源标杆的地位。
Llama 4 执行的非标准开源许可,而是采用 Meta 自定义的许可条款,对商业使用和分发设置了多重限制。例如,月活跃用户超过 7 亿的公司需向 Meta 单独申请授权,且 Meta 可自行决定是否批准。竞争对手员工被禁止接触模型,要求所有衍生模型名称必须以 "Llama" 开头,并在界面、文档中突出显示 "Made with Llama" 水印等。
而 DeepSeek R1 遵循标准的开源协议 MIT 许可协议,允许自由使用、修改、分发及商业化,仅需保留原始版权声明和许可声明。无商业限制,企业对模型的使用无需额外授权,且可基于 MIT 许可开发闭源商业产品。
开放源代码促进会(OSI)定义的 " 开源 " 需允许自由修改和分发,而 Meta 的条款明显违背这一原则。仅从开源许可方面来看,和 DeepSeek R1 相比,Llama 4 的开放性差远了。
Llama 4 开源仅提供模型参数,缺乏对训练流程、数据清洗策略的披露,未公开完整的训练数据集和超参数优化细节,如 MetaP 方法的核心逻辑,开发者无法复现或改进模型。此举被社区用户质疑为 " 黑箱式共享 "。
另外,Llama 4 还设置了诸多限制,比如,繁琐的申请流程,用户需登录 Hugging Face 账号并填写包含个人身份、公司信息、税务标识等详细资料的申请表,稍有错漏可能被永久拉黑且无申诉渠道。
相比之下,国内开源模型如 DeepSeek、通义千问等都无需复杂流程即可直接使用。
此外,Llama-4-Scout 和 Maverick 虽宣称支持单卡运行,但需要 NVIDIA H100 等高端 GPU(单卡成本超 3 万美元),普通开发者难以负担。用户认为,真正的开源应兼顾不同硬件环境。
总之,Meta 针对 Llama 4 开源的一系列骚操作,被开发者批评 " 背离开源精神 ",是 " 既要开源流量,又防社区威胁 " 的双标策略,进一步加剧 Llama 4 的信任危机。
Meta 的 Llama 4 本被寄予厚望,却在短短两天内因作弊刷榜、代码能力拉垮、伪开源争议跌落神坛。Meta 若继续在商业控制与技术开放之间摇摆,恐将在 AI 竞赛中进一步失去开发者支持。
登录后才可以发布评论哦
打开小程序可以发布评论哦