Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

这里是AI贴吧网-AI资讯的硬核前线！我们24小时监测全球实验室动态，算法追踪巨头动向、代码解析学术突破，用最“硅基”视角解秘AI革命浪潮！

LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名，其从此前的第2名直线下降至第32名。这证实了此前开发者对Meta为刷榜向LMArena提供“特供版”Llama4大模型的质疑。

4月6日，Meta发布了最新的大模型Llama4，包含Scout、Maverick和Behemoth三个版本。其中，Llama-4-Maverick在LMArena公布的ChatbotArenaLLM排行榜中排名第二，仅次于Gemini2.5Pro。然而，随着开发者实际使用Llama4大模型开源版的效果陆续曝光，Llama4的口碑急转直下。有开发者发现Meta提供给LMArena的Llama4版本与提交给社区的开源版本不同，因而质疑Meta刷榜作弊。

4月8日，ChatbotArena官方发文确认了用户的上述质疑，公开表示Meta提供给他们的是“特供版”，并考虑更新排行榜。根据ChatbotArena官方消息，Meta首次提交LMArena的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本，当时该版本的排名为第二。修正后的模型为HuggingFace开源版同款 Llama-4-Maverick-17B-128E-Instruct，是17B激活参数、128个MoE专家的指令微调模型。

1AI注意到，目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在LMArena的排名为32名，远低于Gemini2.5Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），甚至连英伟达基于上一代Llama3.3改造的 Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

Meta的 Llama-4-Maverick-03-26-Experimental 为何表现不佳？该公司在上周六发布的一张图表中解释称，该模型是“针对对话性进行优化”的。这些优化显然在LMArena上取得了不错的效果，因为LMArena的人类评分者会比较不同模型的输出，并选择他们更偏好的结果。

由于各种原因，LMArena从未被视为衡量AI模型性能的最可靠指标。尽管如此，针对基准测试调整模型不仅具有误导性，还使得开发者难以准确预测该模型在不同场景下的表现。

Meta的一位发言人向小编表示，Meta会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本，它在LMArena上也表现不错，”该发言人说，“我们现在已发布了开源版本，将看看开发者如何根据自己的使用案例定制Llama4。我们期待看到他们构建的内容，并期待他们持续的反馈。”

想掌握最新AI隐藏技能？挖透巨头紧急下架产品的真相？点击【AI贴吧网-AI资讯】，深度解析+实战案例，智能刷新你的认知！

ai财泰

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

发表回复取消回复

发表回复 取消回复

发表回复取消回复