Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌,此前被质疑刷榜作弊

这里是AI贴吧网-AI资讯的硬核前线!我们24小时监测全球实验室动态,算法追踪巨头动向、代码解析学术突破,用最“硅基”视角解秘AI革命浪潮!

LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,其从此前的第2名直线下降至第32名。这证实了此前开发者对Meta为刷榜向LMArena提供“特供版”Llama4大模型的质疑。

4月6日,Meta发布了最新的大模型Llama4,包含Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena公布的ChatbotArenaLLM排行榜中排名第二,仅次于Gemini2.5Pro。然而,随着开发者实际使用Llama4大模型开源版的效果陆续曝光,Llama4的口碑急转直下。有开发者发现Meta提供给LMArena的Llama4版本与提交给社区的开源版本不同,因而质疑Meta刷榜作弊。

4月8日,ChatbotArena官方发文确认了用户的上述质疑,公开表示Meta提供给他们的是“特供版”,并考虑更新排行榜。根据ChatbotArena官方消息,Meta首次提交LMArena的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为HuggingFace开源版同款 Llama-4-Maverick-17B-128E-Instruct,是17B激活参数、128个MoE专家的指令微调模型。

1AI注意到,目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在LMArena的排名为32名,远低于Gemini2.5Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代Llama3.3改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

Meta的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的一张图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在LMArena上取得了不错的效果,因为LMArena的人类评分者会比较不同模型的输出,并选择他们更偏好的结果。

由于各种原因,LMArena从未被视为衡量AI模型性能的最可靠指标。尽管如此,针对基准测试调整模型不仅具有误导性,还使得开发者难以准确预测该模型在不同场景下的表现。

Meta的一位发言人向小编表示,Meta会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在LMArena上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制Llama4。我们期待看到他们构建的内容,并期待他们持续的反馈。”

想掌握最新AI隐藏技能?挖透巨头紧急下架产品的真相?点击【AI贴吧网-AI资讯】,深度解析+实战案例,智能刷新你的认知!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注