英伟达发布 Eagle 2.5 视觉语言AI模型:8B 参数媲美 GPT-4o

这里是AI贴吧网-AI资讯的硬核前线!我们24小时监测全球实验室动态,算法追踪巨头动向、代码解析学术突破,用最“硅基”视角解秘AI革命浪潮!

科技媒体marktechpost昨日(4月22日)发布博文,报道称英伟达最新推出Eagle2.5,一款专注于长上下文多模态学习的视觉-语言模型(VLM)。

该模型专注于理解大规模视频和图像,尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为8B,Eagle2.5在Video-MME基准测试(512帧输入)中得分高达72.4%,媲美Qwen2.5-VL-72B和InternVL2.5-78B等更大规模模型。

创新训练策略

Eagle2.5的成功离不开两项关键训练策略:信息优先采样(Information-FirstSampling)和渐进式后训练(ProgressivePost-Training)。

信息优先采样通过图像区域保留(IAP)技术,保留超过60%的原始图像区域,同时减少宽高比失真;自动降级采样(ADS)则根据上下文长度动态平衡视觉和文本输入,确保文本完整性和视觉细节的优化。

渐进式后训练逐步扩展模型上下文窗口,从32K到128Ktoken,让模型在不同输入长度下保持稳定性能,避免过拟合单一上下文范围。这些策略结合SigLIP视觉编码和MLP投影层,确保了模型在多样化任务中的灵活性。

定制数据集

Eagle2.5的训练数据管道,整合了开源资源和定制数据集Eagle-Video-110K,该数据集专为理解长视频设计,采用双重标注方式。

自上而下的方法采用故事级分割,结合人类标注章节元数据、GPT-4生成的密集描述;自下而上的方法则利用GPT-4o为短片段生成问答对,抓取时空细节。

通过余弦相似度(cosinesimilarity)筛选,数据集强调多样性而非冗余,确保叙事连贯性和细粒度标注,显著提升了模型在高帧数(≥128帧)任务中的表现。

性能表现

Eagle2.5-8B在多项视频和图像理解任务中表现出色。在视频基准测试中,MVBench得分为74.8,MLVU为77.6,LongVideoBench为66.4;在图像基准测试中,DocVQA得分为94.1,ChartQA为87.5,InfoVQA为80.4。

消融研究(Ablationstudies)表明,IAP和ADS的移除会导致性能下降,而渐进式训练和Eagle-Video-110K数据集的加入则带来更稳定的提升。

1AI附上参考地址

Eagle2.5:BoostingLong-ContextPost-TrainingforFrontierVision-LanguageModels

GitHub页面

项目页面

想掌握最新AI隐藏技能?挖透巨头紧急下架产品的真相?点击【AI贴吧网-AI资讯】,深度解析+实战案例,智能刷新你的认知!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注