Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

这里是AI贴吧网-AI资讯的硬核前线!我们24小时监测全球实验室动态,算法追踪巨头动向、代码解析学术突破,用最“硅基”视角解秘AI革命浪潮!

科技媒体marktechpost昨日(4月24日)发布博文,报道称Meta公司发布WebSSL系列模型,参数规模从3亿到70亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。

以OpenAI的CLIP为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。

Meta公司针对上述痛点,在在HuggingFace平台上发布了WebSSL系列模型,涵盖DINO和VisionTransformer(ViT)架构,参数规模从3亿到70亿不等。

这些模型仅使用MetaCLIP数据集(MC-2B)中的20亿张图像子集进行训练,排除了语言监督的影响。Meta的目标并非取代CLIP,而是通过控制变量,深入评估在不受数据和模型规模限制下,纯视觉自监督学习(SSL)的表现潜力。

WebSSL模型采用两种视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。训练统一使用224×224分辨率图像,并冻结视觉编码器以确保结果差异仅源于预训练策略。

模型在五个容量层级(ViT-1B至ViT-7B)上训练,评估基于Cambrian-1基准测试,覆盖通用视觉理解、知识推理、OCR和图表解读等16个VQA任务。此外,模型无缝集成于HuggingFace的transformers库,便于研究和应用。

实验揭示了多项关键发现:随着参数规模增加,WebSSL模型在VQA任务上的表现接近对数线性提升,而CLIP在超过30亿参数后性能趋于饱和。

WebSSL在OCR和图表任务中表现尤为突出,尤其在数据筛选后,仅用1.3%的富文本图像训练即超越CLIP,在OCRBench和ChartQA任务中提升高达13.6%。

此外,高分辨率(518px)微调进一步缩小了与SigLIP等高分辨率模型的差距,在文档任务中表现尤为出色。

WebSSL模型在无语言监督下仍展现出与预训练语言模型(如LLaMA-3)的良好对齐性,表明大规模视觉模型能隐式学习与文本语义相关的特征。

同时,WebSSL在传统基准测试(如ImageNet-1k分类、ADE20K分割)上保持强劲表现,部分场景甚至优于MetaCLIP和DINOv2。

1AI附上参考地址

ScalingLanguage-FreeVisualRepresentationLearning

HuggingFace

GitHub

想掌握最新AI隐藏技能?挖透巨头紧急下架产品的真相?点击【AI贴吧网-AI资讯】,深度解析+实战案例,智能刷新你的认知!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注