上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入

这里是AI贴吧网-AI资讯的硬核前线!我们24小时监测全球实验室动态,算法追踪巨头动向、代码解析学术突破,用最“硅基”视角解秘AI革命浪潮!

据上海人工智能实验室官方公众号,4月16日,上海人工智能实验室(上海AI实验室)升级并开源了通用多模态大模型书生・万象3.0(InternVL3)。

官方介绍,通过采用创新的多模态预训练和后训练方法,InternVL3多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10亿~780亿参数的全量级版本在开源模型中性能均位列第一,同时大幅提升了图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

据介绍,该团队提出了一种创新的原生多模态预训练方法,与传统的先优化大语言模型再添加视觉能力的方法不同,这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合,让模型能够同时学习语言和视觉,从而能够同时处理文本和多模态输入。

除了可以处理通用的多模态任务之外,InternVL3还拓展了多方面的多模态能力,如图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理、通识学科推理等。

据介绍,InternVL3可作为GUI智能体,遵循指令去操作电脑或者手机上的专业软件。

1AI汇总有关链接如下:

技术报告链接:https://huggingface.co/ papers/2504.10479代码开源/模型使用方法:https://github.com/ OpenGVLab/InternVL模型地址:https://huggingface.co/ OpenGVLab/InternVL3-78B公测版本:https://chat.intern-ai.org.cn/

想掌握最新AI隐藏技能?挖透巨头紧急下架产品的真相?点击【AI贴吧网-AI资讯】,深度解析+实战案例,智能刷新你的认知!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注