AIGC宇宙 AIGC宇宙

上海AI实验室开源InternVL3系列多模态大型语言模型

作者:AI在线
2025-04-14 09:01
4月11日,OpenGVLab开源发布了InternVL3系列模型,这标志着多模态大型语言模型(MLLM)领域迎来了新的里程碑。 InternVL3系列包含从1B到78B共7个尺寸的模型,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。 与前代产品InternVL2.5相比,InternVL3在多模态感知和推理能力上有了显著提升,其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。

4月11日,OpenGVLab开源发布了InternVL3系列模型,这标志着多模态大型语言模型(MLLM)领域迎来了新的里程碑。InternVL3系列包含从1B到78B共7个尺寸的模型,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。

与前代产品InternVL2.5相比,InternVL3在多模态感知和推理能力上有了显著提升,其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。此外,得益于原生多模态预训练,InternVL3系列的整体文本性能甚至优于Qwen2.5系列,后者是InternVL3中语言组件的初始化部分。

微信截图_20250414083602.png

InternVL3系列模型的架构延续了“ViT-MLP-LLM”范式,用随机初始化的MLP projector将全新增量预训练的InternViT与各种预训练的LLM(包括InternLM3和Qwen2.5)集成。

在模型推理方面,InternVL3应用了像素反混洗操作,将视觉标记数量减少到原来的四分之一,并采用动态分辨率策略,将图像划分为448×448像素的图块。从InternVL2.0开始,关键区别在于额外引入了对多图像和视频数据的支持。InternVL3还集成了可变视觉位置编码(V2PE),为视觉标记提供了更小、更灵活的位置增量,从而展现出更出色的长上下文理解能力。

在模型部署方面,InternVL3可以通过LMDeploy的api_server部署成OpenAI兼容API,用户只需安装lmdeploy>=0.7.3,然后使用相关命令即可完成部署。模型调用时,用户可以通过OpenAI的API接口,指定模型名称、消息内容等参数,获取模型的响应。

体验地址:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e

相关资讯

颠覆性突破!InternVL3:开源多模态大模型如何重新定义AI未来?

在人工智能领域,多模态模型曾被戏称为"偏科生"——擅长处理文本的模型往往对图像束手无策,视觉专家又难解复杂语义。然而,上海人工智能实验室最新开源的InternVL3(书生·万象3.0)打破了这一魔咒。这款参数规模横跨10亿至780亿的全量级模型,不仅以72.2分刷新开源多模态模型在MMMU专家级基准测试的纪录,更通过原生多模态预训练与可变视觉位置编码等创新技术,让AI首次展现出接近人类的多维度认知能力。本文将从技术内核、实战场景与行业影响三大维度,深度剖析这一划时代的开源模型。
4/18/2025 9:15:48 AM
AI在线

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil
2/4/2024 3:25:00 PM
机器之心

登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

编辑 | KX多年来,计算病理学领域在基于图像、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。然而,尽管生成式人工智能 (AI) 呈爆炸式增长,但在构建针对病理学的通用、多模态 AI 助手和「副驾驶」(Copilot)方面的研究却有限。近日,哈佛大学和 MIT 的研究团队提出了一种用于人类病理学的视觉语言通才 AI 助手:PathChat。研究人员将 PathChat 与几种多模态视觉语言 AI 助手和 GPT-4V 进行了比较。PathChat 在来自不同组织来源和疾病模型的病例的多项选择
6/20/2024 3:56:00 PM
ScienceAI