上海AI实验室开源InternVL3系列多模态大型语言模型

2025-04-14 09:01

4月11日，OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。 InternVL3系列包含从1B到78B共7个尺寸的模型，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。与前代产品InternVL2.5相比，InternVL3在多模态感知和推理能力上有了显著提升，其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。

4月11日，OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。InternVL3系列包含从1B到78B共7个尺寸的模型，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。

与前代产品InternVL2.5相比，InternVL3在多模态感知和推理能力上有了显著提升，其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。此外，得益于原生多模态预训练，InternVL3系列的整体文本性能甚至优于Qwen2.5系列，后者是InternVL3中语言组件的初始化部分。

微信截图_20250414083602.png

InternVL3系列模型的架构延续了“ViT-MLP-LLM”范式，用随机初始化的MLP projector将全新增量预训练的InternViT与各种预训练的LLM（包括InternLM3和Qwen2.5）集成。

在模型推理方面，InternVL3应用了像素反混洗操作，将视觉标记数量减少到原来的四分之一，并采用动态分辨率策略，将图像划分为448×448像素的图块。从InternVL2.0开始，关键区别在于额外引入了对多图像和视频数据的支持。InternVL3还集成了可变视觉位置编码（V2PE），为视觉标记提供了更小、更灵活的位置增量，从而展现出更出色的长上下文理解能力。

在模型部署方面，InternVL3可以通过LMDeploy的api_server部署成OpenAI兼容API，用户只需安装lmdeploy>=0.7.3，然后使用相关命令即可完成部署。模型调用时，用户可以通过OpenAI的API接口，指定模型名称、消息内容等参数，获取模型的响应。

体验地址:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e

颠覆性突破！InternVL3：开源多模态大模型如何重新定义AI未来？

在人工智能领域，多模态模型曾被戏称为"偏科生"——擅长处理文本的模型往往对图像束手无策，视觉专家又难解复杂语义。然而，上海人工智能实验室最新开源的InternVL3（书生·万象3.0）打破了这一魔咒。这款参数规模横跨10亿至780亿的全量级模型，不仅以72.2分刷新开源多模态模型在MMMU专家级基准测试的纪录，更通过原生多模态预训练与可变视觉位置编码等创新技术，让AI首次展现出接近人类的多维度认知能力。本文将从技术内核、实战场景与行业影响三大维度，深度剖析这一划时代的开源模型。

4/18/2025 9:15:48 AM

AI在线

一句指令自动玩手机，网上冲浪神器Mobile-Agent来了

一直以来，让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下，AI 需要根据用户的要求自动操作手机，逐步完成任务。随着多模态大语言模型（Multimodal Large Language Model，MLLM）的快速发展，以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中，这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil

2/4/2024 3:25:00 PM

机器之心

登Nature，超越GPT-4V，MIT、哈佛开发人类病理学多模态AI「副驾驶」

编辑 | KX多年来，计算病理学领域在基于图像、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。然而，尽管生成式人工智能 (AI) 呈爆炸式增长，但在构建针对病理学的通用、多模态 AI 助手和「副驾驶」（Copilot）方面的研究却有限。近日，哈佛大学和 MIT 的研究团队提出了一种用于人类病理学的视觉语言通才 AI 助手：PathChat。研究人员将 PathChat 与几种多模态视觉语言 AI 助手和 GPT-4V 进行了比较。PathChat 在来自不同组织来源和疾病模型的病例的多项选择

6/20/2024 3:56:00 PM

ScienceAI

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

上海AI实验室开源InternVL3系列多模态大型语言模型

相关资讯

颠覆性突破！InternVL3：开源多模态大模型如何重新定义AI未来？

一句指令自动玩手机，网上冲浪神器Mobile-Agent来了

登Nature，超越GPT-4V，MIT、哈佛开发人类病理学多模态AI「副驾驶」