阿里云通义开源Qwen2.5-VL，视觉AI超越Claude 3.5

作者：AI在线

2025-01-29 10:15

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL，并推出了3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，超越了GPT-4o与Claude3.5。阿里云官方介绍称，新的Qwen2.5-VL能够更准确地解析图像内容，并突破性地支持超过1小时的视频理解。

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL，并推出了3B、7B和72B三个尺寸版本。

其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，超越了GPT-4o与Claude3.5。阿里云官方介绍称，新的Qwen2.5-VL能够更准确地解析图像内容，并突破性地支持超过1小时的视频理解。该模型可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速、高效地帮助用户提取视频中的关键信息。

阿里云通义开源Qwen2.5-VL：最强视觉AI 超越GPT-4o

此外，Qwen2.5-VL无需微调即可变身为一个能操控手机和电脑的AI视觉智能体（Visual Agents），实现多步骤复杂操作，如给指定朋友发送祝福、电脑修图、手机订票等。Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。阿里云还提升了Qwen2.5-VL的OCR识别能力，增强了多场景、多语言和多方向的文本识别和文本定位能力。

阿里云通义开源Qwen2.5-VL：最强视觉AI 超越GPT-4o

同时，在信息抽取能力上进行了大幅度增强，以满足日益增长的资质审核、金融商务等数字化、智能化需求。

划重点:
🌟 阿里云通义千问开源Qwen2.5-VL，推出3B、7B和72B三个版本。
📈 Qwen2.5-VL-72B在视觉理解评测中超越GPT-4o与Claude3.5。
👀 Qwen2.5-VL支持超1小时视频理解，增强OCR识别能力。

相关标签：

阿里云 Qwen2.5-VL 视觉理解 AI视觉智能体

相关资讯

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

阿里通义千问官方今日发文宣布，开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型，推出了 3B、7B 和 72B 三个尺寸版本。

阿里通义千问推出推理模型QwQ-Max预览版可在qwen.ai域名体验

阿里通义千问推出推理模型QwQ-Max预览版可在qwen.ai域名体验

2月25日，阿里巴巴宣布推出基于Qwen2.5-Max的推理模型QwQ-Max-Preview，并计划全面开源其最新推理模型QwQ-Max和Qwen2.5-Max。此次发布的QwQ-Max-Preview是一个预览版本，阿里巴巴表示，正式版本将很快推出，并基于Apache2.0许可证全面开源。与以往不同的是，此次开源不仅包括模型本身，还涵盖了更小的版本，如QwQ-32B，这些版本可以部署在本地设备上，进一步推动AI技术的普及和应用。

通义灵码上线Qwen2.5-Max推理模型

通义灵码上线Qwen2.5-Max推理模型

2025年3月3日，通义灵码宣布上线其最新推理模型Qwen2.5-Max，为开发者带来强大的编程和数学能力支持。 Qwen2.5-Max使用了超过20万亿token的预训练数据，并结合精心设计的后训练方案，展现出卓越的性能。在多项基准测试中，Qwen2.5-Max表现突出。

资讯热榜

DeepSeek+Drawio一键生成20多种图表，90%都不知道的技巧（附保姆级教程）大模型系列：DeepSeek大模型与应用场景介绍强强联合！即梦接入DeepSeek 从提示词到绘画一步到位如何高效使用DeepSeek-R1：推理大模型调优指南 DeepSeek对数据治理的影响 3秒出结果！如何用DeepSeek把用户差评变成设计方案？我用 Claude Sonnet 和 DeepSeek R1 开发一个同样的工具，看谁更厉害！最新版DeepSeek保姆喂饭级安装教程：本地部署+避坑指南（升级版）

标签云