面壁智能开源 MiniCPM-V 2.6 模型:号称端侧 AI 多模态能力对标 GPT-4V,6G 内存可用

面壁智能昨日开源了 MiniCPM-V 2.6 模型,官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。官方称 MiniCPM-V 2.6 模型仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,有以下特点:“三合一最强”端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图

面壁智能昨日开源了 MiniCPM-V 2.6 模型,官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平

面壁智能开源 MiniCPM-V 2.6 模型:号称端侧 AI 多模态能力对标 GPT-4V,6G 内存可用

官方称 MiniCPM-V 2.6 模型仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,有以下特点:

“三合一最强”端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini

多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能

最高多模态像素密度:类比知识密度,小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)

端侧友好:量化后端侧 6G 内存可用;端侧推理速度达 18 tokens / s,相比上代模型快 33%。发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言

统一高清框架:小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平,并进一步覆盖单图、多图、视频理解

AI在线附开源地址:

GitHub:  https://github.com/OpenBMB/MiniCPM-V

HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-2_6

相关资讯

vivo 全新蓝心大模型矩阵发布,推出 30 亿蓝心端侧大模型 3B、语音大模型

在今日上午的 2024 vivo 开发者大会开幕演讲中,vivo 正式发布了自研的全新蓝心大模型矩阵,全面升级语言大模型和端侧大模型能力,并带来 vivo 自研的语音大模型、图像大模型以及多模态大模型。据AI在线了解,全新蓝心大模型矩阵包括语言大模型、端侧大模型、语音大模型、图像大模型、多模态大模型。vivo 推出了全新的 30 亿蓝心端侧大模型 3B,官方称在对话写作、摘要总结、信息抽取等能力上,蓝心 3B 可以越级比肩行业 7B-9B 模型。相比蓝心 7B,蓝心 3B 极致性能提升 300%,平衡模式下功耗优化

WAIC 2021 | 云天励飞副总裁肖嵘:创「芯」时代 打造自进化城市智能体

在 WAIC 2021 AI 开发者论坛上,肖嵘发表主题演讲《创「芯」时代 打造自进化城市智能体》,在演讲中,他主要介绍了自进化城市智能体,并介绍了云天励飞最新研究成果及成功案例。

文心大模型融入荣耀MagicOS!打造大模型“端云协同”创新样板

2024年1月10日,在荣耀MagicOS 8.0发布会及开发者大会上,荣耀终端有限公司CEO赵明宣布了“百模生态计划”,并与百度集团执行副总裁、百度智能云事业群总裁沈抖共同宣布,百度智能云成为荣耀大模型生态战略合作伙伴。沈抖在现场演讲中表示,“端云协同”是大模型到端侧应用的创新范式。端侧大模型更懂用户意图,云侧大模型擅长处理复杂问题,满足用户深层次需求,端侧、云侧能力互补、相互结合,将为用户带来卓越的体验。大模型将驱动移动应用二次爆发,不止现有的800万移动应用会基于大模型加速升级、重构,未来还将诞生更多全新的A