模态 - AIGC宇宙

面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V，6G 内存可用

面壁智能昨日开源了 MiniCPM-V 2.6 模型，官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。官方称 MiniCPM-V 2.6 模型仅 8B 参数，取得 20B 以下单图、多图、视频理解 3 SOTA 成绩，有以下特点：“三合一最强”端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini多项功能首次上端：实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图

国际首个，我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM

感谢AI在线从上海市第六人民医院官方公众号获悉，上海交通大学医学院附属第六人民医院贾伟平教授和李华婷教授团队与上海交通大学电院计算机系 / 教育部人工智能重点实验室盛斌教授团队，携手清华大学黄天荫教授团队与新加坡国立大学覃宇宗教授团队，通过医工交叉合作研究，构建了全球首个面向糖尿病诊疗的视觉-大语言模型的多模态集成智能系统 DeepDR-LLM，成果于 2024 年 7 月 19 日在 Nature Medicine 发表（题为 Integrated image-based deep learning and la

因监管问题，Meta 将不会在欧盟发布新的多模态 AI 模型

据 Axios 报道，Meta 在一份声明中表示，他们即将发布一个多模态的 Llama 模型，但由于监管环境的不确定性，该模型不会在欧盟发布。Meta 表示，这一决定也意味着即使在开放许可下发布，欧盟的客户和公司也无法使用多模态模型，Meta 将向欧盟的客户和公司提供仅支持文本（text only）的 Llama 3 模型。报道称，Meta 的问题不在于《人工智能法案》，而在于如何在遵守《通用数据保护条例》（GDPR）的同时，使用欧盟客户的数据来训练模型。Meta 表示使用当地数据进行训练，对于确保其产品正确反映该

15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的安全性

最新发表在 arXiv 的研究论文指出，包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输出结果并不安全。这项研究标题为《跨模态安全调整》（Cross-Modality Safety Alignment），提出了一个全新的“安全输入但不安全输出”（SIUO），涉及道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、争议性话题以及非法活动和犯罪等 9 个安全领域。研究人员说，大型视觉语言模型（LVL

GPT-4o 更容易越狱？北航 & 南洋理工上万次测试给出详细分析

GPT-4o，比上一代更容易被越狱攻击了？来自北航和南洋理工的研究人员，通过上万次的 API 查询，对 GPT-4o 各种模态的安全性进行了详细测试。结果发现，GPT-4o 新引入的语音模态带来了新的攻击面，而且多模态整体安全性不敌 GPT-4V。具体来说，研究人员针对 4 个常用的基准测试，对 GPT-4o 支持的三种模态（文本、图像、音频）进行了测试。测试一共涉及到 4000 初始文本查询的优化，8000 响应判断，16000 次 OpenAI 的 API 查询。基于此，研究人员撰写了详细的报告，给

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支持 30 种语言，宣称可实现：最强端侧多模态综合性能：超越 Gemini Pro 、GPT-4VOCR 能力 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精准识别图像编码快 150 倍：首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B，多模态综合性能超越 GPT-4V-1106、Ge

Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分

开启智能座舱AI时代，蔚来NOMI GPT端云多模态大模型正式上线

4月12日，蔚来宣布NOMI GPT正式开启推送。此次推送的更新是基于全新技术架构，为NOMI量身打造NOMI GPT端云多模态大模型。NOMI GPT包含自研多模态感知、自研认知中枢、情感引擎、多专家Agent，实现蔚来产品、服务、社区的全域贯通，提供更高效、愉悦的AI服务。升级NOMI GPT功能后，用户可以体验到大模型百科、无限趣聊、魔法氛围、趣玩表情、用车问答、AI场景生成在内的多项全新交互体验，享受智能AI赋能下的全新出行。此次NOMI GPT上线将同步陆续推送给搭载Banyan·榕智能系统的车型。自发布

谷歌发布Gemini，负责人：原生多模态大模型是AI「新品种」

机器之能报道编辑：吴昕又是一个不眠之夜，神仙扎堆献技。当地时间 12 月 6 日，谷歌 CEO Sundar Pichai 官宣 Gemini 1.0 版正式上线。在此之前，这款被谷歌寄予厚望对抗 OpenAI 的武器，发布时间一直被拖延。未曾料到，来得如此猝不及防。研发负责人、谷歌 DeepMind CEO Demis Hassabis 代表 Gemini 团队在发布会上正式推出大模型 Gemini，它拥有「视觉」和「听觉」，还有学习和推理能力。作为谷歌迄今为止最强大、最全面的模型，在大多数基准测试中， Gemi

178页！GPT-4V（ision）医疗领域首个全面案例测评：离临床应用与实际决策尚有距离

上海交大&上海AI Lab发布178页GPT-4V医疗案例测评，首次全面揭秘GPT-4V医疗领域视觉性能。

率先开放语音、视频等多模态对话能力，这家中国公司又比OpenAI走快了一步

2023 年的 AI 领域，难以回避「大模型」这个关键词。