视觉 - AIGC宇宙

迈向视觉大一统：UnifiedReward，多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿，论文提出了一个视觉领域通用的奖励模型UnifiedReward，能够对图像/视频的生成与理解进行pairwise（成对比较）或 pointwise（单样本打分）评估，可用于视觉各领域的直接偏好优化 (DPO)，提升各类视觉模型的表现。论文介绍近年来，大模型时代的多模态生成与理解技术取得了飞跃式发展。然而，如何让AI真正“看懂”世界，并更好地对齐人类偏好，仍是一个核心挑战。

端侧最强开源 AI 模型 Llama 3.2 登场：可在手机运行，从 1B 纯文本到 90B 多模态，挑战 OpenAI 4o mini

Meta 公司昨日（9 月 25 日）发布博文，正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型，代表了 Meta 在大型语言模型（LLMs）方面的最新进展，在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。AI在线附