Groundlight 开源框架,搞定复杂的视觉推理

一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理,让AI不仅能“看图识物”,更能像福尔摩斯一样,从图像中推理出更深层次的信息。  我们都知道,现在的AI在识别猫猫狗狗方面已经炉火纯青,但要让它们理解图片背后的逻辑关系,进行更复杂的推理,就常常“卡壳”。 Groundlight 的研究人员指出,当前的视觉语言模型 (VLM) 在理解图像本身尚且不足的情况下,更难以完成需要深度解读的任务。

一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理,让AI不仅能“看图识物”,更能像福尔摩斯一样,从图像中推理出更深层次的信息。 

我们都知道,现在的AI在识别猫猫狗狗方面已经炉火纯青,但要让它们理解图片背后的逻辑关系,进行更复杂的推理,就常常“卡壳”。 Groundlight 的研究人员指出,当前的视觉语言模型 (VLM) 在理解图像本身尚且不足的情况下,更难以完成需要深度解读的任务

QQ_1742194787910.png

虽然大型语言模型 (LLM) 在文本推理方面取得了巨大进展,但视觉领域的类似突破仍然有限。现有的 VLM 在需要结合视觉和文本线索进行逻辑推演时常常表现不佳,这凸显了它们能力上的一个关键缺陷。 仅仅识别图像中的物体是远远不够的,理解物体之间的关系和上下文信息才是关键.

强化学习来助力,GRPO 成就“最强大脑”

为了提升VLM的视觉推理能力,Groundlight 的研究团队别出心裁地采用了强化学习方法,并创新性地利用了 GRPO (Gradient Ratio Policy Optimization) 来提高学习效率。 

之前的研究,例如 Deepseek 的工作和语言模型的先进推理,很少将这些技术扩展到 VLM 领域。 为了验证他们的方法,研究人员设计了一个需要同时处理视觉和文本信息的密码破译任务。 模型需要使用一个随机生成的解码器图像来解读编码信息,最终,一个仅有30亿参数的模型就达到了 96% 的准确率! 注意力分析表明,模型在解决任务时能够积极地参与视觉输入,专注于相关的解码器区域。

使用 GRPO 训练 VLM 并非一帆风顺,尤其是在分词 (tokenization) 和奖励设计方面。 由于模型通常将文本处理为词元 (tokens) 而非单个字符,因此对于需要精确字符级别推理的任务来说可能会遇到困难。

 为了缓解这个问题,研究人员在消息的字母之间添加了空格,以简化解码过程。 奖励设计是另一个至关重要的环节,因为强化学习模型需要结构良好的反馈才能有效地学习。 研究人员使用了三种奖励类型:格式奖励,确保输出的一致性;解码奖励,鼓励对乱码文本进行有意义的转换;以及正确性奖励,提高准确性。 通过仔细平衡这些奖励,研究人员成功避免了模型学习到意外的“捷径”,确保其真正提高了密码破译能力。

GRPO 通过比较多个输出而非依赖直接梯度计算来优化学习过程,这为训练带来了更高的稳定性。 通过为每个查询生成多个响应并相互评估,这种方法实现了更平滑的学习曲线。 这项研究也强调了 VLM 在基于推理的任务中的潜力,但也承认了复杂视觉模型带来的高昂计算成本。 

为了解决效率问题,他们提出了选择性模型升级等技术,即仅在模糊不清的情况下才使用更昂贵的模型。 此外,他们还建议集成预训练的物体检测、分割和深度估计模型,以在不显着增加计算开销的情况下增强推理能力。 这种基于工具的方法为训练大型端到端模型提供了一种可扩展的替代方案,强调效率与准确性并重。

Groundlight 团队通过集成强化学习技术,特别是 GRPO,在增强 VLM 方面取得了显著的进展。 他们在一个密码破译任务中测试了他们的方法,模型展现出了令人印象深刻的准确性。 

项目:https://github.com/groundlight/r1_vlm

demo:https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder

相关资讯

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

近日,VLM-R1项目的成功推出为这一领域带来了新的曙光。 该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移,意味着 AI 对视觉内容的理解将进入一个全新的阶段。 VLM-R1的灵感源自于去年 DeepSeek 开源的 R1方法,该方法利用了 GRPO(Generative Reward Processing Optimization)强化学习技术,在纯文本处理上取得了优异的表现。

通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法

在人工智能快速发展的时代,强化学习是其中的关键技术,它让机器能够像人一样,在不断尝试中学习怎么做是最好的。 今天要讲的 GRPO(Group Relative Policy Optimization),也就是群体相对策略优化算法,是强化学习里非常厉害的存在。 接下来,就带大家走进deepseek(Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升)  GRPO 的奇妙世界,看看它到底是怎么回事。

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

RTX 3080 移动版能训练哪种大模型? 本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。 自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。