AIGC宇宙 AIGC宇宙

轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告

作者:ScienceAI
2025-02-12 05:42
编辑丨coisini多模态生成式人工智能的最新进展已将生物医学应用扩展到同时处理文本和图像,在视觉问答和放射学报告生成等任务中展现出潜力。 然而,这些模型在临床实现中面临挑战,特别是大型模型在计算成本等方面带来了部署难题。 小型多模态模型(SMM)虽然更高效,但与大型模型相比仍存在显著性能差距。

图片

编辑丨coisini

多模态生成式人工智能的最新进展已将生物医学应用扩展到同时处理文本和图像,在视觉问答和放射学报告生成等任务中展现出潜力。然而,这些模型在临床实现中面临挑战,特别是大型模型在计算成本等方面带来了部署难题。小型多模态模型(SMM)虽然更高效,但与大型模型相比仍存在显著性能差距。此外,缺乏可访问的开源模型和可靠的事实正确性评估方法,特别是模型幻觉为临床采用设置了重大障碍。

来自微软研究院、华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一种新型小型多模态模型(SMM)——LLaVA-Rad,以及用于事实正确性自动评分的新指标 CheXprompt。

图片

论文地址:https://arxiv.org/pdf/2403.08002

LLaVA-Rad 专注于胸部 X 光(CXR)成像,旨在为医学影像检查自动生成高质量放射学报告。该模型在七个不同来源的数据集上进行了训练,共包含 697435 对放射学图像 - 报告,并在仅有结构化标签时利用 GPT-4 进行报告合成。

值得一提的是,LLaVA-Rad 仅需单个 V100 GPU 进行推理,并使用 8 个 A100 集群在一天内完成训练。

图片

LLaVA-Rad 的架构代表了一种小型多模态模型(SMM)的全新方法,尽管其规模显著小于 Med-PaLM M 等模型,但仍实现了卓越的性能。该模型的设计理念围绕将训练过程分解为不同的阶段:单模态预训练和轻量级跨模态学习。

LLaVA-Rad 的架构采用了一种高效的适配器机制,将非文本模态嵌入到文本嵌入空间中。训练过程分为三个阶段:预训练、对齐和微调。这种模块化方法实现了稳健的单模态模型开发和有效的跨模态适应。

图片

与类似规模的模型(如 LLaVA-Med、CheXagent 和 MAIRA-1,均为 70 亿参数)相比,LLaVA-Rad 表现出卓越的性能。并且,尽管规模显著较小,但 LLaVA-Rad 在关键指标上超越了 Med-PaLM M 模型,在放射学文本评估中,ROUGE-L 提高了 12.1%,F1-RadGraph 提高了 10.1%。

图片

LLaVA-Rad 在多个数据集(包括 CheXpert 和 Open-I)上均保持了优异性能,即使在测试未见过数据时也是如此。这归功于 LLaVA-Rad 的模块化设计和数据高效架构。LLaVA-Rad 的整体性能和计算效率使其在实际应用中极具实用性。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

相关资讯

微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源

站在巨人的肩膀上会让你看的更远,而通过让大规模语言模型来「教」较小规模的语言模型进行推理,也会是事半功倍的效果。如你我所见,像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力,例如回答复杂问题、生成解释,甚至解决需要多步推理的问题,这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显,因此现在的挑战就是如何利用对大型语言模型不断增长的知识,进而提升较小模型的能力。之前微软研究院推出了 Orca,它是拥有 130 亿参数的语言模型,通过模仿更强大 LLM 的逐步推理过程,展现了强大
12/4/2023 10:47:00 AM
机器之心

AI “附体”浏览器?开源神器Browser Use引爆科技圈,开发者直呼“YYDS”!

最近,科技圈和开发者社区都被一个名为 Browser Use 的开源项目刷屏了!这款工具如同给AI插上了翅膀,让它们能够像人类一样自如操控浏览器,用自然语言就能指挥AI自动完成各种网页任务,其强大的自动化能力和灵活的部署方式,瞬间引燃了全球科技爱好者的热情,在X平台(原推特)上掀起滔天巨浪。 Browser Use 正以燎原之势,推动着AI在浏览器自动化领域的应用边界不断拓展。 Browser Use 究竟是何方神圣,竟能引发如此巨大的关注?
3/10/2025 4:09:00 PM
AI在线

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星

OpenAI 正式发布了其最新开源项目 Codex CLI,这是一款轻量级的代码智能体工具。 该工具的发布迅速引起了极大的关注,仅在短短5小时内,Codex CLI 便突破了5000颗星的评价,预计今天有望突破1万颗星,迅速成为 Github 上的一颗新星。 OpenAI 的联合创始人兼总裁 Greg Brockman 表示,Codex CLI 只是他们代码工具系列的第一款,未来将继续推出更多的智能体产品。
4/17/2025 9:01:05 AM
AI在线