在24项场景中优于人类医生,Google团队开发基于自博弈的诊断对话大模型

编辑 | 白菜叶医学的核心在于医患对话,熟练的病史采集为准确的诊断、有效的管理和持久的信任铺平了道路。能够进行诊断对话的人工智能(AI)系统可以提高护理的可及性、一致性和质量。然而,学习临床医生的专业知识是一个巨大的挑战。Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE(Articulate Medical Intelligence Explorer),这是一种基于大型语言模型(LLM)的人工智能系统,针对诊断对话进行了优化。AMIE 使用一种新颖的基于自博弈(se

在24项场景中优于人类医生,Google团队开发基于自博弈的诊断对话大模型

编辑 | 白菜叶

医学的核心在于医患对话,熟练的病史采集为准确的诊断、有效的管理和持久的信任铺平了道路。能够进行诊断对话的人工智能(AI)系统可以提高护理的可及性、一致性和质量。然而,学习临床医生的专业知识是一个巨大的挑战。

Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE(Articulate Medical Intelligence Explorer),这是一种基于大型语言模型(LLM)的人工智能系统,针对诊断对话进行了优化。AMIE 使用一种新颖的基于自博弈(self-play)的模拟环境,具有自动反馈机制,可在不同的疾病状况、专业和背景下扩展学习。

「据我们所知,这是第一次针对诊断对话和获取临床病史进行最佳设计的对话式人工智能系统。」 Google Health 的临床研究科学家、论文的合著者 Alan Karthikesalingam 说道。

该研究以「Towards Conversational Diagnostic AI」为题,于 2024 年 1 月 11 日发布在 arXiv 预印平台。

图片

论文链接:https://arxiv.org/abs/2401.05654

很少有人利用 LLM 进行医学研究,探索这些系统是否可以模仿医生获取个人病史并利用其做出诊断的能力。哈佛医学院的内科医生 Adam Rodman说,医学院的学生花了很多时间进行训练来做到这一点。

Google Health 的人工智能研究科学家、论文的合著者 Vivek Natarajan 表示,开发人员面临的一个挑战是缺乏可用作训练数据的现实世界医疗对话。

为了应对这一挑战,研究人员设计了一种让聊天机器人训练自己如何「对话」的方法。

图片

图示:AMIE 研究概述。(来源:论文)

研究人员利用现有的现实世界数据集(例如电子健康记录和转录的医疗对话)对基础 LLM 进行了第一轮微调。为了进一步训练模型,研究人员要求 LLM 扮演患有特定病症的人,以及富有同理心的临床医生,旨在了解该人的病史并设计潜在的诊断。

为此,研究人员设计了一个框架,用于评估具有临床意义的绩效轴,包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。该团队在一项随机、双盲交叉研究中,以客观结构化临床检查(OSCE)的方式与经过验证的患者参与者进行基于文本的咨询,将 AMIE 的表现与初级保健医生(PCP)的表现进行了比较。

图片

图示:随机研究设计概述。(来源:论文)

该研究包括来自加拿大、英国和印度临床提供者的 149 个病例场景、20 个与 AMIE 进行比较的 PCP,以及专科医生和患者参与者的评估。

根据专科医生的说法,AMIE 在 32 个轴中的 28 个轴上表现出了更高的诊断准确性和卓越的性能,根据患者参与者的说法,AMIE 在 26 个轴中的 24 个轴上表现出了更高的诊断准确性和卓越的性能。

通俗讲,AMIE 在 26 项对话质量标准中的 24 项上优于医生,包括礼貌、解释病情和治疗、给人诚实的印象以及表达关心和承诺。

但是,「这绝不意味着语言模型在获取临床病史方面比医生更好。」Karthikesalingam 说。他指出,研究中的初级保健医生可能不习惯通过基于文本的聊天与患者互动,这可能会影响他们的表现。

Karthikesalingam 表示,相比之下,LLM 有一个优势,那就是能够快速撰写冗长且结构精美的答案,使其能够始终如一地体贴而不会感到疲倦。

不过,该工具目前仍处于纯粹的实验阶段。它还没有在患有真正健康问题的人身上进行过测试——只在接受过描绘患有健康问题的人训练的演员身上进行过测试。「我们希望谨慎和谦虚地解释结果。」Karthikesalingam 说。

尽管聊天机器人距离临床护理还很远,但作者认为它最终可能在医疗保健民主化方面发挥作用。Rodman 说,这个工具可能会有所帮助,但它不应该取代病人与医生的互动。「医学不仅仅是收集信息,它还关乎医生与患者的关系。」他说。

该团队在论文里也注明了该工具的局限性,应谨慎使用。临床医生仅限于不熟悉的同步文本聊天,这允许大规模的 LLM 与患者互动,但不能代表通常的临床实践。虽然在将 AMIE 转化为现实世界环境之前还需要进一步研究,但结果代表了对话式诊断 AI 的一个里程碑。

Karthikesalingam 表示,这项研究的下一步是进行更详细的研究,从而评估潜在的偏见,并确保该系统对不同人群是公平的。Google 团队也在研究对临床医疗问题系统测试的道德要求。

新加坡国立大学(National University of Singapore)医学院的临床人工智能科学家 Daniel Ting 表示同意该观点,并表示,探究系统中的偏见对于确保算法不会惩罚那些在训练数据集中没有得到很好体现的种族群体至关重要。

Ting 说,聊天机器人用户的隐私也是需要考虑的一个重要方面。「对于目前许多商业大型语言模型平台,我们仍然不确定数据存储在哪里,以及它们如何分析数据。」他说。

相关报道:

https://www.nature.com/articles/d41586-024-00099-4

https://medicalxpress.com/news/2024-01-google-ai-based-diagnostic-dialogue.html

相关资讯

ChatGPT 真能记住你的话吗?DeepMind 与开源大佬揭示 LLM 记忆之谜

【新智元导读】LLM 有记忆能力吗?有,也没有。虽然 ChatGPT 聊天时好像可以记住你之前说的话,但实际上,模型在推理时记不住任何内容,而且它们在训练时的记忆方式也不像我们想象的那么简单。Django 框架的创始人之一、著名开发者 Simon Willison 最近发表了一篇博客文章,核心观点是 —— 虽然很多 LLM 看起来有记忆,但本质上是无状态函数。文章地址: 和 FireFox 的联合创始人、JavaScript 发明者 Brendan Eich 也在推特上称赞这篇博客。似乎有记忆的 LLM从计算机科学

230页长文,涵盖5大科学领域,微软团队使用GPT-4探索LLM对科学发现的影响

编辑 | 紫罗前不久,微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划,旨在通过 AI 系统优化技术实现科学发现。11 月 13 日,微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响:使用 GPT-4 的初步研究》(「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」)的文章。文章篇幅长达 230 页。论文链接:,自然

研究发现:AI 越聪明就越有可能“胡编乱造”

一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。图源 PexelsAI在线注意到,该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更