在24项场景中优于人类医生，Google团队开发基于自博弈的诊断对话大模型

2024-01-16 06:44

编辑 | 白菜叶医学的核心在于医患对话，熟练的病史采集为准确的诊断、有效的管理和持久的信任铺平了道路。能够进行诊断对话的人工智能（AI）系统可以提高护理的可及性、一致性和质量。然而，学习临床医生的专业知识是一个巨大的挑战。Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE（Articulate Medical Intelligence Explorer），这是一种基于大型语言模型（LLM）的人工智能系统，针对诊断对话进行了优化。AMIE 使用一种新颖的基于自博弈（se

编辑 | 白菜叶

医学的核心在于医患对话，熟练的病史采集为准确的诊断、有效的管理和持久的信任铺平了道路。能够进行诊断对话的人工智能（AI）系统可以提高护理的可及性、一致性和质量。然而，学习临床医生的专业知识是一个巨大的挑战。

Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE（Articulate Medical Intelligence Explorer），这是一种基于大型语言模型（LLM）的人工智能系统，针对诊断对话进行了优化。AMIE 使用一种新颖的基于自博弈（self-play）的模拟环境，具有自动反馈机制，可在不同的疾病状况、专业和背景下扩展学习。

「据我们所知，这是第一次针对诊断对话和获取临床病史进行最佳设计的对话式人工智能系统。」 Google Health 的临床研究科学家、论文的合著者 Alan Karthikesalingam 说道。

该研究以「Towards Conversational Diagnostic AI」为题，于 2024 年 1 月 11 日发布在 arXiv 预印平台。

论文链接：https://arxiv.org/abs/2401.05654

很少有人利用 LLM 进行医学研究，探索这些系统是否可以模仿医生获取个人病史并利用其做出诊断的能力。哈佛医学院的内科医生 Adam Rodman说，医学院的学生花了很多时间进行训练来做到这一点。

Google Health 的人工智能研究科学家、论文的合著者 Vivek Natarajan 表示，开发人员面临的一个挑战是缺乏可用作训练数据的现实世界医疗对话。

为了应对这一挑战，研究人员设计了一种让聊天机器人训练自己如何「对话」的方法。

图示：AMIE 研究概述。（来源：论文）

研究人员利用现有的现实世界数据集（例如电子健康记录和转录的医疗对话）对基础 LLM 进行了第一轮微调。为了进一步训练模型，研究人员要求 LLM 扮演患有特定病症的人，以及富有同理心的临床医生，旨在了解该人的病史并设计潜在的诊断。

为此，研究人员设计了一个框架，用于评估具有临床意义的绩效轴，包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。该团队在一项随机、双盲交叉研究中，以客观结构化临床检查（OSCE）的方式与经过验证的患者参与者进行基于文本的咨询，将 AMIE 的表现与初级保健医生（PCP）的表现进行了比较。

图示：随机研究设计概述。（来源：论文）

该研究包括来自加拿大、英国和印度临床提供者的 149 个病例场景、20 个与 AMIE 进行比较的 PCP，以及专科医生和患者参与者的评估。

根据专科医生的说法，AMIE 在 32 个轴中的 28 个轴上表现出了更高的诊断准确性和卓越的性能，根据患者参与者的说法，AMIE 在 26 个轴中的 24 个轴上表现出了更高的诊断准确性和卓越的性能。

通俗讲，AMIE 在 26 项对话质量标准中的 24 项上优于医生，包括礼貌、解释病情和治疗、给人诚实的印象以及表达关心和承诺。

但是，「这绝不意味着语言模型在获取临床病史方面比医生更好。」Karthikesalingam 说。他指出，研究中的初级保健医生可能不习惯通过基于文本的聊天与患者互动，这可能会影响他们的表现。

Karthikesalingam 表示，相比之下，LLM 有一个优势，那就是能够快速撰写冗长且结构精美的答案，使其能够始终如一地体贴而不会感到疲倦。

不过，该工具目前仍处于纯粹的实验阶段。它还没有在患有真正健康问题的人身上进行过测试——只在接受过描绘患有健康问题的人训练的演员身上进行过测试。「我们希望谨慎和谦虚地解释结果。」Karthikesalingam 说。

尽管聊天机器人距离临床护理还很远，但作者认为它最终可能在医疗保健民主化方面发挥作用。Rodman 说，这个工具可能会有所帮助，但它不应该取代病人与医生的互动。「医学不仅仅是收集信息，它还关乎医生与患者的关系。」他说。

该团队在论文里也注明了该工具的局限性，应谨慎使用。临床医生仅限于不熟悉的同步文本聊天，这允许大规模的 LLM 与患者互动，但不能代表通常的临床实践。虽然在将 AMIE 转化为现实世界环境之前还需要进一步研究，但结果代表了对话式诊断 AI 的一个里程碑。

Karthikesalingam 表示，这项研究的下一步是进行更详细的研究，从而评估潜在的偏见，并确保该系统对不同人群是公平的。Google 团队也在研究对临床医疗问题系统测试的道德要求。

新加坡国立大学（National University of Singapore）医学院的临床人工智能科学家 Daniel Ting 表示同意该观点，并表示，探究系统中的偏见对于确保算法不会惩罚那些在训练数据集中没有得到很好体现的种族群体至关重要。

Ting 说，聊天机器人用户的隐私也是需要考虑的一个重要方面。「对于目前许多商业大型语言模型平台，我们仍然不确定数据存储在哪里，以及它们如何分析数据。」他说。

首个罕见病 AI 大模型在中国医院投入临床使用

在中国医学领域取得了重要进展，北京协和医院与中国科学院自动化研究所联合研发的 “协和・太初” 罕见病 AI 大模型，近日正式进入临床应用阶段。这一举措不仅标志着我国在罕见病诊断技术上的突破，也为提升临床医疗效率提供了新的工具。该 AI 大模型的研发得益于多年来在我国罕见病知识库的积累以及中国人群基因检测数据的支持。

2/25/2025 10:19:00 AM

AI在线

ChatGPT 真能记住你的话吗？DeepMind 与开源大佬揭示 LLM 记忆之谜

【新智元导读】LLM 有记忆能力吗？有，也没有。虽然 ChatGPT 聊天时好像可以记住你之前说的话，但实际上，模型在推理时记不住任何内容，而且它们在训练时的记忆方式也不像我们想象的那么简单。Django 框架的创始人之一、著名开发者 Simon Willison 最近发表了一篇博客文章，核心观点是 —— 虽然很多 LLM 看起来有记忆，但本质上是无状态函数。文章地址：和 FireFox 的联合创始人、JavaScript 发明者 Brendan Eich 也在推特上称赞这篇博客。似乎有记忆的 LLM从计算机科学

6/1/2024 2:47:56 PM

清源

230页长文，涵盖5大科学领域，微软团队使用GPT-4探索LLM对科学发现的影响

编辑 | 紫罗前不久，微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划，旨在通过 AI 系统优化技术实现科学发现。11 月 13 日，微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响：使用 GPT-4 的初步研究》（「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」）的文章。文章篇幅长达 230 页。论文链接：，自然

11/16/2023 11:23:00 AM

ScienceAI

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了如何用AI做好情感化设计？来看大厂的实战案例！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

在24项场景中优于人类医生，Google团队开发基于自博弈的诊断对话大模型

相关资讯

首个罕见病 AI 大模型在中国医院投入临床使用

ChatGPT 真能记住你的话吗？DeepMind 与开源大佬揭示 LLM 记忆之谜

230页长文，涵盖5大科学领域，微软团队使用GPT-4探索LLM对科学发现的影响