麻省理工研究人员提高机器学习模型准确性

机器学习(ML)有可能通过利用大量数据进行预测洞察来改变医疗决策。 然而,当这些模型在不能充分代表所有人口群体的数据集上进行训练时,就会出现一个严重挑战。 预测疾病患者治疗计划的模型可以在主要包含男性患者的数据集上进行训练。

机器学习(ML)有可能通过利用大量数据进行预测洞察来改变医疗决策。然而,当这些模型在不能充分代表所有人口群体的数据集上进行训练时,就会出现一个严重挑战。预测疾病患者治疗计划的模型可以在主要包含男性患者的数据集上进行训练。这可能会导致对女性患者的预测不准确。这种偏见可能会导致有害的建议,特别是对代表性不足的群体。

麻省理工研究人员提高机器学习模型准确性

一种解决方案是调整或平衡训练数据集,以确保所有子组都得到平等表示。然而,这种数据平衡方法增加了复杂性,也可能降低模型的整体性能。此外,这种方法可能需要访问训练组注释,最终可能会删除数据集的大部分。

麻省理工学院的研究人员采取了不同的方法。他们开发了一种新技术,可以识别和删除训练数据集中对模型在代表性不足的群体中表现不佳影响最大的特定点。

这种技术没有假设每个数据点对模型的性能都有同等的贡献,而是认识到某些点对模型有偏见的预测产生了不成比例的影响。

研究人员的数据模型去偏(D3M)首先使用了一种称为最差组误差的指标,该指标衡量模型在某些亚群上的表现有多差。然后,该模型通过使用他们称之为数据建模的框架来提高性能,该框架将预测近似为列车数据的简单函数。这使他们能够量化单个数据点如何影响最差的团队绩效。

使用这种方法,研究人员可以识别出最有问题的数据点。然而,这种模型并没有删除大部分数据,而是选择性地只删除最有害的数据。

在代表性不足的数据缺失或未标记的情况下,D3M的方法仍然可以通过分析数据本身来发现隐藏的偏见,使其成为提高公平性的有力工具,即使数据有限或未标记。

麻省理工学院电气工程与计算机科学(EECS)研究生、在arXiv上发表的一篇论文的共同主要作者Kimia Hamidieh说:“许多其他试图解决这个问题的算法都假设每个数据点都和其他数据点一样重要。在这篇论文中,我们证明了这一假设是不正确的。我们的数据集中有一些特定的点导致了这种偏见,我们可以找到这些数据点,删除它们,并获得更好的性能。”

Hamidieh与来自麻省理工学院的Saachi Jain、Kristian Georgiev、Andrew Ilyas以及资深作者Marzyeh Ghassemi和Aleksander Madrt共同撰写了这篇论文。这项研究将在神经信息处理系统会议上发表。

研究人员的新技术建立在他们之前的工作基础上,他们开发了一种名为TRAK的方法,该方法可以为特定的模型输出确定最有影响力的训练示例。

麻省理工学院的团队声称,D3M方法提高了最差的组准确率,同时比传统的数据平衡方法减少了约20000个训练样本。

Hamidieh说:“这是任何人在训练机器学习模型时都可以使用的工具。他们可以查看这些数据点,看看它们是否与他们试图教授模型的能力相一致。”

研究人员计划验证这种方法,并通过未来的人体研究进一步发展它。他们的目标之一是使该方法易于使用,便于医疗保健专业人员使用,从而可以在现实环境中部署。

根据该论文的合著者Ilyas的说法,“当你有工具可以批判性地查看数据并找出哪些数据点会导致偏见或其他不良行为时,它就为你构建更公平、更可靠的模型迈出了第一步。”

这项研究的结果可能有助于解决人工智能和机器学习模型的一个长期问题:它们的有效性取决于它们所训练的数据。如果可以通过可扩展的算法识别和删除降低人工智能模型整体性能的数据点,特别是对于大型数据集,这可能会改变游戏规则,提高各种应用程序的模型准确性和可靠性。

相关资讯

终于把机器学习中的交叉验证搞懂了!!

交叉验证是一种评估机器学习模型性能的方法,用于衡量机器学习模型的泛化能力(即在未见数据上的表现)。 它通过将数据集分成多个部分,交替使用不同的部分作为训练集和测试集,从而充分利用数据、避免过拟合或欠拟合,并更准确地评估模型的泛化能力。 核心思想数据划分:将数据集划分为训练集和测试集。

PyTorch Geometric框架下图神经网络的可解释性机制:原理、实现与评估

在机器学习领域存在一个普遍的认知误区,即可解释性与准确性存在对立关系。 这种观点认为可解释模型在复杂度上存在固有限制,因此无法达到最优性能水平,神经网络之所以能够在各个领域占据主导地位,正是因为其超越了人类可理解的范畴。 其实这种观点存在根本性的谬误。

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

编辑 | ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choice questions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答(openQA