斯坦福研究团队推出 SIRIUS:一种自我优化的多智能体推理框架

随着人工智能技术的发展,多智能体系统在各个领域的复杂任务处理能力越来越强。 这些系统由多个专门的智能体组成,它们通过合作各自发挥特长,共同达成目标。 这样的协作在复杂推理、编程、药物发现和安全保证等方面表现出色,因为智能体之间的结构化互动不仅提高了解决问题的效率,还可以相互校正,从而改进各自的输出。

随着人工智能技术的发展,多智能体系统在各个领域的复杂任务处理能力越来越强。这些系统由多个专门的智能体组成,它们通过合作各自发挥特长,共同达成目标。这样的协作在复杂推理、编程、药物发现和安全保证等方面表现出色,因为智能体之间的结构化互动不仅提高了解决问题的效率,还可以相互校正,从而改进各自的输出。研究表明,这种协作方式在需要严格推理或事实验证的任务中,往往优于单一智能体的表现。

QQ_1739439911579.png

然而,优化多智能体系统仍面临重大挑战。一个主要问题是如何为每个智能体获得合适的训练信号。尽管可以获得任务级别的奖励反馈,但如何在各个智能体之间进行信用分配却变得模糊。由于语言模型的推理过程复杂且无结构,如何将成功或失败归因于每个智能体的具体决策和推理步骤变得更加困难,这与强化学习中的多智能体信用分配问题类似。

为了解决这一问题,斯坦福大学的研究人员推出了 SIRIUS 框架,这是一种自我改进的多智能体优化框架,利用推理驱动的学习。SIRIUS 通过保留成功的推理轨迹构建经验库,提供高质量的训练集。同时,对于不成功的尝试进行增强,丰富数据集。研究结果显示,SIRIUS 在推理和生物医学问答方面的表现提高了2.86% 到21.88%,并改善了竞争环境中的智能体谈判能力。智能体通过学习成功的互动,迭代改进合作策略,从而实现了无需直接监督的自我优化。

SIRIUS 框架还包括一个迭代微调的过程,智能体在一个自然语言环境中互动,生成响应、评估响应、改进低质量输出,并通过监督学习更新策略。通过持续的响应优化,SIRIUS 提升了语言基础多智能体系统中的推理和决策能力,随着时间的推移,实现了更加有效和连贯的互动。

在实验中,SIRIUS 与多种基线模型进行了比较,包括单智能体、STaR、CoMM 和 TextGrad。结果显示,SIRIUS 在问题解决、任务分解和智能体协作方面均表现优异。通过消融研究发现,专门的智能体角色、多智能体优化以及经验增强是提升性能的关键因素。SIRIUS 在演员 - 评论家和竞争环境中也表现出色,在 PubMedQA 和资源交换游戏等任务中均优于其他方法。

综上所述,SIRIUS 是一个旨在通过学习成功互动和改进失败案例来优化多智能体系统的框架。它构建了一个包含高质量推理步骤的经验库,作为系统优化的训练集,同时通过增强不成功的轨迹来丰富库的内容。这一框架显著提高了推理、生物医学问答和智能体谈判能力,推动了多智能体协作的持续自我改进。

论文:https://arxiv.org/pdf/2502.04780

划重点:

🌟 SIRIUS 框架通过自我改进和学习成功经验,优化多智能体系统的性能。  

📈 研究表明,SIRIUS 在推理和生物医学问答等任务中,性能提升达2.86% 到21.88%。  

🤝 多智能体之间的互动和经验库的构建是 SIRIUS 优化过程的核心,助力智能体在复杂任务中更有效合作。

相关资讯

全部免费!百度文心智能体平台已全面接入DeepSeek模型

2月21日,百度旗下的文心智能体平台宣布全面接入DeepSeek模型,并向所有用户免费开放。 文心智能体平台是百度推出的基于文心大模型的智能体构建平台,旨在帮助用户快速创建和部署智能体应用。 此次接入的DeepSeek模型共有4款,覆盖多种复杂任务和场景,满足不同用户的需求。

只需两步,让大模型智能体社区相信你是秦始皇

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文由上海交通大学与百川智能共同完成,第一作者鞠天杰是上海交通大学网络空间安全学院三年级博士生。他的研究方向是大模型与智能体安全。论文地址::,由斯坦福大学和谷歌的研究团队开发的“AI小镇

​首个自主机器学习AI工程师,刚问世就秒了OpenAI o1,Kaggle大师拿到饱

机器之心报道,编辑:泽南,亚鹂。