LLM - AIGC宇宙

创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了

编辑 | ScienceAI由上海人工智能实验室提出的 VirSci（Virtual Scientists）系统是一个基于大语言模型（LLM）的多智能体协作平台，专注于模拟科学家团队的合作过程，从而加速科研创新。不同于以往的单智能体系统，VirSci 通过使用真实科学家的数据来模拟科学团队的多人协作，不仅可以通过团队成员的合作讨论来生成更具创新性和影响力的科研想法，还展现出作为「科学学」（Scienceof Science）研究工具的巨大潜力。该研究以「Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation」为题，于 2024 年 10 月 12 日发布在 arXiv 预印平台。

LLM 比之前预想的更像人类，竟也能「三省吾身」

子曾经曰过：「见贤思齐焉，见不贤而内自省也。」自省可以帮助我们更好地认识自身和反思世界，对 AI 来说也同样如此吗？近日，一个多机构联合团队证实了这一点。

可令 AI 助理同时进行快 / 慢速思考，谷歌 DeepMind 公布具备两种思维模式的 Talker-Reasoner 框架

谷歌 DeepMind 上周公布了一个号称“具备两种思维模式”的 Talker-Reasoner 框架，旨在让 AI 助理能够同时进行快速和慢速思考，目前相关论文已发布于 ArXiv 上（点此访问）。据介绍，这款框架采用“双系统”设计，能够在与用户进行对话的同时并行多步骤推理任务（一边快速回答用户问题，一边高速思考），其中系统 1 Talker LLM 主要负责快速、直觉和合成的语言回应，用于与用户交谈。而系统 2 Reasoner LLM 则负责解决复杂问题，涉及从外界获取信息以增强知识，例如调用工具或从外部数据库检索信息，从而提升系统 1 回应内容的准确度及逻辑性。

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

作者 | 「深度原理」陆婕妤编辑 | ScienceAI现代科学研究中，化学空间的探索是化学发现和材料科学的核心挑战之一。过渡金属配合物（TMCs）的设计中，由金属和配体组成的庞大化学空间为多目标优化的搜索带来了难度。为了解决这一问题，来自「深度原理」 (Deep Principle) 和康奈尔大学的研究者们开发了一种名为 LLM-EO（Large Language Model for Evolutionary Optimization）的新型工作流程算法，释放大型语言模型（LLM）的生成和预测潜能，显著提高了化学空间探索的效率。

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

编辑 | 萝卜皮优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。虽然人工智能很适合处理平衡多个（可能相互冲突的）优化目标的任务，但是例如多属性标记训练数据的稀疏性等技术挑战，长期以来阻碍了解决方案的开发。在最新的研究中，浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。

把 AI 放进《我的世界》服务器：GPT-4o 杀牛宰羊，Claude3.5 把家拆了

把《我的世界》交给大模型，会怎么样？GPT-4o 鲨牛宰羊，Claude3.5 不停在人类身旁放炸药包和敌人，还把家拆了。GPT-4o mini 玩《我的世界》belike：来到游戏里面，GPT-4o mini（玩家 karolina）一开始还蛮礼貌的：你好世界！

苹果研究人员质疑 AI 的推理能力：简单数学问题稍作改动就会答错

近年来，人工智能（AI）在各个领域取得了显著的进展，其中大型语言模型（LLM）能够生成人类水平的文本，甚至在某些任务上超越人类的表现。然而，研究人员对 LLM 的推理能力提出了质疑，他们发现这些模型在解决简单的数学问题时，只要稍加改动，就会犯错误，这表明它们可能并不具备真正的逻辑推理能力。图源 Pexels周四，苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文，揭示 LLM 在解决数学问题时容易受到干扰。

整合海量公共数据，谷歌开源 AI 统计学专家 DataGemma

准确的统计数据、时效性强的信息，一直是大语言模型产生幻觉的重灾区。知识是现成的，但学是不可能学的。并非此身惰怠，只因现实太多阻碍。对于这个问题，谷歌在近日推出了自己筹划已久的大型数据库 Data Commons，以及在此基础上诞生的大模型 DataGemma。论文地址： Commons 是一个庞大的开源公共统计数据存储库，包含来自联合国（UN）、疾病控制与预防中心（CDC）、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。目前，整个语料库包含超过 2500 亿个数据点和超过 2

端到端优化所有能力，字节跳动提出强化学习LLM Agent框架AGILE

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

研究发现：AI 越聪明就越有可能“胡编乱造”

一项新研究发现，随着大型语言模型（LLM）变得越来越强大，它们似乎也越来越容易编造事实，而不是避免或拒绝回答它们无法回答的问题。这表明，这些更聪明的 AI 聊天机器人实际上变得不太可靠。图源 PexelsAI在线注意到，该研究发表在《自然》杂志上，研究人员研究了一些业界领先的商业 LLM：OpenAI 的 GPT 和 Meta 的 LLaMA，以及由研究小组 BigScience 创建的开源模型 BLOOM。研究发现，虽然这些 LLM 的回答在许多情况下变得更加准确，但总体上可靠性更差，给出错误答案的比例比旧模型更

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

编辑 | 萝卜皮人工智能（AI）的一个关键挑战是：如何创建能够通过「探索新领域」、「识别复杂模式」和「揭示海量科学数据中隐藏的联系」来自主推进科学理解的系统。在最近的工作中，麻省理工学院（Massachusetts Institute of Technology）原子与分子力学实验室（LAMM）的研究人员提出了 SciAgents，一种可以整合利用三个核心概念的方法：（1）使用大规模本体知识图谱来组织和互连不同的科学概念；（2）一套大型语言模型（LLM）和数据检索工具；（3）具有现场学习能力的多智能体（agent）

新型蛋白质大语言模型即将登陆Google Cloud

编辑 | KX9 月 17 日，领先的细胞编程和生物安全平台 Ginkgo Bioworks 公司宣布了两项新产品，将助力制药和生物技术公司更容易开发新药，这是在去年与 Google Cloud 宣布的合作伙伴关系的基础上推出的。与 Google Cloud 合作构建的蛋白质大型语言模型 (LLM)，是业内首创之一，它将使个人研究人员和企业公司能够利用 Ginkgo 私人数据的见解开发药物。其次，Ginkgo 正在推出其模型 API，这是一种强大的工具，旨在将生物 AI 模型直接带给机器学习科学家。该 API 现已

易用性对齐 vLLM，推理效率提升超200%，这款国产加速框架什么来头？

一、行业背景2022 年 10 月，ChatGPT 的问世引爆了以大语言模型为代表的的 AI 浪潮，全球科技企业纷纷加入大语言模型的军备竞赛，大语言模型的数量、参数规模及计算需求呈指数级提升。大语言模型（Large Language Model，简称 LLM 大模型）指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大模型通常包含百亿至万亿个参数，训练时需要处理数万亿个 Token，这对显卡等算力提出了极高的要求，也带来了能源消耗的激增。据斯坦福人工智能研究所发布的《2023 年 AI

昂贵LLM的救星？Nature新研究提出新型忆阻器，比Haswell CPU高效460倍

前些天，OpenAI 发布了 ο1 系列模型，它那「超越博士水平的」强大推理性能预示着其必将在人们的生产生活中大有作为。但它的使用成本也很高，以至于 OpenAI 不得不限制每位用户的使用量：每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。实在是少！为了降低 LLM 的使用成本，研究者们已经想出了各式各样的方法。有些方法的目标是提升模型的效率，比如对模型进行量化或蒸馏，但这种方法往往也伴随着模型性能的下降。另一种思路则是提升运行这些模型的硬件——英伟达正是这一路

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

在 AI 领域，几乎每个人都在谈论大型语言模型，其英文全称为 Large Language Models，简写为 LLM。因为 LLM 中有「Language」一词，因此，大家默认这种技术和语言密切相关。然而，知名 AI 大牛 Andrej Karpathy 却对此有着独特的见解：「大型语言模型（LLM）名字虽然带有语言二字，但它们其实与语言关系不大，这只是历史问题，更确切的名字应该是自回归 Transformer 或者其他。LLM 更多是一种统计建模的通用技术，它们主要通过自回归 Transformer 来模拟

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

天下武功唯快不破，但 OpenAI 不走寻常路，新出的 o1 系列宣告天下：我们更慢，但更强了。 o1 要花更多的时间思考问题，再做出反应，但在复杂推理层面直接窜了几个档位。在国际数学奥林匹克 (IMO) 资格考试中，GPT-4o 仅正确解决了 13% 的问题，而 o1 得分为 83%。

迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试

编辑 | ScienceAI近日，上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队，在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》，从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。GitHub: Link: : ，大型语言模型（LLM）取得了显著的进展，并在医疗领域取得了一定成果。这些模型在医学多

程序员为何容易爱上 AI？MIT 学者研究：「智性恋」浓度过高

OpenAI 警告说，跟人工智能语音聊天可能会产生「情感依赖」。这种情感依赖是怎么产生的呢？MIT 的一项研究指出，这可能是「求仁得仁」的结果，无怪乎连软件工程师也会对 AI 着迷。「请不要爱上我们的人工智能聊天机器人。」这个月，OpenAI 在发布的官方报告中，特意提到，不希望用户与 ChatGPT-4o 建立情感联系。OpenAI 的这种担心并不是多余的，对一百万个 ChatGPT 交互日志的分析表明，AI 的第二大流行用途居然是性角色扮演。论文地址： AI 伴侣上瘾的不仅包括对技术不甚了解的普通用户，连软件工