人类

NeurIPS 2024 | LLM智能体真能模拟人类行为吗？答案有了

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/11/2024 8:49:00 PM

机器之心

端到端优化所有能力，字节跳动提出强化学习LLM Agent框架AGILE

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

9/30/2024 2:14:00 PM

机器之心

GPT-4o 能玩《黑神话：悟空》：精英怪胜率超人类，无强化学习纯大模型方案

AI 玩黑神话，第一个精英怪牯护院轻松拿捏啊。有方向感，视角也没有问题。躲闪劈棍很丝滑。甚至在打鸦香客和牯护院时，AI 的胜率已经超过人类。而且是完全使用大模型玩，没有使用强化学习。阿里巴巴的研究人员们提出了一个新型 VARP（视觉动作角色扮演）智能体框架。它能直接将游戏截图作为输入，通过视觉语言模型推理，最终生成 Python 代码形式的动作，以此来操作游戏。以玩《黑神话・悟空》为例，该智能体在 90% 简单和中等水平战斗场景中取胜。GPT-4o、Claude 3.5 都来迎战研究人员以《黑神话・悟空》为研究平台

9/22/2024 3:06:25 PM

汪淼

AI 教父 Hinton：我支持超级 AI 取代人类

【新智元导读】「AI 教父」Geoffrey Hinton 在最近的采访中表达了自己对 AI 智能的理解 ——LLM 并不是简单的统计模型，已经具备了理解能力。与此同时，网友翻出了去年 12 月的「过期」视频，惊奇地发现 Hinton 早就「叛变」了，竟然对超级 AI 取代人类的未来表示支持。最近，半退休的「AI 教父」Geoffrey Hinton 频频出现在各种采访中，输出他关于 ASI 的各种言论和观点，甚至只是聊点生涯轶事都可以引起网友们的热烈讨论。不到一个月之前，他就揭发了爱徒 Ilya 在暑假受够了炸薯

6/18/2024 12:36:25 PM

汪淼

《自然》杂志研究：AI 追踪他人心理状态能力与人类相当或超越人类

在本月下旬最新一期的《自然-人类行为》期刊上，刊登了一篇关于 AI 的研究论文，其中提到，在测试追踪他人心理状态能力的任务中，两类 AI 大语言模型在特定情况下，具备与人类相似甚至超越人类的表现。图源 Pixabay作为人类沟通交流、产生共鸣的关键，心理状态能力（也称心智理论）对人类的社交互动来说非常重要。该论文的第一作者 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strachan 与同事及合作者一起，选择能测试心理理论不同方面的任务，包括发现错误想法、理解间接言语以及识别失礼等。IT之家注：

5/25/2024 11:08:24 PM

清源

阿尔特曼、老黄齐预测：AGI 五年内降临，代替 95% 工作！但马斯克断言 AGI 将被电力卡脖子

感谢IT之家网友 lemon_meta 的线索投递！【新智元导读】突然间，AGI 已经成为了一个新的「5 年内实现」的未来技术。从 Altman 到老黄，都在不同场合表示，达到人类智能水平的 AI 将很快到来。而技术路径和未来可能出现的能源短缺，可能是达到 AGI 过程中的最大变数。Claude 3、Sora、Gemini 1.5 Pro 的纷纷出现，以及或许今年内就会被放出的 GPT-5，让所有人都不约而同地隐隐感觉：我们似乎离 AGI 似乎越来越近了。OpenAI CEO Sam Altman 坚定地认为，AG

3/12/2024 11:16:15 PM

清源

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。尽管上述对偏好数据的应用已经取得了广泛的成效，但对偏好本身则缺乏充足的研究，这很大程度上阻碍了对更可信 AI 系统的构建。为此，上海交通大学生成式

3/4/2024 11:13:00 AM

机器之心