人类
NeurIPS 2024 | LLM智能体真能模拟人类行为吗?答案有了
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案
AI 玩黑神话,第一个精英怪牯护院轻松拿捏啊。有方向感,视角也没有问题。躲闪劈棍很丝滑。甚至在打鸦香客和牯护院时,AI 的胜率已经超过人类。而且是完全使用大模型玩,没有使用强化学习。阿里巴巴的研究人员们提出了一个新型 VARP(视觉动作角色扮演)智能体框架。它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成 Python 代码形式的动作,以此来操作游戏。以玩《黑神话・悟空》为例,该智能体在 90% 简单和中等水平战斗场景中取胜。GPT-4o、Claude 3.5 都来迎战研究人员以《黑神话・悟空》为研究平台
AI 教父 Hinton:我支持超级 AI 取代人类
【新智元导读】「AI 教父」Geoffrey Hinton 在最近的采访中表达了自己对 AI 智能的理解 ——LLM 并不是简单的统计模型,已经具备了理解能力。与此同时,网友翻出了去年 12 月的「过期」视频,惊奇地发现 Hinton 早就「叛变」了,竟然对超级 AI 取代人类的未来表示支持。最近,半退休的「AI 教父」Geoffrey Hinton 频频出现在各种采访中,输出他关于 ASI 的各种言论和观点,甚至只是聊点生涯轶事都可以引起网友们的热烈讨论。不到一个月之前,他就揭发了爱徒 Ilya 在暑假受够了炸薯
《自然》杂志研究:AI 追踪他人心理状态能力与人类相当或超越人类
在本月下旬最新一期的《自然-人类行为》期刊上,刊登了一篇关于 AI 的研究论文,其中提到,在测试追踪他人心理状态能力的任务中,两类 AI 大语言模型在特定情况下,具备与人类相似甚至超越人类的表现。图源 Pixabay作为人类沟通交流、产生共鸣的关键,心理状态能力(也称心智理论)对人类的社交互动来说非常重要。该论文的第一作者 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strachan 与同事及合作者一起,选择能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼等。IT之家注:
阿尔特曼、老黄齐预测:AGI 五年内降临,代替 95% 工作!但马斯克断言 AGI 将被电力卡脖子
感谢IT之家网友 lemon_meta 的线索投递!【新智元导读】突然间,AGI 已经成为了一个新的「5 年内实现」的未来技术。从 Altman 到老黄,都在不同场合表示,达到人类智能水平的 AI 将很快到来。而技术路径和未来可能出现的能源短缺,可能是达到 AGI 过程中的最大变数。Claude 3、Sora、Gemini 1.5 Pro 的纷纷出现,以及或许今年内就会被放出的 GPT-5,让所有人都不约而同地隐隐感觉:我们似乎离 AGI 似乎越来越近了。OpenAI CEO Sam Altman 坚定地认为,AG
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分
在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式
终于,乔姆斯基出手了:追捧ChatGPT是浪费资源
Colorless green ideas sleep furiously. 人类语言语法的基础不可能是基于统计意义的。
除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟
GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项测试,效果还行,及格水平。
- 1