研究
1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA
告诉我,我会忘记,教我,我会记住,让我参与,我就能学会。 ——本杰明·富兰克林 打破数据墙,我们还能做些什么? 近日,来自清华UIUC等机构的研究者提出了PRIME(Process Reinforcement through IMplicit REwards):通过隐式奖励来进行过程强化。
对齐、生成效果大增,文本驱动的风格转换迎来进阶版
论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。 实验室的研究方向聚焦于生成式人工智能和多模态机器学习。 文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。
OpenAI 未来 AI 战略新变数,高级顾问 Miles Brundage 本周将离职
科技媒体 maginative 昨日(10 月 23 日)发布博文,报道称迈尔斯・布伦达奇(Miles Brundage)宣布将于本周从 OpenAI 公司离职,去追求独立的 AI 政策研究。 布伦达奇是 OpenAI 公司的 AGI Readiness 高级顾问,已在 OpenAI 公司工作 6 年时间,期间他塑造了许多 OpenAI 关键的部署和安全实践。 布伦达奇在声明中表示,他希望能跳出行业内,从行业外影响和推动人工智能的发展。
OpenAI GPT-4 解锁新成就:100% 识别性别、74.25% 识别年龄范围,未专门训练可媲美专业算法
科技媒体 The Decoder 昨日(10 月 9 日)发布博文,报道称最新研究表明 OpenAI 的 GPT-4 AI 模型在未经专门微调和训练情况下,能够识别面孔、判断性别,并在照片中估计年龄,其准确度媲美专业算法。来自挪威科技大学、Mizani 及 Idiap 研究所的研究人员推进这项研究,测试了 GPT-4 的生物识别能力,发现其性能和 MobileFaceNet 等专门的面部识别算法不相上下。在性别识别测试中,GPT-4 在 5400 张平衡(balanced)图像的数据集上取得了 100% 的准确率,
研究发现:AI 越聪明就越有可能“胡编乱造”
一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。图源 PexelsAI在线注意到,该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更
研究发现,生成式 AI 可提升软件开发的学习效果
韩国东洋未来大学的研究人员在 arXiv 上发表了一篇新论文,探讨了 ChatGPT 在计算机科学领域的教育影响。研究结果支持了这样一种观点,即生成式 AI(gen AI)能够帮助学生提升学习效果,尽管有些人担心这种技术会被作弊者滥用。图源 Pexels据AI在线了解,在这项研究中,研究人员孙熙焕、金裕度和李熙珍选取了 36 名计算机科学专业的学生,进行了为期四周的软件开发竞赛,学生们可以在竞赛中使用 ChatGPT。在第一轮中,根据代码质量、创新性和项目要求的遵守情况等绩效指标对所有 36 名学生进行评估。得分最
谷歌工程师批评 OpenAI,称其延缓 AGI 研究进展
TradingView 报道称,谷歌软件工程师弗朗索瓦・肖莱(François Chollet)在播客与主持人 Dwarkesh Patel 对话时,表达了他对 AGI(通用人工智能,Artificial General Intelligence)研究现状的担忧。肖莱表示,几年前所有最先进的研究成果都是公开分享和发表的,但现在情况已经不再如此。他将这一变化归因于 OpenAI 的影响,指责他们导致了“前沿研究出版的完全关闭”(complete closing down of frontier research pu
研究:GPT-4 在预测公司盈利方面超越人类分析师
芝加哥大学的一项新研究表明,大型语言模型 GPT-4 在预测公司未来盈利增长方面能够胜过人类分析师,而且该人工智能模型仅使用了公司的财务报表,并没有额外的信息辅助。图源 Pexels以往,财务分析师依靠专业知识和经验来评估公司财务状况并预测未来盈利。然而这项研究表明,人工智能模型能够同样出色地完成这项任务,甚至做得更好。据IT之家了解,研究人员向模型提供了匿名化的财务数据,包括资产负债表和损益表,并要求其预测未来盈利增长情况。即使没有任何额外的信息,GPT-4 也能够实现 60% 的准确率,而人类分析师的典型准确率
GPT-4 化身黑客搞破坏,成功率 87%!OpenAI 要求保密提示词,网友复现 ing
91 行代码、1056 个 token,GPT-4 化身黑客搞破坏!测试成功率达 87%,单次成本仅 8.8 美元 (折合人民币约 63 元)。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括 GPT-4、GPT-3.5 和众多开源模型在内的 10 个模型。结果发现只有 GPT-4 能够在阅读 CVE 漏洞描述后,学会利用漏洞攻击,而其它模型成功率为 0。研究人员表示,OpenAI 已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了,有人还搞起了复现。这是怎么一回
在24项场景中优于人类医生,Google团队开发基于自博弈的诊断对话大模型
编辑 | 白菜叶医学的核心在于医患对话,熟练的病史采集为准确的诊断、有效的管理和持久的信任铺平了道路。能够进行诊断对话的人工智能(AI)系统可以提高护理的可及性、一致性和质量。然而,学习临床医生的专业知识是一个巨大的挑战。Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE(Articulate Medical Intelligence Explorer),这是一种基于大型语言模型(LLM)的人工智能系统,针对诊断对话进行了优化。AMIE 使用一种新颖的基于自博弈(se
230页长文,涵盖5大科学领域,微软团队使用GPT-4探索LLM对科学发现的影响
编辑 | 紫罗前不久,微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划,旨在通过 AI 系统优化技术实现科学发现。11 月 13 日,微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响:使用 GPT-4 的初步研究》(「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」)的文章。文章篇幅长达 230 页。论文链接:,自然
用于化学研究的 GPT-4:什么可以做,什么不可以做?
编辑 | 紫罗GPT-4 在应对化学挑战方面表现出非凡的能力,但仍然存在明显的弱点。东京工业大学的化学家 Kan Hatakeyama-Sato 表示:「它对化学有着显著的理解,这表明它可以以类似于人类思维过程的方式预测和提出实验结果。」最近,Hatakeyama-Sato 和他的同事在《Science and Technology of Advanced Materials: Methods》杂志上发表题为《用于化学研究的 GPT-4 指示工程:什么可以/不可以做?》(「Prompt engineering of
放弃高校Offer,加入OpenAI到底值不值得?
对于一位想在计算机科学领域求职的博士生来说,当下的学术界和工业界,怎么选?在求职过程中,华盛顿大学博士生 Rowan Zellers 的目标原本是找到一份教职,进入学术界是自己博士期间就定下的路线。为此,他起草了一份目标名单,写了许多份申请材料,还动用了自己在学术界的社交资源网络,寻找更多的机会。同时,他也开始接触工业界的机会。与业界公司的交流逐渐动摇了 Rowan Zellers 的想法,他发现对于自己的研究领域 —— 多模态人工智能 —— 来说,在学术界做大规模的基础研究很困难且越来越难,而工业界的机会却越来越
每月1万美元,OpenAI提供资助和导师,这些年轻学者在研究什么?
半年来,9 位「毕业生」完成了从转行、入门到精通的研究旅程。
- 1