理论

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域,但视觉与语言之间的连接尚未被彻底打通。举些例子,大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

夺冠!卓世AI斩获全球顶会AAMAS 2024 CE 竞赛冠军

近日,在全球瞩目的AAMAS 2024 Computational Economics Competition(计算经济学挑战赛)上,卓世科技人工智能前沿实验室团队“Zhuoshi Technology AI Cutting-edge Laboratory”一举夺得两个核心赛道的冠军和亚军,展现出其在计算经济学和人工智能领域的强大竞争力。冠军证书亚军证书AAMAS 2024 是第23届国际自主智能体和多智能体系统会议(International Conference on Autonomous Agents and

不只 ChatGPT,苹果希望将谷歌 Gemini 等其他 AI 模型也添加到 iOS 18 中

在宣布与 OpenAI 旗下的 ChatGPT 达成合作后,苹果软件工程高级副总裁 Craig Fedrighi 在 WWDC24 开发者大会上确认了与其它第三方模型合作的计划。Fedrighi 在主题演讲后的采访中透露:“我们期待在未来与其它 AI 模型集成,例如谷歌的 Gemini。”OpenAI 的 ChatGPT 将在今年晚些时候成为第一个集成至苹果系统的 AI 模型。Fedrighi 特别提到,苹果希望最终让用户在不同的 AI 大模型之间进行选择,从而与 Apple Intelligence 一起使用。而

两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友 刺客 的线索投递!在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」只需稍加思考,答案显而易见:M 1。(爱丽丝拥有的姐妹数量,再加上爱丽

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

编辑 | 萝卜皮不久之前,Google DeepMind 发布了 AlphaFold3,再次引发了人们对「AI 生命科学」的讨论。在学界,科学家的目标往往是先认识世界,然后在认识的基础上改造世界。但是在生命科学领域,人类对整个生命的理解与认识还如九牛一毛、冰山一角;建立对生命系统的多维度深刻认识是当前人类研究的重要一步,AI 是达成这一步的重要工具。近期,阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型,旨在综合学习遗传和蛋白质组语言,涵

研究显示 7% 的美国人每天使用 ChatGPT,个人使用率高于企业

研究和分析公司 GlobalData 报道称,尽管生成式人工智能备受关注,但只有 7% 的美国公民表示他们每天使用 ChatGPT。牛津大学和路透社研究所的一项研究调查了生成式人工智能在英国、美国、法国、日本等国家共 1 万多人的使用情况。日本只有 1% 的人每天使用 ChatGPT,法国和英国为 2%,美国为 7%。在调查的国家中,平均 27% 的受访者表示他们在个人生活中至少使用过一次生成式人工智能,21% 的受访者回答说他们在学校或工作中使用过它。ChatGPT 是受访者最广泛使用的 AI 工具,约有 50%

ChatGPT 真能记住你的话吗?DeepMind 与开源大佬揭示 LLM 记忆之谜

【新智元导读】LLM 有记忆能力吗?有,也没有。虽然 ChatGPT 聊天时好像可以记住你之前说的话,但实际上,模型在推理时记不住任何内容,而且它们在训练时的记忆方式也不像我们想象的那么简单。Django 框架的创始人之一、著名开发者 Simon Willison 最近发表了一篇博客文章,核心观点是 —— 虽然很多 LLM 看起来有记忆,但本质上是无状态函数。文章地址: 和 FireFox 的联合创始人、JavaScript 发明者 Brendan Eich 也在推特上称赞这篇博客。似乎有记忆的 LLM从计算机科学

OpenAI 重启机器人团队,联合多方回归老赛道

感谢福布斯报道称,随着对人工智能机器人投资的升温,OpenAI 正式重启其先前放弃的机器人团队,OpenAI 随后确认了这一消息。OpenAI 成立初期,机器人技术就是其主攻方向之一,联合创始人沃伊切赫・扎伦巴领导的团队最初试图打造一个“通用机器人”。2019 年,十多位 OpenAI 研究人员联合发表了一篇论文,描述了他们如何训练神经网络使用单只机械手复原魔方,并声称这是朝着训练机器人系统执行各种日常任务迈出的基础性一步。但在 2020 年 10 月,OpenAI 放弃了这一努力,扎伦巴将此归咎于缺乏训练数据。过

最强开源编程大模型一夜易主:Codestral 精通 80 + 语言,参数量仅 22B

开源代码大模型的王座,再次易主!来自素有“欧洲 OpenAI”之称的 Mistral,用 22B 参数量表现超越了 70B 的 Code Llama。模型名为 Codestral,将代码的英文 Code 与公司名结合而成。在 80 多种编程语言上进行过训练后,Codestral 用更少的参数实现了更高的性能,窗口长度也达到了 32k,相比之前一众 4k、8k 的模型大幅增加。而且已经有人表示,GPT-4o 和 Claude3-Opus 都失败的代码编辑任务,被 Codestral 成功解决了。于是有网友直言,Cod

研究:GPT-4 在预测公司盈利方面超越人类分析师

芝加哥大学的一项新研究表明,大型语言模型 GPT-4 在预测公司未来盈利增长方面能够胜过人类分析师,而且该人工智能模型仅使用了公司的财务报表,并没有额外的信息辅助。图源 Pexels以往,财务分析师依靠专业知识和经验来评估公司财务状况并预测未来盈利。然而这项研究表明,人工智能模型能够同样出色地完成这项任务,甚至做得更好。据IT之家了解,研究人员向模型提供了匿名化的财务数据,包括资产负债表和损益表,并要求其预测未来盈利增长情况。即使没有任何额外的信息,GPT-4 也能够实现 60% 的准确率,而人类分析师的典型准确率

芝大论文证明 GPT-4 选股准确率高达 60%,人类股票分析师要下岗?AI 大牛质疑数据污染

【新智元导读】GPT-4 在为人类选股时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功分析了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有 AI 大牛指出研究中的 bug:之所以会这样,很可能是训练数据被污染了。最近,各位业内大咖都被芝大的一篇论文震惊了。研究者发现,由 GPT-4 帮忙选择的股票,直接击败了人类!同时也 pk 掉了许多其他针对金融训练的机器学习模型。最让他们震惊的是,LLM 可以在没有任何叙述上下文的情况下,就成功分析财务报表中的数字

研究称 ChatGPT 回答的编程问题错误率 52%,但 39% 人类程序员没看出来

生成式 AI 已经成为开发利器,可以辅助开发者快速生成相关代码,让开发者从“敲代码”逐渐过渡到“审代码”,不过最新报告指出 ChatGPT 所回答的编程问题内容错误率高达 52%。来自普渡大学的研究小组于 5 月初出席计算机-人交互大会,并提交了一份报告,检查了 ChatGPT 回答的 517 个 Stack Overflow 问题,发现错误率高达 52%。调查结果显示,人类程序员在 35% 的情况下更喜欢 ChatGPT 的答案,认为其提供的内容更全面,且有清晰的语言风格;更糟糕的是,在 39% 的情况下,人类程

微软 CEO 纳德拉:Azure AI Studio 已支持提供 OpenAI GPT-4o API

感谢IT之家网友 我抢了台 的线索投递!5 月 22 日凌晨,微软 Build 2024 开发者大会于在美国西雅图召开,据微软公司 CEO、董事长萨提亚・纳德拉介绍,由 OpeanAI 开发的最新旗舰模型 GPT-4o,现已在 Azure AI Studio 中提供,并作为 API 提供。该多模态模型集成了文本、图像和音频处理能力,带来了全新的生成式和对话式 AI 体验。此外,由微软开发的 Phi-3 列 AI 小型语言模型 (SLM) 中的一种新型多模态模型 Phi-3-vision 现已在 Azure 中推出。

OpenAI 高管 Jan Leike 离职,批判公司内部已不再将“安全”视为优先

感谢继 OpenAI 共同创始人 Ilya Sutskever 离职之后,另一名 OpenAI 高管 Jan Leike 在 X 平台发布贴文,宣布他已经在上周离开公司。据悉,Jan Leike 是 OpenAI 旗下 Superalignment(超级对齐)团队的共同主管,他表示最近几年 OpenAI 已经不惜内部文化,忽视安全准则,执意高速推出“吸引眼球”的产品。IT之家经查询得知,OpenAI 在 2023 年 7 月设立 Superalignment 团队,任务是“确保那些具备‘超级智能’、‘比人类还聪明’

通义千问宣布“GPT-4 级”主力模型 Qwen-Long 降价 97%,一元 200 万 tokens

字节跳动 5 月 15 日正式发布了豆包大模型,宣布大模型价格进入“厘时代”,号称“比行业便宜 99.3%”。今日,阿里云紧随其后抛出重磅炸弹:通义千问 GPT-4 级主力模型 Qwen-Long 宣布降价,API 输入价格从 0.02 元 / 千 tokens 降至 0.0005 元 / 千 tokens,降幅 97%。简单来说,1 块钱可以买 200 万 tokens,相当于 5 本《新华字典》的文字量。这款模型最高支持 1 千万 tokens 长文本输入,降价后约为 GPT-4 价格的 1/400。参考IT之

三句不离 AI:谷歌 2024 I / O 开发者大会一文汇总,Gemini、Veo、Imagen 大模型深夜炸场

2024 年谷歌 I / O 开发者大会在公司总部附近的海岸线圆形剧场如期召开。此次大会上出现频率最高的词便是 AI,据谷歌 Gemini AI 模型的统计,整个演说中 AI 一词被提到了 121 次,但实际上可能远不止于此。在这场开发者大会上,谷歌推出了多个引人注目的大模型和 AI 新功能。1、Gemini AI 系列模型在本次开发者大会上发布了包括 Gemini 1.5 Pro、轻量级 Gemini 1.5 Flash 和 Gemini Nano 在内新版本的 Gemini AI 系列模型。Gemini 1.5

绕过直接数值模拟或实验,生成扩散模型用于湍流研究

编辑 | 绿罗了解湍流平流粒子的统计和几何特性是一个具有挑战性的问题,对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物扩散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和实验方面做出了很多努力,但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特性。近日,意大利罗马第二大学(University of Rome Tor Vergata)的研究人员,提出了一种基于最先进的扩散模型的机器学习方法,可以在高雷诺数的三维湍流中生成单粒子轨迹,从而绕过直接数值模拟或实验来获得可

Meta 首发「变色龙」挑战 GPT-4o,34B 参数引领多模态革命!10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta 团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V,刷新 SOTA。GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式!为什么这么说?OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分