大模型

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域，但视觉与语言之间的连接尚未被彻底打通。举些例子，大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

6/11/2024 2:45:00 PM

机器之心

夺冠！卓世AI斩获全球顶会AAMAS 2024 CE 竞赛冠军

近日，在全球瞩目的AAMAS 2024 Computational Economics Competition（计算经济学挑战赛）上，卓世科技人工智能前沿实验室团队“Zhuoshi Technology AI Cutting-edge Laboratory”一举夺得两个核心赛道的冠军和亚军，展现出其在计算经济学和人工智能领域的强大竞争力。冠军证书亚军证书AAMAS 2024 是第23届国际自主智能体和多智能体系统会议（International Conference on Autonomous Agents and

6/11/2024 2:41:00 PM

新闻助手

从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

让语言模型「轻装上阵」。一直以来，矩阵乘法（MatMul）稳居神经网络操作的主导地位，其中很大原因归结为 GPU 专门针对 MatMul 操作进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出，成为深度学习崛起的历史性标志。在这当中，有个值得注意的点是，AlexNet 利用 GPU 来提高训练速度，超越了 CPU 的能力，至此，GPU 的加入使得深度学习仿佛赢得了「硬件彩票」。尽管 MatMul 在深度学习中很流行，但不得不承认的是它占据了计算开销的主要部分，主要表现为 MatMu

6/11/2024 12:42:00 AM

机器之心

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友刺客的线索投递！在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了 LLM 基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难 ——「爱丽丝有 N 个兄弟，她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M 1。（爱丽丝拥有的姐妹数量，再加上爱丽

6/10/2024 5:42:53 PM

浩渺

成功率达 53%，研究显示 GPT-4 可自主利用“零日”漏洞攻破网站

据 NewAtlas 报道，研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站，这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是，他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞（zero-day vulnerabilities）。图源 Pexels早在几个月前，同一批研究人员就发表了一篇论文，声称他们能够使用 GPT-4 自动利用“N day”漏洞，即业界已知但尚未修复的漏洞。实验中，GPT-4 仅凭已知的常见漏洞和披露列表 (CVE)，就能自主利用其中 87%

6/9/2024 1:05:35 PM

远洋

价格战之后，智谱来到商业化的下一站

这次价格战的两股势力分别是互联网大厂和大模型创业公司，以字节、阿里云、腾讯和智谱为主要参战代表。面对这场突如其来的价格战，大家讨论最多的是，创业公司很难承受得住这样的比拼。相比互联网大厂底子厚、钱多，大模型创业公司跟大厂打价格战，风险很大，一些人认为「价格战」是大模型玩家的淘汰加速赛。

6/7/2024 11:05:00 AM

张进

AI 摘要“幻觉”风波未平，谷歌 Gemini 聊天机器人又被曝“胡言乱语”

前段时间，谷歌搜索“AI 摘要”（AI Overviews）功能因其经常提供具有严重错误的搜索结果而备受诟病，导致官方亲自下场保证后续会进行修正。而如今，又有网友爆料称谷歌旗下的人工智能产品“抽了风”，这次问题出在 Gemini 聊天机器人。从北京时间昨夜至今日凌晨，有 Reddit 网友陆续发现，Gemini 生成的回复偶尔会充斥着杂乱无章的代码和外文字母 —— 这些结果对用户的查询毫无帮助。过去几天里，部分 Gemini 用户陆续发现自己遇到了这一奇怪问题：Gemini 会输出胡言乱语。这些回复可能是一连串的重

6/5/2024 7:10:10 AM

清源

2024智源大会议程公开丨大语言模型

2024年6月14日-15日，第6届北京智源大会将以线下与线上结合的形式召开，线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野，汇聚年度杰出工作研究者，交流新思想，探讨新思路，引领新前沿。目前已正式开放报名渠道。大语言模型论坛丨6月14日下午近年来，大语言模型取得了重要的技术进展，成为了人工智能领域最受社会关注的研究方向之一，其应用范围逐渐覆盖了信息产业的多个领域。对其底层原理与训练方法的探索也成为了学术界与工业界的共同关注焦点。本次论坛针对大语言模型相关的基础问题展开相关探讨，主要包

6/4/2024 3:49:00 PM

新闻助手

1.8B参数，阿里云首个联合DNA、RNA、蛋白质的生物大模型，涵盖16.9W物种

编辑 | 萝卜皮不久之前，Google DeepMind 发布了 AlphaFold3，再次引发了人们对「AI 生命科学」的讨论。在学界，科学家的目标往往是先认识世界，然后在认识的基础上改造世界。但是在生命科学领域，人类对整个生命的理解与认识还如九牛一毛、冰山一角；建立对生命系统的多维度深刻认识是当前人类研究的重要一步，AI 是达成这一步的重要工具。近期，阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型，旨在综合学习遗传和蛋白质组语言，涵

6/4/2024 3:32:00 PM

ScienceAI

ChatGPT 真能记住你的话吗？DeepMind 与开源大佬揭示 LLM 记忆之谜

【新智元导读】LLM 有记忆能力吗？有，也没有。虽然 ChatGPT 聊天时好像可以记住你之前说的话，但实际上，模型在推理时记不住任何内容，而且它们在训练时的记忆方式也不像我们想象的那么简单。Django 框架的创始人之一、著名开发者 Simon Willison 最近发表了一篇博客文章，核心观点是 —— 虽然很多 LLM 看起来有记忆，但本质上是无状态函数。文章地址：和 FireFox 的联合创始人、JavaScript 发明者 Brendan Eich 也在推特上称赞这篇博客。似乎有记忆的 LLM从计算机科学

6/1/2024 2:47:56 PM

清源

OpenAI 重启机器人团队，联合多方回归老赛道

感谢福布斯报道称，随着对人工智能机器人投资的升温，OpenAI 正式重启其先前放弃的机器人团队，OpenAI 随后确认了这一消息。OpenAI 成立初期，机器人技术就是其主攻方向之一，联合创始人沃伊切赫・扎伦巴领导的团队最初试图打造一个“通用机器人”。2019 年，十多位 OpenAI 研究人员联合发表了一篇论文，描述了他们如何训练神经网络使用单只机械手复原魔方，并声称这是朝着训练机器人系统执行各种日常任务迈出的基础性一步。但在 2020 年 10 月，OpenAI 放弃了这一努力，扎伦巴将此归咎于缺乏训练数据。过

5/31/2024 3:09:51 PM

沛霖（实习）

阿里云 all in AI 的决心

如何抓住 AI 的机会？这是进入大模型时代后，面对新的起点，各大云厂商在不断思考的问题。毋庸置疑，AI 与云已经成为紧密的拍档。

5/30/2024 5:32:00 PM

晓楠

独家｜杨红霞创业入局“端侧模型”，投后估值 1.5 亿美元

近日，关于字节跳动大语言模型研发技术专家杨红霞离职创业的事情，坊间传得沸沸扬扬。此前，杨红霞为大家所熟知的是，她曾是阿里达摩院万亿参数规模多模态预训练模型 M6 的技术负责人，参与过北京智源研究院主导的“悟道”大模型项目，而该项目是中国最早的大模型项目之一。 2007 年，杨红霞从南开大学本科毕业后，赴杜克大学攻读博士，师从著名统计学家 David Dunson，著有超过 100 篇杰出学术论文。

5/30/2024 5:18:00 PM

晓楠

最强开源编程大模型一夜易主：Codestral 精通 80 + 语言，参数量仅 22B

开源代码大模型的王座，再次易主！来自素有“欧洲 OpenAI”之称的 Mistral，用 22B 参数量表现超越了 70B 的 Code Llama。模型名为 Codestral，将代码的英文 Code 与公司名结合而成。在 80 多种编程语言上进行过训练后，Codestral 用更少的参数实现了更高的性能，窗口长度也达到了 32k，相比之前一众 4k、8k 的模型大幅增加。而且已经有人表示，GPT-4o 和 Claude3-Opus 都失败的代码编辑任务，被 Codestral 成功解决了。于是有网友直言，Cod

5/30/2024 3:07:05 PM

清源

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

谷歌在 I / O 2024 开发者大会上，宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens，那么 Gemini 1.5 Pro 性能究竟有多强悍？根据 LMSYS Org 公布的总排行榜对比，通过 Arena Elo 系统的测量，Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。上述两款模型在中文方面的表现也非常优秀，Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。IT之家注：Aren

5/30/2024 10:32:50 AM

故渊

Chromebook Plus 笔记本迎来谷歌 Gemini 加持，AI 功能助力写作、图片处理等

谷歌今日宣布将把 Gemini 人工智能以及该公司其他设备上的 AI 功能引入 Chromebook Plus 笔记本电脑，其中包括华硕、惠普已经在售的机型，以及宏碁即将推出的新品。这些现有和未来的 Chromebook Plus 机型都将支持谷歌的“帮助我写作”等新功能，以及使用生成式 AI 创建自定义壁纸的功能。谷歌相册的魔法编辑器（Magic Editor）也将在 Chromebook Plus 上可用，该功能此前已登陆部分老款安卓设备。IT之家注意到，谷歌在应用 Dock 栏上添加了 Gemini 图标，以

5/28/2024 10:52:51 PM

远洋

荣耀即将推出首款搭载谷歌 Gemini AI 的智能手机，预计面向海外市场

感谢荣耀终端有限公司宣布，即将推出首款搭载谷歌 Gemini AI 及相关功能的智能手机。IT之家援引 CNBC 消息，荣耀一位发言人透露，即将推出的设备将集成谷歌 Gemini AI、文本到图像生成工具 Imagen 2 等生成式 AI 服务，并且由 Google Cloud 提供相关的服务支持。今年初，荣耀终端有限公司推出其新一代的 MagicOS 8.0 中已经嵌入了自研端侧 7B “魔法大模型”，搭配内置的 YOYO 助理，已经实现了场景感知、意图决策、用户理解能力，支持自然语言、语音、图片、手势、眼动等多

5/27/2024 5:25:14 PM

满河（实习）

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票分析师要下岗？AI 大牛质疑数据污染

【新智元导读】GPT-4 在为人类选股时，表现竟然超越了大部分人类分析师，和针对金融训练的专业模型？在没有任何上下文的情况下，它们直接就成功分析了财务报表，这一发现让许多业内大咖震惊了。然而好景不长，有 AI 大牛指出研究中的 bug：之所以会这样，很可能是训练数据被污染了。最近，各位业内大咖都被芝大的一篇论文震惊了。研究者发现，由 GPT-4 帮忙选择的股票，直接击败了人类！同时也 pk 掉了许多其他针对金融训练的机器学习模型。最让他们震惊的是，LLM 可以在没有任何叙述上下文的情况下，就成功分析财务报表中的数字

5/27/2024 1:02:51 PM

汪淼

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 OpenAI 新规：组织想要用未来 AI 模型需先“验明正身”

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型