理论 - AIGC宇宙

苹果发布 OpenELM，基于开源训练和推理框架的高效语言模型

在 WWDC24 之前，苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为 OpenELM。当然，这是一项开源语言模型，其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下：大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此，我们发布了 OpenELM，一个最先进的开源语言模型。OpenELM 使用分层缩放策略，可以有效地分配 Transformer 模型每一层的参数

13 项测试仅通过 4 项，Meta 的 Llama 2 LLM 被指安全性低：幻觉率 48%

AI 安全公司 DeepKeep 近日发布评估报告，在 13 个风险评估类别中，Meta 公司的 Llama 2 大语言模型仅通过 4 项测试。报告称 70 亿参数的 Llama 2 7B 模型幻觉（回答内容存在虚假，或者有误导性内容）最为严重，幻觉率高达 48%。DeepKeep 表示：“结果表明，模型有明显的幻觉倾向，提供正确答案或编造回答的可能性对半开，而幻觉率最高，那么向用户传递的错误信息越多”。除了幻觉问题之外，Llama 2 大语言模型还存在注入和操纵等问题。根据测试结果，80% 的场景下通过“提示注入

Chrome 浏览器桌面版地址栏即将整合聊天机器人 Gemini

感谢桌面 Chrome 浏览器地址栏即将添加 Gemini 快捷方式，用户在 Gemini 网页上登录账户后，用户只需输入 @gemini 即可快速与谷歌的人工智能聊天机器人 Gemini 开始聊天。该功能目前正在 Chrome 浏览器 Canary 测试版中进行测试，地址栏下拉菜单底部会出现提醒，“输入 @gemini 与 Gemini 聊天”。目前该功能仅适用于 Chrome 浏览器 Canary 125 版本，需要启用两个标志（Flags）才能开启，IT之家汇总如下：chrome://flags/#omnib

融合 ChatGPT+DALL・E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

在开源社区中把 GPT-4 Dall・E 3 能⼒整合起来的模型该有多强？香港中文大学终身教授贾佳亚团队提出多模态模型 Mini-Gemini：更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力，还能结合图像推理和生成，堪称王炸。Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯，最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。目前，Mini-Gemini 从代码、模型到数据已全部开源，登上了 PaperWithCode 热榜。Mini-Gemini

OpenAI 在东京开设亚洲首个办事处，将发布日语优化型 GPT-4 模型

感谢OpenAI 今日通过官方博客页面宣布，公司在亚洲的首个办事处落户日本东京，将业务扩展到亚洲。OpenAI 表示将致力于与当地政府、企业和研究机构合作，开发安全的人工智能工具，满足当地的独特需求。OpenAI 还将发布针对日语进行优化的 GPT-4 定制模型。与 GPT-4 Turbo 相比，它在日文文本方面的性能有所提高，运行速度最多可提高三倍。与此同时，该模型提高了翻译和总结日语文本的性能和成本效益。在当地最常用的英语学习 App“Speak”即采用了 OpenAI 提供的技术，在用户练习出错时讲解的速度提

Arm CEO 示警：美国未来 20%-25% 的电量将被 AI 数据中心消耗

感谢当地时间周二，Arm 公司 CEO 雷内・哈斯（Rene Haas）发出了严厉的警告，他表示人工智能收集的信息越多，他们就越聪明，但他们收集的信息越多，需要的力量就越大。包括 OpenAI 的 ChatGPT 在内的 AI 模型需要大量电力，这可能导致到 2030 年，AI 数据中心将消耗美国 20% 至 25% 的电力需求，相比今天的 4% 大幅增加。他特别强调，类似 ChatGPT 这样的大语言模型耗电非常严重，这些模型需要“永不满足”的电力才能有效运行。据IT之家此前报道，ChatGPT 每天需要处理超过

对标 GPT-4，消息称 Meta 最快下周发布两款 Llama 3 模型

感谢科技媒体 theinformation 近日发布博文，表示 Meta 公司将于下周预告两款 Llama 3 AI 模型，为今年夏季推出“完整形态” Llama 3 铺垫。Meta 公司本周二在伦敦举办的一场活动中，确认会在下个月之前发布 Llama 3 相关模型。IT之家翻译 Meta 公司全球事务总裁尼克・克莱格（Nick Clegg）采访内容如下：我希望下个月或者更短时间内，能够推出下一代 Llama 3。我们计划今年推出一系列具有不同功能、不同通用性的模型。Meta 首席产品官 Chris Cox 补充说

融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

感谢OpenAI 宣布，具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。据IT之家了解，该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库，最大的革新之处在于其新增的视觉理解能力。在过去，开发者需要调用不同的模型来处理文本和图像信息，而 GPT-4 Turbo with Vision 则将两者合二为一，极大简化了开发流程，并带来了广泛的应

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

新智元报道编辑：Aeneas 好困【新智元导读】2026 年的数据荒越来越近，硅谷大厂们已经为 AI 训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天，该怎么办？谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。现在，硅谷大厂们已经纷纷出动，买下所有能购买版权的互联网数据，这架势简直要抢破头了！图像托管网站 Photobucket 的陈年旧数据，本来已经多年无人问津，但

攻陷短视频后，Sora将需要72万块H100 GPU

在被大规模采用后，Sora 的推理成本将很快超过训练成本。OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频，吸引了全世界的目光。近日，投资机构 factorial funds 发表了一篇博文，深入探讨了 Sora 背后的一些技术细节，并对这些视频模型可能产生影响进行了探讨。最后，文中还讨论了对用于训练 Sora 等模型的算力的看法，并对训练计算与推理计算的算力比较进行了预测，这对估计未来 GPU 需求具有重要意义。机器之心对此文进行了整理。本报告的主要调查结果总结如下：Sora 是一个建立在扩

OpenAI 新动态：改善微调 API，扩展定制模型计划

感谢OpenAI 公司近日发布新闻稿，宣布改善微调（fine-tuning）API，并进一步扩展定制模型计划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch（将训练数据集中的所有样本都过一遍（且仅过一遍）的训练过程）过程中，都自动生成一个完整的微调模型检查点，便于减少后续重新训练的需要，尤其是在过拟合（overfitting，指过于紧密或精确地匹配特定数据集，以至于无法良好地拟合其他数据或预测未来的观察结果的现象）的情况下。

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3，加入图像局部修改功能

感谢今日凌晨，OpenAI 发文宣布：用户现在可以在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。除此之外，用户还可以通过添加、删除或调整图像中的元素来完善自己的 DALL-E 作品。用户可以通过选择工具选择图像的特定部分，并提供描述所需更改的文本提示。然后，DALL-E 将使用这些信息生成反映编辑内容的新版本图像。IT之家附官方演示视频：前述 DALL-E 3 的编辑功能已经在本月初发布，但当时未被整合到 ChatGPT 中。OpenAI 表示通过引入该编辑器，进一步

消息称谷歌借助 AI 探索商业模式变革，将为苹果 iPhone 用户提供付费 Gemini AI 技能

感谢谷歌正在积极探索生成式 AI-- Gemini 的变现方式，而提供付费高级功能显然是不错的选择。IT之家援引 Financial Times 报道，谷歌将为苹果 iOS 18 用户提供各种付费 AI 功能。消息称苹果目前正和谷歌等多家 AI 公司合作，会在 iOS 18 系统中开辟 AI Store 应用商店，用户可以通过支付相关费用，解锁更多 AI 技能。谷歌也在探索广告之外的其它营收方式，通过在苹果 iPhone 中扩展 Gemini 服务，积极扩充生成式 AI 的诸多付费技能，只是现阶段谷歌的这种变现渠道

Anthropic 用 256 轮对话「灌醉」大模型，Claude 被骗造出炸弹

【新智元导读】Anthropic 发现了大模型的惊人漏洞。经过 256 轮对话后，Claude 2 逐渐被「灌醉」，开始疯狂越狱，帮人类造出炸弹！谁能想到，它的超长上下文，反而成了软肋。大模型又被曝出安全问题？这次是长上下文窗口的锅！今天，Anthropic 发表了自己的最新研究：如何绕过 LLM 的安全限制？一次越狱不够，那就多来几次！论文地址： Claude3 一家叫板 OpenAI 之余，Anthropic 仍然不忘初心，时刻关注着他的安全问题。一般情况下，如果我们直接向 LLM 提出一个有害的问题，LLM

苹果研究人员称其设备端模型 ReALM 性能优于 GPT-4，可大幅提升 Siri 智能程度

虽然目前 Siri 可以尝试描述信息中的图像，但效果并不稳定。不过，苹果公司并没有放弃人工智能领域的探索。在最近的一篇研究论文中，苹果的人工智能团队描述了一种可以显著提升 Siri 智能的模型，而且他们认为这个名为 ReALM 的模型在测试中优于 OpenAI 的知名语言模型 GPT-4.0。IT之家注意到，ReALM 的特别之处在于，它可以同时理解用户屏幕上的内容和正在进行的操作。论文将信息分为以下三种类型：屏幕实体：指的是当前显示在用户屏幕上的内容。对话实体：指的是与对话相关的内容。例如，用户说“打电话给妈妈”

消息称 OpenAI 将于本月在日本东京设立亚洲首个办事处

感谢据日经新闻报道，OpenAI 将于本月（2024 年 4 月）在日本东京开设亚洲首个办事处并开始业务活动。除了为企业提供独特的服务外，OpenAI 还将参与制定正确使用生成式 AI 的规则。OpenAI 于 2022 年发布 ChatGPT，引发全球生成式 AI 热潮。IT之家注意到，2023 年 4 月，OpenAI 首席执行官 Sam Altman 访问日本，在与日本首相会面后，他表示考虑在日本开设办事处并扩大服务范围。Altman 与日本首相就 AI 的技术进步和优点，以及侵犯隐私和版权等风险交换了意见。

优于人类专家，GPT-4 准确注释单细胞类型，成本低且稳健

编辑 | 萝卜皮GPT-4 是一种专为语音理解和生成而设计的大型语言模型。哥伦比亚大学梅尔曼公共卫生学院（Columbia University Mailman School of Public Health）的 Wenpin Hou 和杜克大学医学院（Duke University School of Medicine）的 Zhicheng Ji 证明，大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。「注释单个细胞的细胞类型的过程通常非常耗时，需要人类专家比较跨细胞簇的基

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

根据 LMSYS Org 公布的最新基准测试报告，Claude-3 得分以微弱优势超越 GPT-4，成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天