模型 - AIGC宇宙

摩尔线程开源音频理解大模型 MooER：基于国产全功能 GPU 训练和推理

摩尔线程开源了音频理解大模型 —MooER（摩耳），是业界首个基于国产全功能 GPU 进行训练和推理的大型开源语音模型。基于摩尔线程夸娥（KUAE）智算平台，MooER 大模型用 38 小时完成了 5000 小时音频数据和伪标签的训练。MooER 不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。在 Covost2 中译英测试集中，MooER-5K 取得了 25.2 的 BLEU 分数，接近工业级效果。摩尔线程 AI 团队在该工作中开源了推理代码和 5000 小时数据训练的模型，并计划进一步开源训练代码和基

明确了：文本数据中加点代码，训练出的大模型更强、更通用

代码知识原来这么重要。如今说起大语言模型（LLM），写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码，即使对于并非专门为代码设计的大模型来说，也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用，但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中，研究者系统地研究了代码数据对通用大模型性能的影响。论文链接：「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任

OpenAI GPT-4 AI 模型潜力挖掘：高精度建模基础蛋白质结构

科技媒体 The Decoder 昨日（8 月 21 日）发布博文，报道称罗格斯大学的一项研究表明，OpenAI 公司的 GPT-4 语言模型能高精度模拟简单的氨基酸和蛋白质结构。相关研究成果发表在《Scientific Reports》上，该科研团队使用 GPT-4 AI 语言模型，探索其在基本结构生物学任务中的表现，结果发现该 AI 模型可以准确预测分子结构。科学家们要求 GPT-4 建立 20 种标准氨基酸的三维结构模型，在反馈结果中准确地预测了原子组成、键长和角度，不过 GPT-4 在模拟环状结构和立体化学

OpenAI 开放 GPT-4o 定制功能，企业可更轻松打造专属 AI 助手

OpenAI 推出了一项新功能，允许企业客户使用自己的数据来定制其最强大的 AI 模型 GPT-4o。此举旨在应对日益激烈的 AI 企业应用竞争，并满足企业对 AI 投资回报的更高要求。所谓定制，即业界所称的“微调（fine-tuning）”。通过微调，现有 AI 模型可以针对特定任务或领域进行优化。例如，一家滑板公司可以微调 AI 模型，使其成为能够回答有关轮子和滑板护理问题的客服聊天机器人。此前，OpenAI 仅允许用户微调其较小的模型，如 GPT-4o mini。而此次开放 GPT-4o 和 GPT-4 的微

小而强，英伟达剪枝、蒸馏出 Llama-3.1-Minitron 4B AI 模型

英伟达公司联合 Meta 公司发布了最新的 Llama-3.1-Minitron 4B AI 模型，主要通过结构化权重剪枝、知识提炼等尖端技术，成功蒸馏（Distill）出 40 亿参数的“小而强”模型。图源：英伟达Llama-3.1-Minitron 4B 模型在 Llama-3.1-Minitron 8B 基础上蒸馏而来，英伟达在深度和宽度方向上使用了结构化剪枝技术。AI在线注：剪枝是一种删除网络中不那么重要的层或神经元的技术，保留其性能的情况下，目的是减小模型的大小和复杂度。英伟达通过从模型中删除 16 层来

Llama 8B 搜索 100 次超越 GPT-4o，推理 + 搜索即可提升性能

最新论文表明，LLM 等生成模型可以通过搜索来扩展，并实现非常显著的性能提升。另一个复现实验也发现，让参数量仅 8B 的 Llama 3.1 模型搜索 100 次，即可在 Python 代码生成任务上达到 GPT-4o 同等水平。强化学习先驱、加拿大阿尔伯塔大学 CS 系教授 Rich Sutton 曾在 2019 年写下一篇名为《The Bitter Lesson》的博文，成为 AI 领域的经典论述之一。甚至，Rich Sutton 在字里行间体现出的直觉已经颇有 Scaling Law 的意味。原文地址： /

OpenAI 找回场子：chatgpt-4o-latest AI 模型力压谷歌 Gemini 1.5 Pro，多项跑分重夺第一

谷歌上周发布最强 Gemini 1.5 Pro 模型，在 LMSYS 的聊天机器人竞技场（Chatbot Arena）比赛中取得第一名，而 OpenAI 迅速“找回场子”，最新 chatgpt-4o-latest 模型重夺第一。chatgpt-4o-latest 简介OpenAI 公司上周发布了 gpt-4o-2024-08-06，其 API 支持结构化输出；昨日再次发布了名为 chatgpt-4o-latest 的全新前沿模型，是 GPT-4o 的最新版本，上下文窗口输入最高 128000 个词元（tokens）

最强 AI 程序员 Genie 砸饭碗：84 秒跑通代码，像人一样思考，团队仅 5 人

继 Devin 之后，又一个 AI 软件工程师被刷屏了 —— 它叫 Genie，号称目前地表最强，已经可以像人一样思考和行动了！那么这个“地表最强”，到底强到什么程度？先来看下评测分数。在权威榜单 SWE-Bench 中，Genie 以解决了 30.07% 问题的成绩夺得榜首。（SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。）而这个成绩可谓是遥遥领先第二名 19.27%，解锁了提升 SOTA 的最大增幅 —— 57%！至于 Genie 的实际效果，用团队的话来说就是：它可以做到像人类工程师一样解

OpenAI 发布 GPT-4o 模型卡：概述 AI 安全和风险缓解措施

OpenAI 公司于 8 月 8 日发布报告，概述了 GPT-4o 模型的系统卡（System Card），介绍了包括外部红队（模拟敌人攻击）、准备框架（Preparedness Framework）在内的诸多细节。OpenAI 表示 GPT-4o 模型的核心就是准备框架（Preparedness Framework），这是一种评估和降低人工智能系统相关风险的系统方法。AI在线从报道中获悉，该框架主要用于识别网络安全、生物威胁、说服和模型自主性等领域的潜在危险。除了针对 GPT-4 和 GPT-4V 进行的安全评估

OpenAI 阿尔特曼秀 5 颗草莓疯狂暗示 GPT-5？匿名新模型神秘现身，数学超强

阿尔特曼又来搞事情了！一张 5 颗草莓照片，让全网掀起热议狂澜。这不是明摆着暗示，神秘 Strawberry 项目真实存在。难道 GPT-5 真的要来了吗？或许，GPT-5 真的不远了。今天，Sam Altman 突然发文「我爱花园里的夏天」，并配图 5 颗草莓，瞬间在全网炸了锅。而就在刚刚，OpenAI 研究员 Trevor Creech 发文 —— 今晚在 OpenAI 吃晚餐。而盘子中间，恰好放着一颗草莓。这一切，究竟是在疯狂暗示什么？一张图，引发全网大猜想网友表示，阿尔特曼的草莓不仅成熟了，而且已经准备好了

Meta 推出“自学评估器”：无需人工注释改善评估，性能超 GPT-4 等常用 AI 大语言模型评审

Meta 公司为了缓解自然语言处理（NLP）技术依赖人类注释评估 AI 模型的问题，最新推出了“自学评估器”（Self-Taught Evaluator），利用合成数据训练 AI。NPU 技术挑战NPU 技术的发展，推动大型语言模型（LLMs）高精度地执行复杂的语言相关任务，实现更自然的人机交互。不过当前 NPU 技术面临的一个重要挑战，就是评估模型严重依赖人工注释。人工生成的数据对于训练和验证模型至关重要，但收集这些数据既费钱又费时。而且随着模型的改进，以前收集的注释可能需要更新，从而降低了它们在评估新模型时的效

OpenAI GPT-4o 新版本突然上线：丝滑解决 9.11 和 9.9 谁大，更强也更便宜了

GPT-4o 新版本突然上线，更强更便宜。能力全方位提升，ZeroEval 基准测试直接跃居第一。输入和输出分别节省 50%、33%。四舍五入就是 API 降价啊。token 输出扩展到 16k，此前支持 4k。9.11 和 9.9 谁大这个问题，也能丝滑解决。这是因为 OpenAI 给 API 中引入了结构化输出。通过 JSON 模式确保模型输出符合开发者定义的结构，能让模型变得更可靠安全。最新版模型“GPT-4o-2024-08-06”在 JSON 模式评估中，得分 100%。相比之下，去年 6 月的版本得分还

OpenAI 宣布改变开发者大会举办形式，不会公布 GPT-5

8 月 6 日消息，去年，人工智能初创公司 OpenAI 在旧金山举办了首次开发者大会，声势浩大，并推出了包括最终未能成功的 GPT Store（类似苹果应用商店）在内的多款新产品和工具。然而，今年的活动将相对低调。本周一，OpenAI 宣布，将其 DevDay 开发者大会转型为一系列聚焦开发者的参与式会议。公司还确认，在 DevDay 期间不会发布下一代主旗舰模型，而是将重点放在其 API 和开发者服务的更新上。OpenAI 发言人透露：“我们不打算在开发者大会上宣布我们的下一个模型。我们将更多地专注于向开发者介

OpenAI 喜提姚班学霸姚顺雨：思维树作者，普林斯顿博士，还是个 Rapper

清华姚班学霸姚顺雨，官宣加入了 OpenAI。而就是这么一则简短的消息，却引来了圈内众人的围观和祝福，来感受一下这个 feel：其中不乏像 OpenAI 前沿研究主管、美国 IOI 教练 Mark Chen，以及 AI 领域的教授、投资人等等。那么这位姚顺雨，到底为何能够引来如此关注？从他过往的履历来看，我们可以提炼出这样几个关键词：清华姚班姚班联席会主席清华大学学生说唱社联合创始人普林斯顿计算机博士▲ 姚顺雨，图源：个人主页但除了较为亮点的履历之外，真正让姚顺雨步入公众的视野，还是因为他的多项科研成果：思维树（T

微软 GitHub 推出 Models 服务：定位 AI 工程师，让开发者试用和部署模型

感谢微软旗下代码托管平台 GitHub 最新推出了 GitHub Models 服务，定位是新一代 AI 工程师，帮助开发者选择适合其应用的 AI 模型。GitHub 在官方新闻稿中表示，GitHub Models 将服务该平台 1 亿多用户，为其提供业界领先的大语言模型（LLM）或者小语言模型（SLM）。 AI在线注：GitHub Models 服务目前处于限量公测阶段，可以对接 OpenAI 的 GPT-4o 和 GPT-4o mini、微软的 Phi 3、Meta 的 Llama 3.1 以及 Mistral

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

只需两张图像，不到 30 秒，就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子，还是套装，各种不同品类服装都可以。其形状和纹理都能保持较高的一致性。另外，CatVTON 还可以实现人物 A 到人物 B 的

英伟达最新技术分享：手把手教你用 Llama 3.1 合成数据改进模型！附代码

适逢 Llama 3.1 模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近，结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了，Nemotron 9T token 的预训练预料中，98% 都是合成数据。也许你还对合成数据存在顾虑，或者不知道如何应用 LLM 驱动数据生成。或许，英伟达的这篇博客可以提供答案。原文地址：，用 LLM 合成数据的本质究

FBI-LLM低比特基础大语言模型来了，首个完全从头训练的二值化语言模型

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]作者介绍：论文一作Liqun Ma目前是MBZUAI机器学习系的博士生，导师为Zhiqiang Shen助理教授，同时也是该论文的最后作者，其在加入MBZUAI之前为CMU博士后，研究领域