大模型

英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI

科技媒体 404Media 披露的文件显示，英伟达收集了大量受版权包含的内容，用于训练人工智能（AI）。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示，英伟达从 YouTube 等多个来源收集视频素材，用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑，认为擅自使用 YouTube 视频以及研究目的编译的数据集，在法律层面可能会存在问题。不过项目经理的回复是，这种收集模式已经获得了公司最高层的许可，可以使用这些内容训练 AI，并认为“完全符合版权法的文字描述和精神”。一位

8/6/2024 1:53:57 PM

故渊

小扎自曝砸重金训 Meta Llama 4 模型：24 万块 GPU 齐发力，预计 2025 年发布

Llama 3.1 刚发布不久，Llama 4 已完全投入训练中。这几天，小扎在二季度财报会上称，Meta 将用 Llama 3 的十倍计算量，训练下一代多模态 Llama 4，预计在 2025 年发布。这笔账单，老黄又成为最大赢家十倍计算量，是什么概念？要知道，Llama 3 是在两个拥有 24,000 块 GPU 集群完成训练。也就是说，Llama 4 训练要用 24 万块 GPU。那么，Meta 存货还够不够？还记得小扎曾在年初宣布，计划到年底要部署 35 万块英伟达 H100。他还透露了更多的细节，Meta

8/5/2024 1:30:22 PM

汪淼

AI 大语言模型价格战将启？谷歌本月下调 Gemini 1.5 Flash 费用：降幅最高 78.6%

大语言模型的价格战要来了吗？谷歌公司昨日（8 月 2 日）更新价格页面，宣布将于 2024 年 8 月 12 日开始，Gemini 1.5 Flash 模型每百万输入 tokens 成本为 0.075 美元、每百万输出 tokens 成本为 0.3 美元（AI在线备注：当前约 2.2 元人民币）。这让 Gemini 1.5 Flash 模型的使用成本，比 OpenAI 的 GPT-4o mini 便宜近 50%。根据计算，Gemini 1.5 Flash 模型费用输入费用比此前降低 78.6%，输出费用比此前降低

8/3/2024 2:44:56 PM

故渊

谷歌勇攀 AI 新高峰，邀测最强 Gemini 1.5 Pro 模型：Arena 竞技场跑分超 GPT-4o

谷歌 AI Studio 产品总监 Logan Kilpatrick 昨日（8 月 2 日）在 X 平台发布推文，推出了实验版 Gemini 1.5 Pro AI 模型（0801），并邀请用户通过 AI Studio 和 Gemini API 测试和反馈。AI在线援引 Kilpatrick 后续推文，他表示在 LMSYS 的聊天机器人竞技场（Chatbot Arena）比赛中，无论是文本还是多模态，实验版 Gemini 1.5 Pro AI 模型（0801）均取得了第一名。实验版 Gemini 1.5 Pro AI

8/3/2024 11:50:14 AM

故渊

贾扬清一吐为快：要想赚钱，AI模型到底该大该小？

最近的AI社区，关于模型规模的讨论有些活跃。一方面，此前在大模型开发奉为“圣经”的Scaling Law，似乎正在褪去光环。去年大家还在猜测GPT-5的规模“可能会大到想不到”，现在这种讨论几乎绝迹。

8/3/2024 10:46:00 AM

刘洁

新王登基，Gemini 1.5 Pro再度更新，超越GPT 4o和Claude-3.5

8月2日，lmsys官方在推特发布一则消息，恭喜DeepMind研发的Gemini 1.5 Pro 实验版（0801）在Chatbot Arena排名登顶，超越GPT 4o和Claude-3.5夺得第一。这是继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来，OpenAI第二次让出Chatbot Arena的Overall ranking宝座。 Gemini 1.5 Pro 实验版（0801）在Chatbot Arena测试一周后。

8/3/2024 10:35:00 AM

刘洁

现已下架，谷歌 Gemini 奥运广告遭吐槽：剥夺儿童学习机会，助涨过度依赖 AI 不良风气

谷歌在奥运期间为宣传自家 Gemini AI 服务，推出了名为《Dear Sydney》的宣传视频，不过发布后遭到广泛差评，目前已经下架。视频剧情视频的主角是一位年轻的女运动员，她的偶像是美国田径明星 Sydney McLaughlin-Levrone，旁白部分是她的父亲。她想要给 Sydney 写信，然后她的父亲借助 Gemini 来撰写了一封信件，该父亲在旁白中表示“她想向 Sydney 表达崇敬之情，情绪要饱满，但必须恰到好处”。于是该父亲向 Gemini 发出提示词：“帮我女儿写一封信，告诉 Sydney

8/3/2024 10:07:56 AM

故渊

Poe 的新功能好强！编程0基础，也能10分钟整出一个梗图编辑器

机器之能报道编辑：Sia国内大模型是不是要迅速跟上？最近，「北美知乎」问答社区 Quora 旗下的 AI 聊天平台 Poe，推出了一项名为「 Previews 」的新功能。有了这个实时预览功能，用户就能直接查看和使用在 Poe 聊天中生成的 Web 应用程序。也就是说，在 Poe ，你可以和一些非常擅长编码的 LLM 聊天，如 Claude-3.5-Sonnet 、GPT-4、Gemini 1.5 Pro 。聊天过程中生成的代码片段、网页设计、游戏等内容，都能在这个窗口预览到，还能上手体验。上手体验第一把

8/1/2024 4:02:00 PM

机器之能

视频生成赛道再添“猛将”，智谱清影正式上线

年初 Sora 横空出世，验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo，产品落地计划迟迟未有公开。随后的半年时间，不少“玩家”继续在AI视频生成赛道展开角逐，并逐步实现落地。

7/31/2024 2:36:00 PM

朱可轩

厦大团队材料预测迁移学习范式登Nature子刊，发现高性能催化剂

编辑 | KX传统的材料发现依赖反复试验或偶然发现，效率低下且成本高昂。AI 在发现新型催化剂方面潜力巨大。然而，受到算法的选择，以及数据质量和数量的影响。在此，来自厦门大学、深圳大学、武汉大学、南京航空航天大学和英国利物浦大学的研究团队开发了一种迁移学习范式，结合了预训练模型、集成学习和主动学习，能够预测未被发现的钙钛矿氧化物，并增强该反应的通用性。通过筛选 16,050 种成分，鉴定和合成了 36 种新的钙钛矿氧化物，其中包括 13 种纯钙钛矿结构。Pr0.1Sr0.9Co0.5Fe0.5O3（PSCF）和 P

7/31/2024 2:18:00 PM

ScienceAI

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

只需两张图像，不到 30 秒，就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子，还是套装，各种不同品类服装都可以。其形状和纹理都能保持较高的一致性。另外，CatVTON 还可以实现人物 A 到人物 B 的

7/30/2024 8:57:58 PM

汪淼

Llama3.1 训练平均 3 小时故障一次，H100 万卡集群好脆弱，气温波动都会影响吞吐量

每 3 个小时 1 次、平均 1 天 8 次，Llama 3.1 405B 预训练老出故障，H100 是罪魁祸首？最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点：Llama 3.1 在为期 54 天的预训练期间，经历了共 466 次任务中断。其中只有 47 次是计划内的，419 次纯属意外，意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重，占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群

7/29/2024 5:54:34 PM

清源

英伟达最新技术分享：手把手教你用 Llama 3.1 合成数据改进模型！附代码

适逢 Llama 3.1 模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近，结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了，Nemotron 9T token 的预训练预料中，98% 都是合成数据。也许你还对合成数据存在顾虑，或者不知道如何应用 LLM 驱动数据生成。或许，英伟达的这篇博客可以提供答案。原文地址：，用 LLM 合成数据的本质究

7/29/2024 4:20:08 PM

清源

FBI-LLM低比特基础大语言模型来了，首个完全从头训练的二值化语言模型

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]作者介绍：论文一作Liqun Ma目前是MBZUAI机器学习系的博士生，导师为Zhiqiang Shen助理教授，同时也是该论文的最后作者，其在加入MBZUAI之前为CMU博士后，研究领域

7/28/2024 11:17:00 PM

机器之心

OpenAI SearchGPT 官方演示大翻车，源代码竟暴露搜索机制

SearchGPT 发布刚过两天，已有人灰度测试到了。今天，网友 Kesku 自制的 demo 全网刷屏，SearchGPT 结果输出如此神速，让所有人为之震惊。当询问 Porter Robinson 出了新唱片吗？只见，SearchGPT 眨眼功夫之间，即刻给出了答案「Smile」，最后还附上了链接。再来看移动版本的回答速度，回答延迟几乎为 0。评论区下方，震惊体铺屏。但另一方面，OpenAI 当天放出的官方演示，被外媒《大西洋月刊》曝出其中的问题。在回答「8 月在北卡罗来纳 Boone 举办的音乐节」的问题时，

7/28/2024 5:33:29 PM

远洋

为什么AI数不清Strawberry里有几个 r？Karpathy：我用表情包给你解释一下

让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗？不知道 9.11 和 9.9 哪个大，数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点，大模型都只能接受人们的无情嘲笑。嘲笑之后，大家也冷静了下来，开始思考：低级错误背后的本质是什么？大家普遍认为，是 Token 化（Tokenization）的锅。在国内，Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性，因为 Tokenization 里的 token 指的未必是词，也可以

7/27/2024 11:22:00 PM

机器之心

“AI 分析师”登陆华尔街，摩根大通开始内部推广聊天机器人

据《金融时报》今日报道，摩根大通开始在公司内部推出一款生成式 AI 产品，并告诉员工这款“自有版本的 ChatGPT”可以完成研究分析师的工作。▲ 图源摩根大通报道援引摩根大通内部备忘录称，该公司已经向其资产和财富管理部门的员工提供了一个名为 LLM Suite 的大型语言模型平台。高管们告诉员工，LLM Suite 可以通过访问第三方模型帮助他们撰写、生成创意和总结文件。LLM Suite 被描述为一个“类似 ChatGPT 的产品”，用于“通用生产力”领域。知情人士表示，摩根大通今年早些时候开始向部分银行员工推

7/26/2024 11:09:38 PM

清源

大模型厂商密集发力，谷歌也开“卷”了：Gemini 聊天机器人换上新模型，还能一键核查输出内容

Meta、OpenAI 等大模型厂商密集发力之际，谷歌也宣布了一项重磅更新 ——即日起，Gemini 聊天机器人将改由 Gemini 1.5 Flash 驱动。与之前的版本相比，窗口长度提高到了 4 倍，响应速度也更快了。按照谷歌的介绍，新版聊天机器人背后的 1.5 Flash 模型，主打的就是轻量化和速度提升。当然模型回复的质量也有提升，上下文窗口也从原先（基于 1.0 Pro）的 8k 提升到了 32k。此外新版聊天机器人还增加了“事实核查”功能，可以一键检测生成的内容是否属实，减轻模型幻觉带来的不良影响。有网

7/26/2024 10:36:43 PM

清源

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 AI视频用哪个？6个知名的AI视频工具使用测评报告

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

大模型