大模型

巴西政府机构出手，禁止 Meta 公司使用用户数据训练生成式 AI 模型

感谢据美联社报道，巴西国家数据保护局当地时间周二（2 日）认定，拥有 Facebook、Instagram、WhatsApp 等平台的社交网络巨头 Meta 将不得使用来自巴西的数据来训练其生成式 AI 模型。Meta 近期更新了隐私政策，允许公司可将人们的公开帖子用于训练其模型。根据巴西国家数据保护局的公报，Meta 此举将会对受影响数据主体的基本权利造成严重的、不可挽回的或难以修复的损害，此次下达的禁令是“预防性措施”。巴西是 Meta 的最大市场之一。在该国 2.03 亿的总人口（IT之家注：数据来自 202

7/3/2024 7:16:46 PM

清源

亮点剧透丨大模型产业应用如何落地，WAIC 探讨技术突破与最新实践

以大模型为代表的新一代人工智能技术变革仍在加速迭代，为“新质生产力”的发展注入强劲动力，助力产业智能化升级和经济发展。目前，大模型在产业端，已经开始从任务简单、容错率高的场景向任务复杂、容错率低的场景渗透，这个趋势既得益于基础技术的提升与创新实践的探索，也进一步推动着技术变革与实践深化。由世界人工智能大会组委会办公室指导，新一代人工智能产业技术创新战略联盟（AITISA）主办，蚂蚁集团承办的“可信大模型助力产业创新发展论坛”，将于7月5日在上海·世博中心金厅举行。

7/2/2024 12:04:00 PM

我在思考中

从零开始，用英伟达T4、A10训练小型文生视频模型，几小时搞定

很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型，是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中，作者将展示如何将从头开始构建一个小规模的文本生成视频模型，涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的 GPU，所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示，在 CPU 上运行显然需要更长

7/1/2024 5:22:00 PM

机器之心

击败25个分子设计算法，佐治亚理工、多伦多大学、康奈尔提出大语言模型MOLLEO

作者 | 佐治亚理工学院王浩瑞编辑 | ScienceAI分子发现作为优化问题，因其优化目标可能不可微分而带来显著的计算挑战。进化算法（EAs）常用于优化分子发现中的黑箱目标，通过随机突变和交叉来遍历化学空间，但这会导致大量昂贵的目标评估。在这项工作中，佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了分子语言增强进化优化（MOLLEO），通过将拥有化学知识的预训练大语言模型（LLMs）整合到进化算法中，显著改善了进化算法的分子优化能力。该研究以《Efficient Evolutionary Search Ov

7/1/2024 4:14:00 PM

ScienceAI

Meta 推出 LLM Compiler 代码优化模型，可搭配其他 AI 改善代码生成 / 编译能力

Meta 前天推出了一款名为“LLM Compiler”的模型，该模型基于 Meta 现有的 Code Llama 打造，主打代码优化，目前相关模型已登陆 Hugging Face，提供 70 亿参数及 130 亿参数两个版本，允许学术及商业使用，IT之家附项目地址如下：点此访问。Meta 认为，尽管业界各大语言模型已在各种编程代码任务中展现了出色的能力，但此类模型在代码优化还有进步空间，目前推出的 LLM Compiler 模型便是一款专为优化代码任务设计的预训练模型，能够模拟编译器对代码进行优化，或将“已经过优

6/30/2024 5:47:55 PM

漾仔

菲尔兹奖得主亲测 GPT-4o，经典过河难题破解失败

编辑：桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上，如今所有的 LLM 都失败了！几天前，菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀，去解决动物过河难题。在此，他给出了一个新的基准 —— 废话比率（crapness ratio），即 L

6/30/2024 2:15:14 PM

远洋

Meta 发布基于 Code Llama 的 LLM 编译器：优化代码大小、反汇编

感谢Meta 官方在 X 平台宣布推出 LLM 编译器，这是一个基于 Meta Code Llama 构建的模型家族，具有额外的代码优化和编译器功能。这些模型可以模拟编译器，预测代码大小的最佳传递，并可反汇编代码，可以针对新的优化和编译器任务进行微调。Meta 在 HuggingFace 上公开了 LLM 编译器的 7B 和 13B 模型，采用宽松的许可协议，允许用于研究和商业用途。IT之家附链接：，LLM 在各种软件工程和编码任务中展示其能力，然而在代码和编译器优化领域的应用仍然未被充分探索。为了解决这一问题，M

6/28/2024 1:25:58 PM

沛霖（实习）

200 亿估值之后，中国大模型公司还能拿谁的钱？

「200 亿」成为高风险投资代名词的直接原因，是无论美元基金（如红杉、IDG）或人民币基金（如启明、君联），其背后的 LP 主力背景里都有地方政府与国资，后者的投资喜好是风险厌恶。「200亿是不是一个坎」成为投资者与创业者都要思考的共同问题。目前，中国只有两家公司（智谱 AI 与月之暗面）在以估值约 30 亿美元、200 亿人民币进行新一轮融资。

6/28/2024 11:23:00 AM

张进

《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

自 ChatGPT 发布以来，大型语言模型（LLM）已经成为推动人工智能发展的关键技术。近期，机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》，旨在讲解从头开始构建大型语言模型的整个过程，包括如何创建、训练和调整大型语言模型。最近，Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。项目地址： LLM 来说，指令微调能够有效

6/24/2024 10:53:00 AM

机器之心

聊天机器人胡说八道？牛津研究人员利用语义熵来识破 AI“幻觉”

近年来，人工智能蓬勃发展，聊天机器人等应用逐渐普及，人们可以通过简单的指令从这些聊天机器人（例如 ChatGPT）获取信息。然而，这些聊天机器人仍然容易出现“幻觉”问题，即提供错误的答案，有时甚至是危险的信息。图源 Pexels造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过，牛津大学的研究人员另辟蹊径，在最新出版的《自然》杂志上详细介绍了一种他们新开发的方法，用于检测大型语言模型 (LLMs) 的“捏造” (即任意生成的不正确信息) 问题。LLM 通过在训练数据中寻找特定模式来

6/24/2024 8:25:46 AM

远洋

AI 教父 Hinton：我支持超级 AI 取代人类

【新智元导读】「AI 教父」Geoffrey Hinton 在最近的采访中表达了自己对 AI 智能的理解 ——LLM 并不是简单的统计模型，已经具备了理解能力。与此同时，网友翻出了去年 12 月的「过期」视频，惊奇地发现 Hinton 早就「叛变」了，竟然对超级 AI 取代人类的未来表示支持。最近，半退休的「AI 教父」Geoffrey Hinton 频频出现在各种采访中，输出他关于 ASI 的各种言论和观点，甚至只是聊点生涯轶事都可以引起网友们的热烈讨论。不到一个月之前，他就揭发了爱徒 Ilya 在暑假受够了炸薯

6/18/2024 12:36:25 PM

汪淼

计算效率提升100倍以上，上交李金金团队开发基于Transformer的大模型用于从头算分子动力学

作者 | 陶科豪编辑 | 白菜叶精确模拟原子与分子的动态行为对于开发新一代高效能材料至关重要。然而，传统的从头算分子动力学（AIMD）模拟虽然提供了高精度的预测能力，但由于其高昂的计算成本和漫长的模拟时间，大大限制了研究的进度。例如，完成一个含 100 个原子的材料系统的 30 皮秒模拟，常常需要数月时间，这对于需要快速迭代和优化的新材料研发构成了巨大挑战。在这种背景下，一个能够显著加快这一过程的人工智能模型具有重要价值。面对这些挑战，上海交通大学人工智能与微结构实验室（AIMS-lab）开发了名为 T-AIMD

6/17/2024 3:06:00 PM

ScienceAI

全球科技巨头集体「卷」AI，华为又在憋什么大招？

生成式 AI 的竞争，今年更加激烈了。今年 5 月以来，全球科技巨头们不约而同地开始展示在 AI 领域的最新成果和战略部署，一系列引人瞩目的发布和合作活动相继展开，预示着 AI 技术的快速发展和广泛应用。5 月 15 日，谷歌推出了 Gemini 1.5 Pro 和 Gemini 1.5 Flash 两款新的大型语言模型，并发布了声称效果超过 GPT-3 的生成视频模型 Veo。微软在 Build 2024 开发者大会上发布了 50 多项与 AI 相关的更新，包括 Team Copilot、Microsoft Fa

6/17/2024 10:04:00 AM

新闻助手

共话大模型技术进展与挑战，CCF大模型论坛北京会议圆满落幕！

2024 年 6 月 6 日中国计算机学会大模型论坛（CCF FoLM）主题会议在北京顺利举办。本次会议主题为“大模型技术进展与挑战”，各位专家围绕大模型技术的前沿动态、发展趋势及技术挑战等议题展开深入探讨，为广大从业者、研究者提供了一场丰富的学术盛宴。本次会议还宣布了“CCF 大模型安全挑战赛”的正式启动！

6/14/2024 2:44:00 PM

我在思考中

22个任务超越SOTA，43个任务媲美SOTA，Google推出医学治疗通用大模型

编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法，这将是一个漫长且昂贵的任务，需要满足许多不同的标准，而能够加快这一过程的人工智能模型将是无价之宝。然而，目前大多数人工智能方法只能解决一组定义狭窄的任务，通常局限于特定领域。为了弥补这一差距，Google 团队提出了 Tx-LLM，这是一种通用大型语言模型（LLM），由 PaLM-2 微调而成，可编码有关各种治疗方式的知识。仅使用一组权重，Tx-LLM 可同时处理与自由文本交织的各种化学或生物实体（小分子、蛋白质、核酸、细胞系、疾病）信息，使其能够预测广泛的相关属

6/12/2024 2:36:00 PM

ScienceAI

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具：大幅提升 GPU 利用率，对 Llama 3 可实现 26% 加速

俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP，号称与现有工具相比速度最高可提升 26%。据介绍，YaFSDP 在训练速度方面优于传统的 FSDP 方法，尤其适用于大型模型。在预训练 LLM 方面，YaFSDP 速度提高了 20%，并且在高内存压力条件下表现更佳。例如，YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升，对具有同级参数的 Llama 3 也实现了 26% 的效率提升。IT之家附官方数据一览：模型gpu-countseq-lenn

6/11/2024 6:03:24 PM

问舟

Yandex 开源 LLM 训练工具节省高达 20% 的 GPU 资源

跨国科技公司 Yandex 最近推出了 YaFSDP，这是一种用于训练大型语言模型 (LLM) 的开源方法。YaFSDP 是目前最有效的公开可用工具，用于增强 GPU 通信并减少 LLM 训练中的内存使用量，与 FSDP 相比，其训练速度提升最高可达 26%，具体取决于架构和参数数量。通过使用 YaFSDP 减少 LLM 的训练时间可以节省高达 20% 的 GPU 资源。Yandex 承诺为全球人工智能社区的发展做出贡献，将YaFSDP开源提供给全球的 LLM 开发人员和人工智能爱好者即是履行此承诺的其中一步。“目

6/11/2024 5:18:00 PM

新闻助手

预测准确率达95.7%，ChatMOF利用LLM预测和生成金属有机框架

编辑 | X金属有机框架（MOF）因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而，在利用 AI 深入探索 MOF 设计与性能优化的研究征途中，科学家们正面临着前所未有的挑战。去年 3 月，韩国科学技术院（Korea Advanced Institute of Science and Technology，KAIST）的研究人员提出的 MOFTransformer 模型经过一百万个假设的 MOF 的预训练，在预测各种属性方面表现出色。近日，KAIST 团队提出了一种 AI 系统——ChatMOF，用于预

6/11/2024 5:09:00 PM

ScienceAI

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 AI视频用哪个？6个知名的AI视频工具使用测评报告

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型