训练 - AIGC宇宙

美国教授用 2 岁女儿训 AI 模型登 Science，人类幼崽头戴相机训练全新 AI

【新智元导读】为训练 AI 模型，纽约州立大学的一名教授 Brenden Lake，竟让自己不到 2 岁女儿头戴相机收集数据！要知道，Meta 训 Llama 3 直接用了 15 万亿个 token，如果 Lake 真能让 AI 模型学习人类幼崽，从有限的输入中学习，那 LLM 的全球数据荒岂不是解决了？为了训练 AI 模型，一位纽约州立大学的教授，竟然把类似 GoPro 的相机绑在了自己女儿头上！虽然听起来不可思议，但这位教授的行为，其实是有据可循的。要训练出 LLM 背后的复杂神经网络，需要海量数据。目前我们训

苹果发布 OpenELM，基于开源训练和推理框架的高效语言模型

在 WWDC24 之前，苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为 OpenELM。当然，这是一项开源语言模型，其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下：大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此，我们发布了 OpenELM，一个最先进的开源语言模型。OpenELM 使用分层缩放策略，可以有效地分配 Transformer 模型每一层的参数

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

新智元报道编辑：Aeneas 好困【新智元导读】2026 年的数据荒越来越近，硅谷大厂们已经为 AI 训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天，该怎么办？谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。现在，硅谷大厂们已经纷纷出动，买下所有能购买版权的互联网数据，这架势简直要抢破头了！图像托管网站 Photobucket 的陈年旧数据，本来已经多年无人问津，但

OpenAI 新动态：改善微调 API，扩展定制模型计划

感谢OpenAI 公司近日发布新闻稿，宣布改善微调（fine-tuning）API，并进一步扩展定制模型计划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch（将训练数据集中的所有样本都过一遍（且仅过一遍）的训练过程）过程中，都自动生成一个完整的微调模型检查点，便于减少后续重新训练的需要，尤其是在过拟合（overfitting，指过于紧密或精确地匹配特定数据集，以至于无法良好地拟合其他数据或预测未来的观察结果的现象）的情况下。

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，无法明确说明 Sora 的训练数据来源。在采访中，记者直接询问 Murati 关于 Sora 训练数据来源时，她仅以含糊的官方话术搪塞：“我们使用的是公开可用数据和许可数据。”当记者追问具体来源是否包含 YouTube 视频时，Murati 竟然表示“我实际上并不确定（I'm actually not sure about that）”，并拒绝回答有关 In

全球首个类 Sora 开源复现方案来了！全面公开所有训练细节和模型权重

全球首个开源的类 Sora 架构视频生成模型，来了！整个训练流程，包括数据处理、所有训练细节和模型权重，全部开放。这就是刚刚发布的 Open-Sora 1.0。它带来的实际效果如下，能生成繁华都市夜景中的车水马龙。还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自 Sora 发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现 Sora 成为了开发社区最热议话题之一。比如 Colossal-AI 团队推出成本直降 46% 的 Sora 训练推理复现流程。短短两周时间后，该团队再次发布最

因使用受版权保护书籍训练 AI 平台，英伟达被三名作者起诉

感谢据美国福克斯电视台北京时间今日报道，科技巨头英伟达已被三名作者起诉，因为英伟达在训练其 AI 平台 NeMo 时，未经许可使用了他们受到版权保护的书籍。三名作者 Brian Keene、Abdi Nazemian 和 Stewart O'Nan 声称，自己的作品被收录在一个包含约 196640 本书籍的数据集内，这些书籍帮助训练 NeMo 模拟普通书面语言，但这个数据集因“被举报侵犯版权”在去年 10 月被撤下。（IT之家注：该数据集原本被托管在 Hugging Face 网站上）作者们在 3 月 8 日晚提交

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Karpathy：中肯的，一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提，掌握核心算法是关键，但实际上，工程实践中冒出来的挑战，也实在令人头疼。一年前，乘着大模型的热潮，Yi Tay 离开了工作 3 年多的谷歌，参与创办了一家名为 Reka 的公司并担任首席科学家，主攻大型语言模型。在谷歌时，Yi T

性能提升、成本降低，这是分布式强化学习算法最新研究进展

深度强化学习（Deep Reinforcement Learning，DRL）是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效（data inefficiency）问题，受到分布式机器学习技术的启发，分布式深度强化学习 (distributed deep reinforcement learning，DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为，分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化学习是一个综合的研究子领域，需

全球最长开源！元象开源大模型XVERSE-Long-256K，无条件免费商用！

元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K，支持输入25万汉字，让大模型应用进入“长文本时代”。该模型全开源，无条件免费商用，且附带手把手训练教程，让海量中小企业、研究者和开发者更早一步实现“大模型自由”。全球主流长文本大模型图谱参数量和高质量数据量决定了大模型的计算复杂度，而长文本技术（Long Context）是大模型应用发展“杀手锏”，因技术新、研发难度高，目前多为闭源付费提供。 XVERSE-Long-256K支持超长文本输入，可用于大规模数据分析、多文档阅读理解

大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch

近日，蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源，实现深度学习自动资源动态优化和分布式训练稳定性提升，帮助提升深度学习的智能性。据了解，在大模型训练中，ATorch千亿模型千卡级别训练的算力利用率可达60%，相当于为跑车装上了强劲的引擎。图：ATorch致力于让大模型训练更高效、可复现随着生成式大模型的爆发，模型训练的数据集和参数规模成指数级增长，要带动如此庞然大物，并且满足模型的快速迭代，分布式训练就成为了解题之道。在大模型开发工作中，很多开发者和研究人员采用Py

OpenLAM | 深度势能预训练大模型DPA-2发布

在迈向通用大原子模型（Large Atomic Model，LAM）的征途上，深度势能核心开发者团队面向社区，发起 OpenLAM 大原子模型计划。OpenLAM 的口号是“征服元素周期表！”，希望通过建立开源开放的围绕微尺度大模型的生态，为微观科学研究提供新的基础设施，并推动材料、能源、生物制药等领域微尺度工业设计的变革。经过北京科学智能研究院、深势科技、北京应用物理与计算数学研究所等 29 家单位的 42 位合作者的通力协作，深度势能团队近日面向社区发布了深度势能预训练大模型 DPA-2，将成为 OpenLAM

OpenAI内斗时，Karpathy在录视频：《大型语言模型入门》上线

赶紧学习起来吧！OpenAI 的风波暂时告一段落，员工也忙着「干活了」。年初回归 OpenAI 的 Andrej Karpathy 最近做了一场关于大型语言模型（LLM）的 30 分钟入门讲座，但该讲座当时没录制。因此，他基于这场讲座重新录制了一个长达 1 小时的视频，希望让更多人看到和学习。视频的主题为《大型语言模型入门》，涵盖了 LLM 的推理、训练、微调以及新出现的 LLM 操作系统和 LLM 安全。视频主打「非技术性」，偏科普，所以更加容易理解。

腾讯Angel机器学习框架升级，支持单任务万卡级别超大规模训练，超300个腾讯产品及场景接入内测

腾讯披露最新大模型训练方法，可节省50%算力成本。

MIT 开发深度化学模型的神经尺度策略，发现「神经尺度」定律

编辑 | 绿萝在数据可用性和计算方面，大规模使得自然语言处理和计算机视觉等深度学习关键应用领域取得了重要突破。越来越多的证据表明，规模可能是科学深度学习的关键因素，但物理先验在科学领域的重要性使得规模化的策略和收益变得不确定。近日，来自 MIT 的研究团队通过将模型和数据集大小改变多个数量级来研究大型化学模型中的神经尺度（neural-scaling）行为，研究具有超过 10 亿个参数的模型，并在多达 1000 万个数据点的数据集上进行预训练。研究考虑用于生成化学的大型语言模型和用于机器学习原子间势的图神经网络。研

MIT研究人员将Transformer与图神经网络结合，用于设计全新蛋白质

编辑 | 萝卜皮凭借其复杂的排列和动态功能，蛋白质通过采用简单构建块的独特排列（其中几何形状是关键）来执行大量的生物任务。将这个几乎无限的排列库转化为各自的功能，可以方便研究人员设计用于特定用途的定制蛋白质。麻省理工学院（MIT）的 Markus Buehler 提出了一种灵活的基于语言模型的深度学习策略，将 Transformer 与图神经网络结合起来，以更好地理解和设计蛋白质。「通过这种新方法，我们可以通过对基本原理进行建模，利用大自然发明的一切作为知识基础。」Buehler 说，「该模型重新组合了这些自然构建

700 亿参数 LLaMA2 训练加速 195%，基础大模型最佳实践再升级

提供开箱即用的8到512卡LLaMA2训练、微调、推理方案。

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

众所周知，OpenAI 从 GPT-4 开始就已经对技术细节完全保密了，最初只用一份 Tech Report 来展示基准测试结果，而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料，OpenAI 也从未回应。

训练