训练 - AIGC宇宙

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

陈丹琦团队又带着他们的降本大法来了——数据砍掉三分之一，大模型性能却完全不减。他们引入了元数据，加速了大模型预训练的同时，也不增加单独的计算开销。在不同模型规模（600M - 8B）和训练数据来源的情况下，均能实现性能方面的提升。

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍的是一个高保真实时人脸编辑方法PersonaMagic，通过分阶段的文本条件调节和动态嵌入学习来优化人脸定制。该技术利用时序动态的交叉注意力机制，能够在不同阶段有效捕捉人脸特征，从而在生成个性化图像时最大程度地保留身份信息。

AAAI 2025 | IML领域稀疏化视觉Transformer，代码已开源

SparseViT 的主要科研成员来自四川大学吕建成团队，合作方为澳门大学潘治文教授团队。论文：《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》论文链接：：，图像处理变得非常方便。

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law。近日，清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提出一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。采用PRIME方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用8张A100，花费一万块钱左右，不到10天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

「停止雇佣人类」广告牌爆火，OpenAI放惊人言论：每月2000刀，AI淘汰人类！

随着人工智能的日益强大，最令人担心的事情终于还是发生了。旧金山一家科技公司已经开始明目张胆地宣布「停止雇佣人类」！就在旧金山密西西比街的一侧，一些酒店从业者为了争取更高待遇与更多工作机会的罢工运动已经持续了数月。

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

电影《钢铁侠》中，托尼·斯塔克的助手贾维斯（J.A.R.V.I.S.）能帮他控制各种系统并自动完成任务，曾让无数观众羡慕不已。现在，这样的超级智能助手，终于变成现实了！随着多模态大语言模型的爆发式进化，OS Agents横空出世，它们能无缝操控电脑和手机，为你自动搞定繁琐任务。

动物版谷歌翻译来了？Nature：用AI解码野性的呼唤！

每一种动物都有其独特的历史。来自加拿大Carleton University的鲸鱼生物学家Shane Gero，花了20年时间试图了解鲸鱼是如何交流的。比如，同一个家族的鲸鱼会发出特定的声音，而不同区域的抹香鲸（Physeter macrocephalus）有自己的「方言」。

全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷

本文作者来自清华大学、字节跳动、中科院自动化所、上海交通大学和新加坡国立大学。作者列表：李兴航、李沛言、刘明桓、王栋、刘济榕、康炳易、马骁、孔涛、张翰博和刘华平。第一作者李兴航是清华大学计算机系博士生。

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

缩放定律的放缓带来的技术路径演变在 2024 年的 NeurIPS 会议上，Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点，尤其集中于 Scaling Law 的观点：「现有的预训练方法将会结束」，这不仅是一次技术的自然演进，也可能标志着对当前「大力出奇迹」方法的根本性质疑。 Ilya 讨论了预训练模型的局限性，预见 AI 系统需要发展出更加接近人类思考方式的推理能力。他强调，为了突破当前的局限并继续提升 AI 的能力，必须寻找新的训练方法。

全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘

刚刚过去的 2024 年是生成式 AI 大发展的一年，我们见证了 OpenAI Sora 的崛起，大模型服务价格的飞速下降，以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。对于身在 AI 领域的工程师和学者们来说，他们看待这一年的观点会有不同吗？

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

谁能想到，微软在一篇医学领域的论文里，竟然把OpenAI模型的参数全「曝光」了！ GPT-4参数约1.76万亿GPT-4o参数约2000亿GPT-4o mini参数约80亿o1-preview参数约3000亿o1-mini参数约1000亿Claude 3.5 Sonnet参数约1750亿研究人员：参数均为估算值让所有人难以置信的是，GPT-4o系列的参数如此少，mini版甚至只有8B。有网友猜测，4o mini是一个大约有40B参数的MoE模型，其中激活参数为8B。

黄仁勋自掏腰包50亿，开源英伟达GPU管理工具

离2025年只剩十几个小时，黄仁勋拿出50亿真金白银给大家发红包了！他刚花7亿美金（51亿RMB）收购了一家初创公司，专门做GPU管理工具的。并且立刻就宣布：开源所有平台和技术，买了英伟达GPU就能免费用。

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

ViT核心作者Lucas Beyer，长文分析了一篇改进Transformer架构的论文，引起推荐围观。他前不久从谷歌跳槽到OpenAI，这次是在飞机上阅读论文并写下了分析。这篇论文被他简写为DiffTranformer，不过不是Sora底层架构的那个Diffusion Transformer，而是不久前来自微软的Differencial Transformer。

AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

暨南大学通用机器学习课题组由网络空间安全学院和信息科学技术学院的多名青年教师、博士生、硕士生和本科生共同组成，研究方向包括通用逼近理论、分布外泛化、非凸优化、稀疏学习、深度学习框架的基础模块开发、优化器开发、隐私保护与增强等。自 2024 年 4 月至 12 月，课题组作为第一单位已获得所有 CCF A 机器学习国际顶级会议 ICML（2 篇）、NeurIPS 和人工智能国际顶级会议 IJCAI、AAAI 录用论文共 5 篇。本文第一作者为课题组负责人赖兆荣，通讯作者为博士生李程，其他合作作者为课题组教师吴小天、方良达、陈子良。

港科大开源VideoVAE+，视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE ，提出了一种强大的跨模态的视频变分自编码器（Video VAE），通过提出新的时空分离的压缩机制和创新性引入文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持很好的时间一致性和运动恢复。论文地址：：模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer，同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video，CogvideoX VAE，WF-VAE，CV-VAE，Open Sora，Open Sora Plan, Easy Animate-VAE。什么是 VideoVAE 模型VideoVAE 模型（Video Variational Autoencoder）是一种基于深度学习的生成模型，用于对视频数据进行压缩、重建和生成，讲视频从 RGB 像素空间投影到低维度的 latent 空间。

26年前老年机跑Llama2，每秒39个token：你的AI PC，也可以是Windows 98

让 Llama 2 在 Windows 98 奔腾 2（Pentium II）机器上运行，不但成功了，输出达到 39.31 tok / 秒。这台 PC 可能比你的年龄还大，要知道它已经是 26 年前的硬件了，配备英特尔奔腾 2 CPU 和 128MB 的内存。该项目是一个名为 EXO Labs 组织的一次大胆尝试，其证明了如果 Llama 模型能在 26 年前的硬件上跑通，那么它可以在任何地方运行。

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

大模型时代，全世界AI从业者追赶OpenAI GPT系列的脚步仍未停歇，但也有人，坚持深耕在国产原创的另一条大模型之路上。南京大学副校长、国际人工智能联合会理事会主席周志华教授，就是其中代表。他提出的“学件范式”，旨在从数据隐私角度着手，通过模型规约的方式构建基座系统，让用户的需求能被自动匹配到合适的模型、模型组合上，安全、可靠地复用他人开发的模型工具。

低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws

论文标题：Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens论文链接：（low-bit quantization）和低比特大语言模型（low-bit LLM）近期受到了广泛的关注，因为有一些研究发现，它们能够以更小的模型规模、更低的内存占用和更少的计算资源，取得与 fp16 或 bf16 精度相当的性能表现。这一发现让低比特语言模型一度被认为是实现模型高效化的一个非常有前景的方向。然而，这一观点受到了腾讯 AI Lab 的挑战。