训练 - AIGC宇宙

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

在机器人空间泛化领域，原来也有一套Scaling Law！来自清华和新加坡国立大学的团队，发现了空间智能的泛化性规律。在此基础上，他们提出了一套新颖的算法框架——ManiBox，让机器人能够在真实世界中应对多样化的物体位置和复杂的场景布置。

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

随着AI不断刷新各项基准测试，关于AI的发展各方也态度不一。早在本月5日，「泛化的未知未来」研讨会上，众多知名研究员就相关话题展开了一场针锋相对的辩论。此次辩题是「当今的LLM沿着既有路线持续发展是否就足以实现真正的AGI」。

DeepSeek V3“报错家门”：我是ChatGPT

要说这两天大模型圈的顶流话题，那绝对是非DeepSeek V3莫属了。不过在网友们纷纷测试之际，有个bug也成了热议的焦点——只是少了一个问号，DeepSeek V3竟然称自己是ChatGPT。甚至让它讲个笑话，生成的结果也是跟ChatGPT一样：加之DeepSeek V3这次爆火的一个亮点，就是训练只花了557.6万美元的成本。

超越ControlNet++！腾讯优图提出动态条件选择新架构

超越ControlNet ，让文生图更可控的新框架来了！腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl，直接将多模态大语言模型（MLLM）的推理能力集成到文本生成图像（T2I)）任务中。而且还提出了一种新颖、高效的多控制适配器，可以自适应地选择不同的条件，从而实现动态多控制对齐。

CPO薪资倒挂CEO，创业公司薪酬情况大起底

初创公司里，平均薪酬最高的不是CEO？你还真别说，事实上，CEO薪酬不仅远远落后CPO（首席产品官，Chief Product Officer）。甚至COO（首席运营官，Chief Operating Officer）、CTO（首席技术官，Chief Technology Officer）都比CEO要高。

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

DeepSeek新版模型正式发布，技术大佬们都转疯了！延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。怎么说呢，QLoRA一作的一个词评价就是：优雅。

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

视频生成模型卷得热火朝天，配套的视频评价标准自然也不能落后。现在，北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench，相关代码与预训练权重均已开源。它重点关注了AI视频编辑中最常见的一个场景：视频编辑前后结果与原始视频之间的联系。

超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％

机器学习|从0开始大模型之模型LoRA训练

1、LoRA是如何实现的? 在深入了解 LoRA 之前，我们先回顾一下一些基本的线性代数概念。 1.1、秩给定矩阵中线性独立的列（或行）的数量，称为矩阵的秩，记为 rank(A) 。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

时隔6年，一度被认为濒死的“BERT”杀回来了——更现代的ModernBERT问世，更快、更准、上下文更长，发布即开源！去年一张“大语言模型进化树”动图在学术圈疯转，decoder-only枝繁叶茂，而曾经盛极一时的encoder-only却似乎走向没落。 ModernBERT作者Jeremy Howard却说：encoder-only被低估了。

OpenAI被曝数据崩溃GPT-5难产，团队抢算力冲突激烈！Ilya预言成真？

OpenAI轰轰烈烈搞出一场12天圣诞特别活动，结果期间发布最轰动成果的，居然是谷歌。谷歌一发发密集的核弹，让OpenAI分成12天的挤牙膏黯然失色，毫无还手之力。原生多模态Gemini 2.0 Flash，demo惊艳的Project Astra，组团出道的AI智能体，效果吊打Sora掀起全网狂潮的Veo 2……显得OpenAI的圣诞活动仿佛是个笑话。

扒一扒o3-mini背后团队：3位华人核心成员，北大清华南开校友在列

比o1 mini性能更强，价格更低，性价比新王o3-mini再次引爆AI圈热议。在官方截图中，中等o3-mini的性能和o1 mini差不多，价格却只有后者的一半，整体延迟也和GPT-4o相当。最主要的，这表明了OpenAI可以在降低成本的同时提高性能。

素数分布规律又有新发现！赵宇飞学生与牛津教授合作成果

赵宇飞高材生、哥伦比亚大学助理教授Mehtaab Sawhney（索尼），又为数学界贡献了一项重要成果——与牛津大学教授Ben Green（格林）一起，证明了一项关于素数分布的新规律。关键是证明中用到了与Gowers范数相关的技术，而Gowers范数一开始是拿来研究等差数列的，看上去和素数规律风马牛不相及。甚至作者索尼自己也表示，“作为一个‘局外人’，几乎不可能判断出这些事情是相关的”。

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

GPT-5被曝效果远不达预期。 OpenAI连续12场发布会刚刚结束，大家最想看的GPT-5/4.5影子都没有，于是华尔街日报这边爆料了。 GPT-5已至少完成2轮训练，每次长达数月，但是每次训练后都遇到新问题。

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

继视觉和听觉之后，AI已经进化到拥有嗅觉了？？你没听错，这是来自Osmo公司的最新技术，它们刚刚首次实现了由AI生成的李子味道。

1万人研究证实：玩游戏提升智力，与遗传/经济水平都无关

电子游戏可以提升智力，有正经科学研究支持了！来自阿姆斯特丹自由大学团队的一项新研究显示，在电子游戏上花费时间更多的儿童，2年后智力提升最多！他们深入分析了近1万名9-10岁的美国儿童，2年后又进行了回访。

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

论文一作陈汐，现为香港大学三年级博士生，在此之前本科硕士毕业于浙江大学，同时获得法国马赛中央理工双硕士学位。主要研究方向为图像视频生成与理解，在领域内顶级期刊会议上发表论文十余篇，并且 GitHub 开源项目获得超过 5K star.本文中，香港大学与 Adobe 联合提出名为 UniReal 的全新图像编辑与生成范式。该方法将多种图像任务统一到视频生成框架中，通过将不同类别和数量的输入/输出图像建模为视频帧，从大规模真实视频数据中学习属性、姿态、光照等多种变化规律，从而实现高保真的生成效果。

智源发布FlagEval「百模」评测结果，丈量模型生态变局

2024 年 12 月 19 日，智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相较于今年 5 月的模型能力全方位评估，本次智源评测扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。智源评测发现，2024 年下半年大模型发展更聚焦综合能力提升与实际应用。