理论 - AIGC宇宙

刚刚，奥特曼发长文「反思」：十年艰难创业路，如今已掌握AGI秘诀

就在刚刚，奥特曼发出了一篇长文博客，名为「反思」。这篇博客发得很应景。就在前不久，奥特曼刚刚接受了彭博社的专访，曝出了不少猛料，包括对OpenAI前董事会的态度、与马斯克的恩怨，以及对川普时代AI走向的看法。

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law。近日，清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提出一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。采用PRIME方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用8张A100，花费一万块钱左右，不到10天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。