理论 - AIGC宇宙

黄仁勋圈重点的世界模型平台是个啥？技术报告全解析，华人贡献中坚力量

AI 的下一个前沿是物理。在昨天的 CES 发布会上，英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。简单来说，Cosmos 是一个世界模型平台，上面有一系列开源、开放权重的视频世界模型，参数量从 4B 到 14B 不等。

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

本文的共同通讯作者为涂兆鹏和王瑞，涂兆鹏为腾讯专家研究员，研究方向为深度学习和大模型，在国际顶级期刊和会议上发表学术论文一百余篇，引用超过9000次。担任SCI期刊NeuroComputing副主编，多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。王瑞为上海交通大学副教授，研究方向为计算语言学。

奥特曼家里也内讧了！亲妹告他长期虐待，刻意隐瞒遗产；家里其他人联名否认

我去，OpenAI CEO奥特曼的亲妹妹，一纸状书，把她亲哥给告了！想不到让奥特曼再次陷入舆论危机的矛头，这次居然来自家庭内部，来自小他9岁的妹妹安妮·奥特曼（Annie Altman）。事态紧急，奥特曼立刻联名母亲和两位弟弟，共同发布回应：不，指控不实。

金山云全面升级智算服务体系开启AI 2.0时代云计算发展新纪元

随着大模型落地应用，人工智能发展进入2.0时代。在此阶段，智算云服务加速演进，成为新一代人工智能发展的核心驱动力，展现出无限潜能。知名调研机构IDC发布的《中国智算服务市场（2024上半年）跟踪》报告显示，2024年上半年中国智算服务整体市场同比增长79.6%，市场规模达到146.1亿元人民币。

OpenAI天才团队学历大起底！没上大学也登顶，从辍学到硅谷传奇

想做出高大上的研究成果，真的需要一个博士学位才行吗？ OpenAI团队给出了振聋发聩的回答——「不需要！」OpenAI的四位著名成员Christopher Olah，Alec Radford，Jason Wei，Greg Brockman都没有博士学位。

Tokenization，再见！Meta提出大概念模型LCM，1B模型干翻70B？

最近，受人类构思交流的高层级思路启发，Meta AI研究员提出全新语言建模新范式「大概念模型」，解耦语言表示与推理。网友Chuby兴奋地表示：「如果Meta的大概念模型真的有用，那么同等或更高效率的模型，其规模将更小。比如说1B模型将堪比70B的Llama 4。

1/10训练数据超越GPT-4o！清华等提出隐式过程奖励模型PRIME，在线刷SOTA

告诉我，我会忘记，教我，我会记住，让我参与，我就能学会。 ——本杰明·富兰克林打破数据墙，我们还能做些什么？近日，来自清华UIUC等机构的研究者提出了PRIME（Process Reinforcement through IMplicit REwards）：通过隐式奖励来进行过程强化。

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

什么是大模型推理引擎大模型推理引擎是生成式语言模型运转的发动机，是接受客户输入 prompt 和生成返回 response 的枢纽，也是拉起异构硬件，将物理电能转换为人类知识的变形金刚。大模型推理引擎的基本工作模式可以概括为，接收包括输入 prompt 和采样参数的并发请求，分词并且组装成 batch 输入给引擎，调度 GPU 执行前向推理，处理计算结果并转为词元返回给用户。和人类大脑处理语言的机制类似，大模型首先会把输入的 prompt 进行统一理解，形成具有记忆能力的上下文。

【多模态&LLM】POINTS多模态大模型浅谈

NaViT概述NaViT利用序列打包训练，处理任意分辨率和长宽比的输入，在大规模监督和对比图像文本预训练中提高了训练效率，可以用于图像和视频分类、目标检测和语义分割，并在鲁棒性和公平性基准测试中取得了改进的结果。图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结：数据预处理：如上图展示了NaViT在处理任意分辨率的方法，将不同分辨率的图像分割成补丁（patches），然后应用令牌丢弃（token drop）操作，类似于dropout，以加速训练过程。预处理后，将三张图像生成的补丁展平为一个序列，不足的部分用填充（padding）补充。

如何使用Ollama在个人计算机上运行开源LLM

译者 | 刘涛审校 | 重楼如今，AI工具已变得司空见惯，你可能每天都在使用它们。保护你的个人和商业机密数据的关键途径之一，就是在自己的基础配置上运行自己的AI。本指南将向你介绍如何在自己的计算机上托管一个开源大语言模型（LLM）。

奥特曼崩溃认错：ChatGPT被用户薅秃，OpenAI亏大了！专访痛忆宫斗事件

奥特曼后悔了！最近，奥特曼在采访中曝出，当初对于ChatGTP Pro的定价是自己拍脑门决定的。结果没想到用户实在薅得太狠，直接把OpenAI薅秃了，严重亏损！

RTX5090震撼发布，国行16499元起，黄仁勋「美国队长」pose亮翻全场

老黄穿上了新皮衣，拿来了新 GPU。今天上午，全世界的目光都集中在了拉斯维加斯。北京时间 1 月 7 日上午 10 点半，英伟达 CEO 黄仁勋在拉斯维加斯 CES 2025 展会上发表了主题演讲（keynote），涉及到的话题包括 GPU、AI、游戏、机器人等等。

手机「自动驾驶」大揭秘！vivo万字综述探讨大模型手机自动化

导言你是否想过，手机能像电影钢铁侠中的智能管家贾维斯那般，一句话就能顺畅自如地完成各种复杂任务。最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品，让曾经的幻想逐渐有了可行性。 vivo 作为行业领跑者，在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT"，能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢，被网友们称作 “i 人救星”。

单张图像探索3D奇境：Wonderland让高质量3D场景生成更高效

本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力，他们专注于视频生成以及3D/4D场景生成与重建的研究，致力于创造更加真实、高质量的3D和4D场景。团队成员期待与更多志同道合的研究者们交流与合作。

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

陈丹琦团队又带着他们的降本大法来了——数据砍掉三分之一，大模型性能却完全不减。他们引入了元数据，加速了大模型预训练的同时，也不增加单独的计算开销。在不同模型规模（600M - 8B）和训练数据来源的情况下，均能实现性能方面的提升。

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍的是一个高保真实时人脸编辑方法PersonaMagic，通过分阶段的文本条件调节和动态嵌入学习来优化人脸定制。该技术利用时序动态的交叉注意力机制，能够在不同阶段有效捕捉人脸特征，从而在生成个性化图像时最大程度地保留身份信息。

AAAI 2025 | IML领域稀疏化视觉Transformer，代码已开源

SparseViT 的主要科研成员来自四川大学吕建成团队，合作方为澳门大学潘治文教授团队。论文：《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》论文链接：：，图像处理变得非常方便。

奥特曼疯狂发推：AGI将至！2025年，第一批智能体成为公司劳动力；回顾OpenAI九年：我们的愿景不会改变，但策略将继续演变！

出品 | 51CTO技术栈（微信号：blog51cto）OpenAI CEO，营销高手，奥特曼又开始疯狂发推了。首先，他又充当起了AI“谜语人”，给观众一些模棱两可的话。 “接近奇点；不清楚是哪一边”。

理论