理论 - AIGC宇宙

扒一扒o3-mini背后团队：3位华人核心成员，北大清华南开校友在列

比o1 mini性能更强，价格更低，性价比新王o3-mini再次引爆AI圈热议。在官方截图中，中等o3-mini的性能和o1 mini差不多，价格却只有后者的一半，整体延迟也和GPT-4o相当。最主要的，这表明了OpenAI可以在降低成本的同时提高性能。

剖析BadGPT-40背后的真相：一个从GPT模型中移除护栏的模型

译者 | 晶颜审校 | 重楼出品 | 51CTO技术栈（微信号：blog51cto）大型语言模型（LLM）风靡全球。从通用的智能助手到代码伙伴，这些模型似乎什么都能做——除了可靠地执行其内置的安全准则。 OpenAI等公司安装的广为人知的“护栏”旨在确保负责任的行为，保护用户免受恶意输出、虚假信息和网络利用企图的影响。

李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

李飞飞谢赛宁再发新成果：直接把o1式思考拉至下一个level——多模态大语言模型的空间思维！这项研究系统评估了多模态大模型的视觉空间智能，结果发现：当前，即使是最先进的多模态大模型，在空间认知方面与人类相比仍有显著差距，测试中约71%的错误都源于空间推理方面的缺陷，即空间推理能力是当前主要瓶颈。图片更为有趣的是，在这种情况下，思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现，反而会使性能下降。

大模型检索增强生成之向量数据库的问题

作为技术人员我想大家或多或少应该都接触过数据库技术，数据库技术的历史可以说是由来已久了；但数据库的发展也是一路曲折，特别是随着互联网体量的快速增加，对数据库的要求也变得越来越多。而且为了适应各种不同的业务场景，数据库系统也是紧跟潮流发展出多种类型的数据库；比如说传统的关系型数据库，缓存数据库，以及大数据处理的数据库；直到今天的向量数据库。关系型和缓存数据库就不用说了，今天我们就来聊聊向量数据库系统。

素数分布规律又有新发现！赵宇飞学生与牛津教授合作成果

赵宇飞高材生、哥伦比亚大学助理教授Mehtaab Sawhney（索尼），又为数学界贡献了一项重要成果——与牛津大学教授Ben Green（格林）一起，证明了一项关于素数分布的新规律。关键是证明中用到了与Gowers范数相关的技术，而Gowers范数一开始是拿来研究等差数列的，看上去和素数规律风马牛不相及。甚至作者索尼自己也表示，“作为一个‘局外人’，几乎不可能判断出这些事情是相关的”。

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

GPT-5被曝效果远不达预期。 OpenAI连续12场发布会刚刚结束，大家最想看的GPT-5/4.5影子都没有，于是华尔街日报这边爆料了。 GPT-5已至少完成2轮训练，每次长达数月，但是每次训练后都遇到新问题。

OpenAI o1是真有实力！港大权威AB测试，国家队奥数题照样拿下

国际奥数题手到擒来，OpenAI o1是靠死记硬背还是真的实力超群？近日，来自港大的研究人员对o1进行了严格的AB测试：论文地址：？考两张卷子：一张是有可能提前背题的，另一张是不太可能提前背题的，两张卷子难度一致。

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

继视觉和听觉之后，AI已经进化到拥有嗅觉了？？你没听错，这是来自Osmo公司的最新技术，它们刚刚首次实现了由AI生成的李子味道。

刚刚，OpenAI 元老级研究员 Alec Radford 离职，他主导了 GPT-1、GPT-2 的研发

OpenAI 人事方面的变动还在继续。今日，据外媒 The Information 报道，OpenAI 元老级人物 Alec Radford 即将离职，离职后进行独立研究。据了解 Radford 信息的人士透露，Radford 表示他计划与 OpenAI 以及其他 AI 开发者展开合作。

1万人研究证实：玩游戏提升智力，与遗传/经济水平都无关

电子游戏可以提升智力，有正经科学研究支持了！来自阿姆斯特丹自由大学团队的一项新研究显示，在电子游戏上花费时间更多的儿童，2年后智力提升最多！他们深入分析了近1万名9-10岁的美国儿童，2年后又进行了回访。

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

论文一作陈汐，现为香港大学三年级博士生，在此之前本科硕士毕业于浙江大学，同时获得法国马赛中央理工双硕士学位。主要研究方向为图像视频生成与理解，在领域内顶级期刊会议上发表论文十余篇，并且 GitHub 开源项目获得超过 5K star.本文中，香港大学与 Adobe 联合提出名为 UniReal 的全新图像编辑与生成范式。该方法将多种图像任务统一到视频生成框架中，通过将不同类别和数量的输入/输出图像建模为视频帧，从大规模真实视频数据中学习属性、姿态、光照等多种变化规律，从而实现高保真的生成效果。

智源发布FlagEval「百模」评测结果，丈量模型生态变局

2024 年 12 月 19 日，智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相较于今年 5 月的模型能力全方位评估，本次智源评测扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。智源评测发现，2024 年下半年大模型发展更聚焦综合能力提升与实际应用。