理论 - AIGC宇宙

ChatGPT终于也推出Projects功能，却故意露出一个“AGI”的项目

就在刚刚，在OpenAI“双十二”的第七天，一种全新的对话交互模式诞生——Projects。它“长”在这儿，主页的左侧导航栏中：如其名，Projects的功能就是按照项目来组织和管理文件，正如官方介绍的那样：Projects将聊天记录、文件和自定义指令集中在一个地方。你可以用它们进行持续性的工作，或者仅仅是让它们变得井然有序（看着干净、整洁）。

使用 Llama 3.2-Vision 多模态 LLM 和图像“聊天”

一、引言将视觉能力与大型语言模型（LLMs）结合，正在通过多模态 LLM（MLLM）彻底改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的卓越能力。虽然这些模型以前只能通过 API 访问，但最近的开放源代码选项现在允许本地执行，使其在生产环境中更具吸引力。

使用小型视觉语言模型（VLM）进行物体识别与计数

今天的重点是一个具有无数实际应用的功能：在边缘设备（如智能手机、物联网设备和嵌入式系统）上运行小型视觉语言模型（VLM）。这些模型在识别和指出物体方面越来越出色。具体来说，它们在检测制造缺陷、计数可用停车位或发现癌细胞方面表现优异。

随着ChatGPT等AI聊天机器人以及基于大语言模型的应用席卷全球，越来越多的公司开始将这种技术引入机器人控制。然而，最新研究发现，黑客可以通过自动化方式轻松绕过AI系统的安全防护，甚至能够操控机器人执行极具破坏性的任务，例如控制自动驾驶系统撞向行人，或者将机器狗引导到敏感地点实施爆炸任务。从文本到行动：大模型赋能机器人大语言模型的核心功能类似于智能手机的“自动补全”，通过分析用户输入内容预测下一步操作。

微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining

OpenAI谷歌天天刷流量，微软也坐不住了，推出最新小模型Phi-4。参数量仅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。数学能力上，Phi-4在美国数学竞赛AMC 10/12上超过了GPT-4o等一众大模型，分数冲上90。

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗？从表面上看，这两种方法似乎各有侧重：扩散模型专注于通过迭代的方式逐步去除噪声，将数据还原成清晰的样本。而流匹配则侧重于构建可逆变换系统，目标是学习如何将简单的基础分布精确地映射到真实数据分布。

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

OpenAI直播第六天，可以说是把圣诞氛围拉满了。在高级语音模式中，不仅加入了视频聊天，而且还有限定版圣诞老人语音。这就意味着，通过设备共享摄像头摄取到的内容，我们就可以和「Her」实时视频对话了！

谷歌成功狙击 OpenAI：ChatGPT Vision 深夜紧急上线，OpenAI 还能守住江山吗

昨天谷歌放大招发布Gemini 2并提供免费服务后，OpenAI 今天（12天发布会Day6）紧随其后，推出了鸽了很久的 ChatGPT Vision 功能，为用户带来更丰富的多模态交互体验。除了原有的高级语音模式外，现在你可以与 ChatGPT 进行视频通话、共享屏幕，也可以与圣诞老人实时互动！ 11分钟发布会乏善可陈，感觉有点拉先说重点：ChatGPT Vision 有哪些新功能？

在大模型时代，智能化推荐怎么做呢？

自2022年11月30日OpenAI发布ChatGPT以来，大模型技术掀起了新一轮人工智能浪潮。 ChatGPT在各个领域（如人机对话、文本摘要、内容生成、问题解答、识图、数学计算、代码编写等）取得了比之前算法好得多的成绩，很多方面都超越了人类专家的水平，特别是人机对话具备了一定的共情能力，这让AI领域的工作者和普通大众都相信AGI（Artificial General Intelligence，通用人工智能）时代马上就要来临了。大模型除了对话能力达到了跟真正互动的水准，更厉害的是当模型参数规模达到一定量（100B ，这里B是billion，十亿的意思）时，会涌现出新的能力，即大模型具备举一反三、任务分解、逻辑推理、解决未知任务的能力，这在之前的机器学习范式中是从没见到过的。

为什么ETL和AI不是竞争对手，而是数据未来的合作伙伴

译者 | 晶颜审校 | 重楼去年，大模型经历了爆炸式增长，进一步完善了人工智能解决问题的能力。今年，随着炒作的热度消退，大模型进入了更深层次的阶段，旨在重塑各行业的基础逻辑。在大数据处理中，大模型与传统ETL （即提取Extract、转换Transform、加载Load）过程之间的冲突引发了新的争论。

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形

大模型“套壳”事件防不胜防，有没有方法可以检测套壳行为呢？来自上海AI实验室、中科院、人大和上交大的学者们，提出了一种大模型的“指纹识别”方法——REEF（Representation Encoding Fingerprints）。在不改变模型性能的前提下，利用REEF就可以精准识别未经授权的后续开发行为。

OpenAI版《Her》全量来袭：实时视频对话，你每个动作AI都看得见

OpenAI“双十二”的*第六天，依旧重磅来袭——《Her》一样的视频通话功能，全量开发！而且这次的版本名字也是非常应景，叫做Santa Mode（圣诞模式）。现在（直到月底），你可以随时开启跟AI的实时对话，点击“雪花”就能让ChatGPT用圣诞老人的调调跟你对话：除此之外，你现在还可以打开摄像头，让ChatGPT睁开“眼睛”，边看边聊！

OpenAI犯了大公司病

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）OpenAI第五天直播，小编只能说，这次没什么特别new的新闻，更像是一个苹果和OpenAI的联合发布吧。本来一个事情，苹果说更新的iOS18.2系统集成了ChatGPT，放到OpenAI这边，自然会说ChatGPT集成到了iPhone、iPad、Mac中。总结起来，值得一看的是三种场景：一、Siri对话：Siri会判断什么时候更适合ChatGPT回答，适当时会让ChatGPT来处理，当然处于保护用户隐私的考虑，这时会需要用户点击确认。

OpenAI推出适用于iPhone的ChatGPT，与Apple实现具有里程碑意义的AI整合

理论

ChatGPT终于也推出Projects功能，却故意露出一个“AGI”的项目

使用 Llama 3.2-Vision 多模态 LLM 和图像“聊天”

使用小型视觉语言模型（VLM）进行物体识别与计数

AI机器人的头号威胁：大模型越狱

微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

谷歌成功狙击 OpenAI：ChatGPT Vision 深夜紧急上线，OpenAI 还能守住江山吗

在大模型时代，智能化推荐怎么做呢？

为什么ETL和AI不是竞争对手，而是数据未来的合作伙伴

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形

OpenAI版《Her》全量来袭：实时视频对话，你每个动作AI都看得见

OpenAI犯了大公司病

OpenAI推出适用于iPhone的ChatGPT，与Apple实现具有里程碑意义的AI整合

豆包 Marscode 优秀实践

如何在安卓手机上本地安装和运行LLM?

OpenAI下一代模型突遭泄露！「半GPT-5」旗舰模型猎户座要来了？

NeurIPS 2024 | LLM智能体真能模拟人类行为吗？答案有了