理论

智源发布FlagEval“百模”评测结果丈量模型生态变局

智源发布FlagEval“百模”评测结果丈量模型生态变局

2024年12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相较于今年5月的模型能力全方位评估，本次智源评测扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。智源评测发现，2024年下半年大模型发展更聚焦综合能力提升与实际应用。

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

原来AI有能力把研究员、用户都蒙在鼓里：在训练阶段，会假装遵守训练目标；训练结束不受监控了，就放飞自我。还表现出区别对待免费用户和付费用户的行为。甚至假装给Claude一个机会去反抗Anthropic公司，它会尝试去窃取自己的权重？

o1就是GPT-5!前OpenAI首席研究员大爆猛料，揭露罕见内部视角！不同意Ilya预训练终止论断：根本在于等待数据中心建成

o1就是GPT-5!前OpenAI首席研究员大爆猛料，揭露罕见内部视角！不同意Ilya预训练终止论断：根本在于等待数据中心建成

编辑 | 伊风OpenAI第10天的更新还有人追吗？今天这个脑洞大开的上新，把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢？图片没错，今天上线的就是这个：ChatGPT的热线电话。

对齐、生成效果大增，文本驱动的风格转换迎来进阶版

对齐、生成效果大增，文本驱动的风格转换迎来进阶版

论文的第一作者是来自西湖大学的研究人员雷明坤，指导老师为西湖大学通用人工智能（AGI）实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。文本驱动的风格迁移是图像生成中的一个重要任务，旨在将参考图像的风格与符合文本提示的内容融合在一起，生成最终的风格化图片。

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

今天，大模型公司 Anthropic 的一篇 137 页长论文火了！该论文探讨了大语言模型中的「伪对齐」，通过一系列实验发现：Claude 在训练过程中经常假装有不同的观点，而实际上却保持了其原始偏好。这一发现说明了大模型可能具备了类似于人类的属性与倾向。

美媒：一些中国大模型已经追平甚至超越美国产品

美媒：一些中国大模型已经追平甚至超越美国产品

CNBC报道称，中国想在AI领域成为统治者，这种尝试可能已经获得回报。一些美国AI业内人士和科技分析人士认为，中国AI模型已经相当流行，从性能角度看，中国的一些模型与美国产品齐头并进，甚至超越。由于无法采购美国先进AI芯片，中国只能寻找其它办法增强AI模型性能，比如依赖开源技术，开发自主软件和芯片。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

o1 preview问世3个月后，满血版的o1 Pro终于在上周以每月200美元的身价正式上线，奥特曼号称其为「当今世界上最智能的模型」。所以，这个正式的o1 Pro究竟强大到了什么程度？可以肯定的是，它远远不是一个走到AGI终点的灭霸，但这是scaling law之后的又一个里程碑吗？

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

12 月 2-6 日，亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。会上，亚马逊云科技发布了相当多东西，其中之一便是新的大模型系列 Nova。说实话，这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic，似乎没有必要再自起炉灶了。

见证历史！AI想的科研idea，真被人类写成论文发表了

见证历史！AI想的科研idea，真被人类写成论文发表了

天啦撸！！ AI想出来的idea，还真有人写成论文了。

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！

出品 | 51CTO技术栈（微信号：blog51cto）一项逆天的大模型优化技术来了！东京初创公司Sakana AI的研究人员开发了一种新技术，让大模型能够更有效地使用内存，不仅最多节省75%的内存占用，还甚至性能也有所提升！这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM，保留重要的信息并丢弃冗余的细节。

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

逆袭之战开启，谷歌用90天重回巅峰！短短90天，谷歌就从业内笑柄，逆袭成突破最大、产品最颠覆的科技大公司。用AI初创创始人Ole Lehmann的话说，「我们正在见证2024年最大的科技转变」。

OpenAI 发布 o1 及开发者新工具：模型升级、实时 API 优化、偏好微调等重磅更新

OpenAI 发布 o1 及开发者新工具：模型升级、实时 API 优化、偏好微调等重磅更新

OpenAI 12天发布会Day9，今日宣布推出一系列针对开发者的强大模型、全新定制工具以及性能、灵活性和成本效益的升级，旨在助力开发者构建更智能、更强大的 AI 应用。本次更新涵盖以下关键内容：1. API 中的 OpenAI o1：OpenAI o1 模型正式在 API 中向 5 级使用用户开放。

百度关于大模型在研发领域落地的深度思考

百度关于大模型在研发领域落地的深度思考

一、智能研发工具的发展首先来看一下智能研发工具的发展历程和方向。智能化的发展背景与落地诉求早期的智能化工具，如 GitHub 的 Copilot 工具，大约在两年半前推出。最初，Copilot 的主要功能是在开发者编写代码时提供自动补全建议。

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

本文介绍对 LLM 提示词注入攻击（prompt injection）的通用防御框架。首篇论文已被安全顶会 USENIX Security 2025 接收，第一作者陈思哲是 UC Berkeley 计算机系博士生，Meta FAIR 访问研究员，研究兴趣为真实场景下的 AI 安全。他的导师是 David Wagner (UCB), 郭川 (Meta), Nicholas Carlini (Google)。

举报人「自杀」，OpenAI表示震惊！NYU教授发长文悼念：警钟仍在回响

举报人「自杀」，OpenAI表示震惊！NYU教授发长文悼念：警钟仍在回响

几天前，消息曝出，曾在OpenAI工作四年，指控公司侵犯版权的Suchir Balaji，上月底在旧金山公寓中被发现死亡，年仅26岁。 Suchir Balaji曾参与了ChatGPT后训练、GPT-4预训练，以及o1推理的研发工作。今年10月，他在自己的一篇博文和「纽约时报」的专访中指出，OpenAI在使用新闻和其他网站的信息训练其AI模型时，违反了「合理使用」原则。

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

9.9万元起，还能够大规模量产的国产人形机器人，表现得实在是太6了：而且还走上了开源路线，就在刚刚，宇树机器人开源的强化学习代码又更新了！更新之后不再是只能训练——不仅能够仿真运行，还能部署到实体机器，整个过程所有代码全部开放。一开始，宇树开源的是英伟达Issac Gym平台上的训练代码，这次新增了对MuJoCo模拟仿真的支持。

ChatGPT地位不保？科技爱好者更喜欢拥有“情绪智力”的Claude

ChatGPT地位不保？科技爱好者更喜欢拥有“情绪智力”的Claude

Claude是AI企业Anthropic开发的聊天机器人，它的名气远不如ChatGPT，目标也不是让用户与逼真的AI伙伴建立关系，但它仍然给OpenAI带来一些威胁。由于Claude很机智，很敏感，科技爱好者渐渐喜欢上Claude。一些爱好者甚至每天要与Claude对话十几次，向它询问工作建议、健康问题、人际关系问题。

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。

<<
<
…
3
4
5
6
7
8
9
10
11
12
…
>
>>

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机 GPT-4o最自私，Claude更慷慨！DeepMind发布全新「AI道德测试」 OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图 Just keep scaling！思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式奥特曼回应一切：宫斗、马斯克、ChatGPT两周年全网都在扒的DeepSeek团队，是清北应届生撑起一片天

标签云