理论
智源发布FlagEval“百模”评测结果 丈量模型生态变局
2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。
Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改
原来AI有能力把研究员、用户都蒙在鼓里:在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。 还表现出区别对待免费用户和付费用户的行为。 甚至假装给Claude一个机会去反抗Anthropic公司,它会尝试去窃取自己的权重?
o1就是GPT-5!前OpenAI首席研究员大爆猛料,揭露罕见内部视角!不同意Ilya预训练终止论断:根本在于等待数据中心建成
编辑 | 伊风OpenAI第10天的更新还有人追吗? 今天这个脑洞大开的上新,把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢? 图片没错,今天上线的就是这个:ChatGPT的热线电话。
对齐、生成效果大增,文本驱动的风格转换迎来进阶版
论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。 实验室的研究方向聚焦于生成式人工智能和多模态机器学习。 文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
今天,大模型公司 Anthropic 的一篇 137 页长论文火了! 该论文探讨了大语言模型中的「伪对齐」,通过一系列实验发现:Claude 在训练过程中经常假装有不同的观点,而实际上却保持了其原始偏好。 这一发现说明了大模型可能具备了类似于人类的属性与倾向。
美媒:一些中国大模型已经追平甚至超越美国产品
CNBC报道称,中国想在AI领域成为统治者,这种尝试可能已经获得回报。 一些美国AI业内人士和科技分析人士认为,中国AI模型已经相当流行,从性能角度看,中国的一些模型与美国产品齐头并进,甚至超越。 由于无法采购美国先进AI芯片,中国只能寻找其它办法增强AI模型性能,比如依赖开源技术,开发自主软件和芯片。
沃顿商学院教授发文解析o1:能力仍有短板,「人机协同智能」或成AGI最重要难题
o1 preview问世3个月后,满血版的o1 Pro终于在上周以每月200美元的身价正式上线,奥特曼号称其为「当今世界上最智能的模型」。 所以,这个正式的o1 Pro究竟强大到了什么程度? 可以肯定的是,它远远不是一个走到AGI终点的灭霸,但这是scaling law之后的又一个里程碑吗?
Scaling Law撞墙?预训练终结?亚马逊云科技为什么还在做基础大模型
12 月 2-6 日,亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。 会上,亚马逊云科技发布了相当多东西,其中之一便是新的大模型系列 Nova。 说实话,这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic,似乎没有必要再自起炉灶了。
见证历史!AI想的科研idea,真被人类写成论文发表了
天啦撸! ! AI想出来的idea,还真有人写成论文了。
大模型超强内存优化:成本削减高达75%,性能不减弱!成果出自日本一初创AI公司之手;网友:电力可能够用了!
出品 | 51CTO技术栈(微信号:blog51cto)一项逆天的大模型优化技术来了! 东京初创公司Sakana AI的研究人员开发了一种新技术,让大模型能够更有效地使用内存,不仅最多节省75%的内存占用,还甚至性能也有所提升! 这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM,保留重要的信息并丢弃冗余的细节。
谷歌逆风翻盘暴击OpenAI,90天王者归来!44页报告押注25年三大技术前沿
逆袭之战开启,谷歌用90天重回巅峰! 短短90天,谷歌就从业内笑柄,逆袭成突破最大、产品最颠覆的科技大公司。 用AI初创创始人Ole Lehmann的话说,「我们正在见证2024年最大的科技转变」。
OpenAI 发布 o1 及开发者新工具:模型升级、实时 API 优化、偏好微调等重磅更新
OpenAI 12天发布会Day9, 今日宣布推出一系列针对开发者的强大模型、全新定制工具以及性能、灵活性和成本效益的升级,旨在助力开发者构建更智能、更强大的 AI 应用。 本次更新涵盖以下关键内容:1. API 中的 OpenAI o1:OpenAI o1 模型正式在 API 中向 5 级使用用户开放。
百度关于大模型在研发领域落地的深度思考
一、智能研发工具的发展首先来看一下智能研发工具的发展历程和方向。 智能化的发展背景与落地诉求早期的智能化工具,如 GitHub 的 Copilot 工具,大约在两年半前推出。 最初,Copilot 的主要功能是在开发者编写代码时提供自动补全建议。
USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了
本文介绍对 LLM 提示词注入攻击(prompt injection)的通用防御框架。 首篇论文已被安全顶会 USENIX Security 2025 接收,第一作者陈思哲是 UC Berkeley 计算机系博士生,Meta FAIR 访问研究员,研究兴趣为真实场景下的 AI 安全。 他的导师是 David Wagner (UCB), 郭川 (Meta), Nicholas Carlini (Google)。
举报人「自杀」,OpenAI表示震惊!NYU教授发长文悼念:警钟仍在回响
几天前,消息曝出,曾在OpenAI工作四年,指控公司侵犯版权的Suchir Balaji,上月底在旧金山公寓中被发现死亡,年仅26岁。 Suchir Balaji曾参与了ChatGPT后训练、GPT-4预训练,以及o1推理的研发工作。 今年10月,他在自己的一篇博文和「纽约时报」的专访中指出,OpenAI在使用新闻和其他网站的信息训练其AI模型时,违反了「合理使用」原则。
宇树机器人强化学习代码全面开源,还有训练到仿真和实操手把手教学
9.9万元起,还能够大规模量产的国产人形机器人,表现得实在是太6了:而且还走上了开源路线,就在刚刚,宇树机器人开源的强化学习代码又更新了! 更新之后不再是只能训练——不仅能够仿真运行,还能部署到实体机器,整个过程所有代码全部开放。 一开始,宇树开源的是英伟达Issac Gym平台上的训练代码,这次新增了对MuJoCo模拟仿真的支持。
ChatGPT地位不保?科技爱好者更喜欢拥有“情绪智力”的Claude
Claude是AI企业Anthropic开发的聊天机器人,它的名气远不如ChatGPT,目标也不是让用户与逼真的AI伙伴建立关系,但它仍然给OpenAI带来一些威胁。 由于Claude很机智,很敏感,科技爱好者渐渐喜欢上Claude。 一些爱好者甚至每天要与Claude对话十几次,向它询问工作建议、健康问题、人际关系问题。
为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘
多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办? 像文生图那样有ControlNet即可解决。 这就是由360人工智能研究院提出的IAA的核心思路。