理论

扒一扒o3-mini背后团队:3位华人核心成员,北大清华南开校友在列

比o1 mini性能更强,价格更低,性价比新王o3-mini再次引爆AI圈热议。 在官方截图中,中等o3-mini的性能和o1 mini差不多,价格却只有后者的一半,整体延迟也和GPT-4o相当。 最主要的,这表明了OpenAI可以在降低成本的同时提高性能。

剖析BadGPT-40背后的真相:一个从GPT模型中移除护栏的模型

译者 | 晶颜审校 | 重楼出品 | 51CTO技术栈(微信号:blog51cto)大型语言模型(LLM)风靡全球。 从通用的智能助手到代码伙伴,这些模型似乎什么都能做——除了可靠地执行其内置的安全准则。 OpenAI等公司安装的广为人知的“护栏”旨在确保负责任的行为,保护用户免受恶意输出、虚假信息和网络利用企图的影响。

李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

李飞飞谢赛宁再发新成果:直接把o1式思考拉至下一个level——多模态大语言模型的空间思维! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现:当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。 图片更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现,反而会使性能下降。

大模型检索增强生成之向量数据库的问题

作为技术人员我想大家或多或少应该都接触过数据库技术,数据库技术的历史可以说是由来已久了;但数据库的发展也是一路曲折,特别是随着互联网体量的快速增加,对数据库的要求也变得越来越多。 而且为了适应各种不同的业务场景,数据库系统也是紧跟潮流发展出多种类型的数据库;比如说传统的关系型数据库,缓存数据库,以及大数据处理的数据库;直到今天的向量数据库。 关系型和缓存数据库就不用说了,今天我们就来聊聊向量数据库系统。

素数分布规律又有新发现!赵宇飞学生与牛津教授合作成果

赵宇飞高材生、哥伦比亚大学助理教授Mehtaab Sawhney(索尼),又为数学界贡献了一项重要成果——与牛津大学教授Ben Green(格林)一起,证明了一项关于素数分布的新规律。 关键是证明中用到了与Gowers范数相关的技术,而Gowers范数一开始是拿来研究等差数列的,看上去和素数规律风马牛不相及。 甚至作者索尼自己也表示,“作为一个‘局外人’,几乎不可能判断出这些事情是相关的”。

Ilya宣判后GPT-5被曝屡训屡败,一次训数月,数据要人工从头构建

GPT-5被曝效果远不达预期。 OpenAI连续12场发布会刚刚结束,大家最想看的GPT-5/4.5影子都没有,于是华尔街日报这边爆料了。 GPT-5已至少完成2轮训练,每次长达数月,但是每次训练后都遇到新问题。

OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下

国际奥数题手到擒来,OpenAI o1是靠死记硬背还是真的实力超群? 近日,来自港大的研究人员对o1进行了严格的AB测试:论文地址:? 考两张卷子:一张是有可能提前背题的,另一张是不太可能提前背题的,两张卷子难度一致。

AI能传递气味了!能定制个性化气味,谷歌前研究员新技术

继视觉和听觉之后,AI已经进化到拥有嗅觉了? ? 你没听错,这是来自Osmo公司的最新技术,它们刚刚首次实现了由AI生成的李子味道。

刚刚,OpenAI 元老级研究员 Alec Radford 离职,他主导了 GPT-1、GPT-2 的研发

OpenAI 人事方面的变动还在继续。 今日,据外媒 The Information 报道,OpenAI 元老级人物 Alec Radford 即将离职,离职后进行独立研究。 据了解 Radford 信息的人士透露,Radford 表示他计划与 OpenAI 以及其他 AI 开发者展开合作。

1万人研究证实:玩游戏提升智力,与遗传/经济水平都无关

电子游戏可以提升智力,有正经科学研究支持了! 来自阿姆斯特丹自由大学团队的一项新研究显示,在电子游戏上花费时间更多的儿童,2年后智力提升最多! 他们深入分析了近1万名9-10岁的美国儿童,2年后又进行了回访。

UniReal登场:用视频架构统一图像生成与编辑,还学到真实世界动态变化规律

论文一作陈汐,现为香港大学三年级博士生,在此之前本科硕士毕业于浙江大学,同时获得法国马赛中央理工双硕士学位。 主要研究方向为图像视频生成与理解,在领域内顶级期刊会议上发表论文十余篇,并且 GitHub 开源项目获得超过 5K star.本文中,香港大学与 Adobe 联合提出名为 UniReal 的全新图像编辑与生成范式。 该方法将多种图像任务统一到视频生成框架中,通过将不同类别和数量的输入/输出图像建模为视频帧,从大规模真实视频数据中学习属性、姿态、光照等多种变化规律,从而实现高保真的生成效果。

智源发布FlagEval「百模」评测结果,丈量模型生态变局

2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT

可控视频生成,对于自动驾驶技术而言,同样非常重要。 比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。 现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。

Mac版ChatGPT接入大量应用,但终极大招在明天

今天是 ChatGPT 产品发布会第11天。 现场的 OpenAI 产品负责人 Kevin Wheel 和他两位同事为我们揭晓 ChatGPT 在MAC端的最新进展,主要涉及编程和写作1. ChatGPT 桌面版的诞生Kevin 一上来就提到,过去半年,OpenAI 对桌面端应用下了大功夫。

腾讯云 ES:一站式 RAG 方案,开启智能搜索新时代

在大型语言模型(LLM)引领的革命浪潮中,搜索与大模型的紧密结合已成为推动知识进步的关键要素。 作为开源搜索引擎排名第一的 Elasticsearch(ES),结合沉淀多年的文本搜索能力和强大的向量检索能力实现混合搜索,使搜索变得更准、更全、更智能。 腾讯云 ES 多年来持续对开源 ES 的性能、成本、稳定性以及分布式架构进行深度增强优化,并在海量规模的云业务中接受考验。

苹果Mac用户狂喜!ChatGPT深度集成应用,最后再藏AGI彩蛋

OpenAI直播第11天,ChatGPT与Mac应用深度集成了——此次带来编程和写作两方面的更新。 再加上今天直播的OpenAI员工一开头就大谈特谈AI自动执行任务,有网友表示这也许是为即将推出的智能体做铺垫。 至于今天有哪些更新,话不多说,我们直接一睹为快。

豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠

豆包的“眼睛”升级了,现在让它看一眼APP截图,就能直接给你生成代码! 话不多说,我们直接给它上一个难度。 例如我们先随机截取一张网站的图片:再来到火山方舟的大模型广场,pick一下最新的Doubao-vision-pro-32k版本:(PS:该模型也可以在豆包APP中体验)然后把刚才的截图“喂”给豆包,并附上一句简单的Prompt:帮我写代码,克隆这个APP。

腾讯版Sora开源后,被提速八倍!官方点赞并预告:下月上新图生视频

提速8倍! 速度更快、效果更好的混元视频模型——FastHunyuan来了! 新模型仅用1分钟就能生成5秒长的视频,比之前提速8倍,步骤也从50步减少到了6步,甚至画面细节也更逼真了。