文章列表
OpenAI o3 AI 模型突破推理极限背后:成本飙升,没“钞能力”用不起
科技媒体 TechCrunch 昨日(12 月 23 日)发布博文,认为 OpenAI 的 o3 模型虽然在 ARC-AGI 等测试中取得了亮眼成绩,但背后的高计算成本,让其短期内很难在实际应用中普及。
使用LLaMA 3.1、Firebase和Node.js,构建一个音控的智能厨房应用程序
译者 | 布加迪审校 | 重楼这篇指南逐步介绍了创建一个自动化的厨房助理的过程,附有语音命令、实时购物清单管理以及食谱建议。 我在本教程中将介绍创建一个智能厨房应用程序(Chent),它可以根据个性化偏好简化杂货清单管理。 该应用程序通过语音命令操作,简化了人机交互和添加商品。
市场份额稳居前三!商汤智算服务持续领跑
国际权威咨询机构IDC近日发布《中国智算服务市场(2024上半年)跟踪》报告。 报告显示,2024年上半年,商汤科技作为国内领先的智算服务商,以13.3%的市场份额稳居GenAI IaaS市场Top3,位列GenAI IaaS领域第一梯队。 Gen AI驱动,商汤站稳智算市场头部阵营2024上半年中国智算服务整体市场同比增长79.6%,市场规模达到146.1亿元人民币。
ABCoder 在大模型编程领域的探索
前言大语言模型(以下简称大模型或 LLM) 真正意义上火出圈,应该算是 OpenAI 发布 ChatGPT 后(22 年底)。 从这个时间开始,到现在为止,已经过了很长一段时间了,市面上也出现了一些编程工具,比如 MarsCode、Copilot 或者 Cursor 等比较火的结合 IDE 的插件和工具。 而实际上:经过了这么长时间的 LLM 产品发展,大家的编程方式真的被改变了吗?
扒一扒o3-mini背后团队:3位华人核心成员,北大清华南开校友在列
比o1 mini性能更强,价格更低,性价比新王o3-mini再次引爆AI圈热议。 在官方截图中,中等o3-mini的性能和o1 mini差不多,价格却只有后者的一半,整体延迟也和GPT-4o相当。 最主要的,这表明了OpenAI可以在降低成本的同时提高性能。
剖析BadGPT-40背后的真相:一个从GPT模型中移除护栏的模型
译者 | 晶颜审校 | 重楼出品 | 51CTO技术栈(微信号:blog51cto)大型语言模型(LLM)风靡全球。 从通用的智能助手到代码伙伴,这些模型似乎什么都能做——除了可靠地执行其内置的安全准则。 OpenAI等公司安装的广为人知的“护栏”旨在确保负责任的行为,保护用户免受恶意输出、虚假信息和网络利用企图的影响。
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
李飞飞谢赛宁再发新成果:直接把o1式思考拉至下一个level——多模态大语言模型的空间思维! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现:当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。 图片更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现,反而会使性能下降。
大模型检索增强生成之向量数据库的问题
作为技术人员我想大家或多或少应该都接触过数据库技术,数据库技术的历史可以说是由来已久了;但数据库的发展也是一路曲折,特别是随着互联网体量的快速增加,对数据库的要求也变得越来越多。 而且为了适应各种不同的业务场景,数据库系统也是紧跟潮流发展出多种类型的数据库;比如说传统的关系型数据库,缓存数据库,以及大数据处理的数据库;直到今天的向量数据库。 关系型和缓存数据库就不用说了,今天我们就来聊聊向量数据库系统。
百川行业首创领域自约束训练方案,Baichuan4-Finance金融场景能力领先GPT-4o近20%
12 月 23 日,百川智能发布全链路领域增强大模型 Baichuan4-Finance。 在高质量金融数据的基础上,通过行业首创的领域自约束训练方案,Baichuan4-Finance 实现了金融能力和通用能力同步提升的效果,极大提高了金融场景的整体可用性。 其金融专业能力和场景应用能力大幅领先 GPT-4o,在中国人民大学财政金融学院新近发布的评测体系 FLAME 以及国内主流开源金融评测基准 FinancelQ 上均登上榜首。
素数分布规律又有新发现!赵宇飞学生与牛津教授合作成果
赵宇飞高材生、哥伦比亚大学助理教授Mehtaab Sawhney(索尼),又为数学界贡献了一项重要成果——与牛津大学教授Ben Green(格林)一起,证明了一项关于素数分布的新规律。 关键是证明中用到了与Gowers范数相关的技术,而Gowers范数一开始是拿来研究等差数列的,看上去和素数规律风马牛不相及。 甚至作者索尼自己也表示,“作为一个‘局外人’,几乎不可能判断出这些事情是相关的”。
Ilya宣判后GPT-5被曝屡训屡败,一次训数月,数据要人工从头构建
GPT-5被曝效果远不达预期。 OpenAI连续12场发布会刚刚结束,大家最想看的GPT-5/4.5影子都没有,于是华尔街日报这边爆料了。 GPT-5已至少完成2轮训练,每次长达数月,但是每次训练后都遇到新问题。
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
国际奥数题手到擒来,OpenAI o1是靠死记硬背还是真的实力超群? 近日,来自港大的研究人员对o1进行了严格的AB测试:论文地址:? 考两张卷子:一张是有可能提前背题的,另一张是不太可能提前背题的,两张卷子难度一致。
是时候停止炒作「o3是AGI」了!背后15人安全对齐团队大盘点
我们或许可以称o3是「更高级的推理AI」,而远不是AGI。 昨天凌晨,OpenAI 连续 12 天发布会终于落下了帷幕,并甩出了最强大的推理模型 o3 系列! 当然,用户现在想要体验 o3 或者 o3-mini,需要申请并等待数周。
自缘身在最高层?OpenAI o1 pro竞赛级评测结果新鲜出炉
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
谷歌“新技能”陆续推送:Gemini 帮你快速总结 PDF 内容
使用“询问此PDF”功能需要拥有 Gemini Advanced 订阅、将 Gemini 设置为安卓手机的默认助手,并且设备需要运行 Android 15 系统。
消息称 OpenAI 新模型 GPT-5 研发遇阻,成本高昂、效果未达预期
据《华尔街日报》最新报道指出,OpenAI 正在开发的下一代大型语言模型 GPT-5 的研发进度落后于原计划,且目前取得的成果尚未达到与其巨额成本相匹配的水平。
吴恩达推出免费课程,带你玩转 OpenAI 推理模型 o1
吴恩达(Andrew Ng)于 12 月 19 日在 LinkedIn 更新动态,宣布旗下 DeepLearning.AI 推出免费短期课程《Reasoning with o1》,帮助用户掌握 o1 模型的强大功能。
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
刚刚,OpenAI 为期 12 天的发布迎来尾声。 如外界所料,新的推理系列模型 ——o3 和 o3-mini 成为这次发布的收官之作。 o3 是 o1 系列模型的继任者。