AIGC宇宙 AIGC宇宙

斯坦福2025 AI Index报告来了:DeepSeek在全文中被提到45次

作者:机器之心
2025-04-08 01:31
刚刚,斯坦福大学正式发布了《2025 AI Index》报告。 在过去的一段时间里,人工智能领域经历了一场蓬勃的发展,但与此同时,也有人说「人工智能是一个泡沫」。 其他的讨论话题包括但不限于:人工智能的现有技术和架构将不断取得突破;人工智能走在一条不可持续的道路上;人工智能将取代你的工作;人工智能最擅长的就是把你的家庭照片变成吉卜力工作室风格的动画图像……每一年的斯坦福 AI Index 报告都会对领域的发展进行系统的梳理,今年也是如此。

刚刚,斯坦福大学正式发布了《2025 AI Index》报告。

在过去的一段时间里,人工智能领域经历了一场蓬勃的发展,但与此同时,也有人说「人工智能是一个泡沫」。其他的讨论话题包括但不限于:人工智能的现有技术和架构将不断取得突破;人工智能走在一条不可持续的道路上;人工智能将取代你的工作;人工智能最擅长的就是把你的家庭照片变成吉卜力工作室风格的动画图像……

每一年的斯坦福 AI Index 报告都会对领域的发展进行系统的梳理,今年也是如此。《2025 AI Index》报告总共 400 多页,涵盖了研发、技术性能、负责任的人工智能、经济影响、科学和医学、政策、教育和公众舆论等主题的图表和数据。

图片

报告地址:https://hai.stanford.edu/ai-index/2025-ai-index-report

目录如下:

图片

除了谷歌、OpenAI 之外,中国公司 DeepSeek 也成为报告关注的焦点,在 PDF 全文中被提到了 45 次。

关于今年 AI Index 报告的核心内容,我们通过 12 张图片来了解:

美国公司的遥遥领先

图片

虽然衡量国家在人工智能竞赛中「领先」的方式多种多样(如期刊文章发表或引用数量、专利授权等),但一个直观的评估指标是观察哪些国家发布了具有影响力的模型。研究机构 Epoch AI 拥有一个从 1950 年至今的重要人工智能模型数据库,AI Index 从中提取了相关数据进行分析。

数据显示,去年美国发布了 40 个知名模型,中国发布了 15 个,欧洲仅有 3 个(均来自法国)。另有数据表明,2024 年发布的这些模型几乎全部来自产业界,而非学术界或政府部门。关于 2023 年至 2024 年知名模型发布数量减少的现象,AI Index 认为可能是由于技术复杂度提高和训练成本持续攀升所致。

说到训练成本……

图片

在这方面,AI Index 缺乏精确数据,因为许多领先的人工智能公司已停止公开其训练过程信息。斯坦福研究人员与 Epoch AI 合作,基于训练时长、硬件类型和数量等详细信息,估算了部分模型的成本。在可评估的模型中,最昂贵的是谷歌的 Gemini 1.0 Ultra,训练成本约达 1.92 亿美元。训练成本的全面上涨与报告中的其他发现相符:模型在参数数量、训练时间和训练数据量等方面持续规模化扩张。

值得注意的是,DeepSeek 并未包含在这一分析中。这家公司在 2025 年 1 月声称仅用 600 万美元训练出了 DeepSeek-R1,引发金融市场震动,虽然部分行业专家对此说法持怀疑态度。

AI Index 指导委员会联合主任 Yolanda Gil 在接受 IEEE Spectrum 采访时表示,她认为 DeepSeek「非常令人印象深刻」,并指出计算机科学历史上充满了早期低效技术被更优雅解决方案取代的案例。她补充道:「我不是唯一一个相信某个时点会出现更高效版本大语言模型的人。我们只是不知道谁会构建它以及如何构建。」

使用人工智能的成本正在下降

图片

尽管大多数 AI 模型的训练成本持续攀升,但报告中强调了几个积极趋势:硬件成本降低、硬件性能提升及能源效率提高。

这使得推理成本(即查询已训练模型的费用)正在急剧下降。这张使用对数比例的图表展示了 AI 性能每美元的发展趋势。报告指出,蓝线表明每百万 tokens 的成本从 20 美元降至 0.07 美元;粉线则显示在不到一年时间内,成本从 15 美元降至 0.12 美元。

人工智能的显著碳足迹

图片

虽然能源效率提高是一个积极的趋势,但存在一个不容忽视的问题:尽管效率有所提升,整体能耗仍在增长,这意味着处于人工智能热潮中心的数据中心留下了巨大的碳足迹。AI Index 基于训练硬件、云服务提供商和地理位置等因素,估算了特定 AI 模型的碳排放,发现前沿人工智能模型的训练碳排放量呈稳步增长趋势 —— 其中 DeepSeek 模型是个例外。

数据显示,最大的排放源是 Meta 的 Llama 3.1 模型,估计产生了 8930 吨二氧化碳排放,相当于约 496 个美国人一年的生活碳排放量。这一显著的环境影响解释了为何人工智能公司正积极采用核能作为可靠的零碳能源来源。

人工智能模型性能差距持续缩小

图片

美国在已发布的知名模型数量上仍然保持领先地位,但中国模型在质量方面正在迅速赶上。数据显示,在聊天机器人基准测试上的性能差距正在不断缩小。2024 年 1 月,顶尖美国模型的表现比最优中国模型高出 9.26%;到 2025 年 2 月,这一差距已缩小至仅 1.70%。报告在推理、数学和编程等其他基准测试中也发现了类似趋势。

人类最后的考试

图片

今年的报告指出了一个不可忽视的事实:用于评估人工智能系统能力的众多基准测试已经「饱和」—— 人工智能系统在这些测试上获得的分数如此之高,以至于它们不再具有区分价值。这种现象已在多个领域出现:通用知识、图像推理、数学、编程等。

Gil 表示,她惊讶地目睹一个又一个基准测试逐渐失去参考意义。她指出:「我一直认为性能会趋于平稳,会达到一个需要新技术或根本不同架构才能继续取得进展的临界点。但事实并非如此。」

面对这种局面,执着的研究人员不断设计新的基准测试,以期挑战人工智能系统。其中一项是「人类的最后考试」,它由来自全球 500 个机构的专业领域专家贡献的极具挑战性问题组成。到目前为止,即使对最顶尖的人工智能系统而言,这项测试仍然难以攻克:OpenAI 的推理模型 o1 目前以 8.8% 的正确答案率位居榜首。业界正密切关注这种局面能持续多久。

公共数据面临的威胁

图片

当今生成式 AI 系统通过训练海量从互联网抓取的数据获得智能,这导致了一个经常被提及的观点:「数据是 AI 经济的新石油」。随着人工智能公司不断挑战可输入模型的数据量极限,业界开始担忧「数据峰值」问题,以及何时会耗尽这种关键资源。一个问题是,越来越多的网站正在限制机器人爬取并抓取其数据(可能是因为担忧人工智能公司从其数据中获利,同时破坏其商业模式)。网站通过机器可读的 robots.txt 文件声明这些限制。

数据显示,顶级网络域名中 48% 的数据现已被完全限制访问。然而,Gil 指出,人工智能领域可能会出现新方法,终结对庞大数据集的依赖。她认为:「预计在某些时候,数据量将不再如此关键。」

企业资金持续涌入人工智能领域

图片

过去五年,企业界已为人工智能投资敞开了资金闸门。虽然 2024 年的全球总体投资未能达到 2021 年的疯狂高峰,但值得注意的是,私人投资规模达到了前所未有的水平。在 2024 年 1500 亿美元的私人投资中,相关指数的另一项数据表明,约 330 亿美元流向了生成式 AI 领域。

企业等待人工智能投资的巨大回报

图片

理论上,企业投资人工智能是因为期望获得可观的投资回报。在这个话题上,人们常以激昂语气讨论人工智能的变革性本质和前所未有的生产力提升。然而,企业尚未见到能带来显著成本节省或实质性新收益的转变。

麦肯锡调查数据显示,在报告成本降低的企业中,大多数节省幅度不足 10%;在因人工智能获得收入增长的企业中,大多数报告的增长幅度不到 5%。巨大的回报可能仍在路上,从投资数据来看,众多企业正在押注于此,但目前尚未实现。

AI 医生或将很快接诊

图片

科学与医疗领域的人工智能应用是人工智能浪潮中的一个重要分支。报告列举了多个新发布的基础模型,这些模型旨在协助材料科学、天气预报和量子计算等领域的研究人员。众多公司正尝试将人工智能的预测和生成能力转化为盈利性药物研发。OpenAI 的 o1 推理模型最近在医学执照考试问题集 MedQA 的基准测试中取得了 96% 的得分。

然而,这似乎仍是一个潜力巨大但尚未转化为显著实际影响的领域 —— 部分原因可能是人类尚未完全掌握如何有效使用这项技术。2024 年的一项研究测试了医生在使用 GPT-4 作为常规资源补充时是否能做出更准确的诊断。结果表明,这既未提高诊断准确性,也未加快诊断速度。值得注意的是,单独使用的 GPT-4 表现却优于人机团队和单独的人类医生。

美国的人工智能政策行动转向州级层面

图片

这张图表显示,美国国会虽有大量关于人工智能的讨论,但实际行动寥寥无几。报告指出,美国的政策制定已转移至州级层面,2024 年共有 131 项法案在各州获得通过。其中 56 项与深度伪造(deepfake)相关,禁止在选举中使用深度伪造技术或借此传播未经同意的私密图像。

美国之外,欧洲已通过《人工智能法案》(AI Act),该法案要求开发被认定为高风险的人工智能系统的公司承担新的责任义务。然而,全球主要趋势是各国联合发表关于人工智能应在世界上扮演何种角色的全面但无约束力的声明。因此,实质性监管行动相对有限,而讨论却十分广泛。

人类是乐观主义者

图片

无论你是股票摄影师、营销经理还是卡车司机,关于人工智能是否以及何时会取代你的工作,社会上已有广泛讨论。然而,最近一项关于人工智能态度的全球调查显示,大多数人并不感到受到人工智能的威胁。

来自 32 个国家的 60% 受访者认为人工智能将改变他们的工作方式,但仅有 36% 的人预期会被替代。「这些调查结果确实让我感到惊讶,」Gil 表示,「人们认为『人工智能将改变我的工作,但我仍将创造价值』,这种观点非常令人鼓舞。」让我们拭目以待,看看我们能否都通过管理人工智能团队来持续创造价值。

更多细节,可参考报告原文。

相关标签:

相关资讯

李飞飞团队年度报告揭底大模型训练成本:Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受,你还需要一份系统的总结。今天,斯坦福 HAI 研究所发布了第七个年度的 AI Index 报告,这是关于人工智能行业现状的最全面的报告之一。访问地址:,人工智能的发展正以惊人的速度向前推进,开发人员每月都在制造出越来越强大、越来越复杂的模型。然而,尽管发展速度加快,人工智能行业在解决人们对人工智能可解释性的担忧以及对其对人们生活影响的日益紧张方面却进展甚微。在今年的报告中,斯坦福 HAI 研究所增加了有关负责任人工智能的扩展章节,有关科学和医学领域人工智能的新章节,以
4/16/2024 3:32:00 PM
机器之心

B站亮相 2024 世界人工智能大会,首次展出自研大语言模型

在 2024 世界人工智能大会(WAIC 2024)上,哔哩哔哩(以下简称“B站”)公布了多项自主研发的 AI 技术成果和 AIGC 多元创意,包括最新定制的 AI 语音声库、自研音视频大模型必剪 Studio 以及自研 AI 动态漫技术等。此外,B站自研的大语言模型系列也在此次 WAIC 2024 大会上首次展出,包括开源的 Index-1.9B chat 和 Index-1.9B character 两个模型。IT之家查询 GitHub 获悉,Index-1.9B 系列模型于 6 月开源,包含基座模型、对照组、
7/5/2024 12:27:57 PM
汪淼

B站开源轻量级 Index-1.9B 系列模型:2.8T 训练数据,支持角色扮演

B站昨日开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。IT之家附官方简介:Index-1.9B base : 基座模型,具有 19 亿非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。Index-1.9B pure : 基座模型的对照组,与 base 具有相同的参数和训练策略,不同之处在于严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对 benchmark 的影响。Index-1.9B chat :基于 i
6/20/2024 8:50:58 AM
清源