AI

小白也能轻松理解的大模型入门锦囊！

一、何为大模型？大模型，英文名叫Large Model，也被称为基础模型（Foundation Model）。我们通常说的大模型，主要指的是其中最常用的一类——大语言模型（Large Language Model，简称LLM）。

3/3/2025 10:00:00 AM

小喵学AI

智谱AI宣布完成新一笔金额超10亿元战略融资

近日，国内领先的人工智能企业智谱宣布完成了一笔金额超过10亿元人民币的战略融资。此次融资由杭州城投产业基金、上城资本等多家投资机构共同参与，为智谱的进一步发展和技术创新注入了强劲动力。据悉，这笔融资将主要用于推动国产基座GLM大模型的技术创新和生态发展。

3/3/2025 9:09:00 AM

AI在线

官方详解 DeepSeek-V3 / R1 推理系统：理论利润率达 545%

3 月 1 日消息，DeepSeek 官方今日在知乎发布《DeepSeek-V3 / R1 . 推理系统概览》一文，详细介绍如何使用大规模跨节点专家并行(Expert Parallelism / EP)来增大 batch . size，如何隐藏传输的耗时，如何进行负载均衡。

3/3/2025 9:00:00 AM

清源

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

自从OpenAI发布GPT-4.5之后，Ilya这张图又开始火了。 GPT-4.5令人失望的表现，再次印证了Ilya这句话的含金量：预训练已经达到极限，推理Scaling才是未来有希望的范式。 GPT-4.5在基准测试上并没有提升，推理没有增强，只是变成了一个更易于合作、更有创造性、幻觉更少的模型。

3/3/2025 8:00:00 AM

新智元

DeepSeek 官方推出的提示词库，AI内容生成的精准导航仪！

前言在当今数字化时代，人工智能（AI）正以前所未有的速度改变着我们的生活方式和工作模式。从简单的数据处理到复杂的创意生成，AI技术正逐渐渗透到各个领域，成为推动社会进步的重要力量。然而，如何高效地利用AI技术进行内容创作，一直是许多用户面临的难题。

3/3/2025 12:25:00 AM

大姚

OpenAI计划将Sora视频生成工具集成到ChatGPT中

OpenAI领导团队周五在Discord办公时间会议上宣布，公司计划最终将其AI视频生成工具Sora直接集成到流行的ChatGPT应用程序中，进一步扩展其AI创作生态系统。目前，Sora仅通过OpenAI于12月推出的专用网络应用提供服务，用户可以使用该应用访问AI视频模型生成长达20秒的电影剪辑。 OpenAI的Sora产品负责人Rohan Sahai表示，公司正在积极研究如何将Sora引入ChatGPT，将两款产品结合起来，但拒绝透露具体时间表。

3/2/2025 10:36:00 AM

AI在线

OpenAI GPT-6 训练规模将创历史新高：预估 10 万张 H100 GPU，AI 训练成本达天文数字

OpenAI在GPT-4.5介绍视频中意外泄露GPT-6训练可能需要的GPU数量，暗示其规模将远超以往。据悉，GPT-6训练或需10万块H100 GPU，成本达天文数字。#AI训练##OpenAI#

3/1/2025 8:39:06 AM

故渊

谷歌 Gemini 向免费版用户开放“全局记忆”功能，可令 AI 回忆曾经所有对话

谷歌宣布Gemini AI免费用户现支持“全局记忆”功能，AI将记住所有对话，提供更私人化回复。用户可查看、删除和管理聊天记录，并享受文件上传和分析功能。#AI技术##谷歌Gemini#

3/1/2025 7:21:31 AM

漾仔

DeepSeek太给力了！自家的大模型秘方开源到底！国产大模型雄起

出品 | 51CTO技术栈（微信号：blog51cto）DeepSeek “开源周”第五天，依旧保持了一如既往地“务实”风，满满的诚意。先来回忆下前四天，源神的慷慨发布——第一天，2月24日，最为外界称道的MLA技术率先开源，这项解码加速器FlashMLA技术能够让英伟达Hopper架构GPU跑得更快，效果更好！紧接着，25日，直接亮出首个面向MoE模型的开源专家并行通信库DeepEP，实现了MoE训练推理的全栈优化；第三天，则进一步祭出一项跨时代的发布：FP8通用矩阵乘法加速库，从底层让模型训练、微调变得更加流畅丝滑；第四天，也就是昨天的并行优化“三剑客”：DeepSeek-V3和R1 模型背后的并行计算优化技术——DualPipe（双向流水线并行算法，让计算和通信高效协同）、EPLB （专家并行负载均衡器，让每个 GPU 都“雨露均沾”）、profile-data （性能分析数据，可以理解成V3/R1 的并行优化的分析经验）可以说前四天的发布聚焦在算力通信、模型架构优化，也就是算力和算法的层面，而接下来第五天的开源则补上了AI三驾马车的最后一块，也是用户体验感知更为明显的一块优化动作：高性能分布式文件系统（数据存储层面的改进）。

2/28/2025 12:32:42 PM

DeepSeek开源周最后一天：让数据处理「从自行车升级到高铁」

DeepSeek 的开源周终于迎来了最后一天。今天他们开源了一个名为 3FS（Fire-Flyer File System）的系统。这是一种并行文件系统，它利用现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络的全部带宽，能够加速和推动 DeepSeek 平台上所有数据访问操作。

2/28/2025 10:36:25 AM

机器之心

DeepSeek 开源进度 5/5：高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s

2 月 28 日消息，DeepSeek 在开源周第五天发布了 3FS（Fire-Flyer File . System），这是一个专为充分利用现代 SSD 和 RDMA . 网络带宽而设计的并行文件系统，具备惊人的数据访问性能，为深度学习等数据密集型应用提供了强大的支持。

2/28/2025 10:01:06 AM

故渊

疯了！居然有人试图让我搞懂，什么是 DeepGEMM

DeepSeek开源周，继DeepEP之后，开源了第三弹DeepGEMM。今天简单来说说：吃瓜：DeepGMEE是干嘛的？技术：DeepGMEE是怎么做到的？

2/28/2025 9:30:00 AM

58沈剑

DeepSeek“出圈”了，鹅厂人怎么看？

话题背景在人工智能领域，大型语言模型的快速发展引发了无数关于技术革新和未来趋势的讨论。随着各类AI技术的不断突破，越来越多的创新模型开始崭露头角，而最近备受关注的DeepSeek更是成为了热议的焦点。它被一些人称为“AI技术的重大突破”，甚至被认为是下一代人工智能发展的重要方向。

2/28/2025 9:00:00 AM

腾讯技术工程

GPT-4.5正式亮相：OpenAI推出迄今最强大聊天模型

OpenAI今日宣布，其最新聊天模型GPT-4.5正式进入研究预览阶段。这一模型被誉为OpenAI迄今为止“最大且最佳”的聊天AI，并已开始向ChatGPT Pro用户逐步推出。根据官方声明，GPT-4.5将在下周扩展至Plus和Team用户，随后于下下周覆盖Enterprise和Edu用户。

2/28/2025 8:52:00 AM

AI在线

任意Prompt就能给大模型实时排名！竞技场新玩法，还能自动找最佳AI来作答

给大模型排名这事儿，现在有了新玩法——任意输入一个Prompt，就能给大模型们实时排名，精准找到最适合做这个Prompt的大模型！这就是竞技场（lmarena.ai）最新推出的排名方式，叫做Prompt-to-leaderboard（P2L）。主打的就是找到最能直击你Prompt“灵魂”的那款大模型。

2/28/2025 8:40:00 AM

量子位