架构 - AIGC宇宙

DeepSeek 悄然发布 DeepSeek-V3–0324：远超预期的重大升级

DeepSeek 近期悄然发布的 DeepSeek-V3–0324，在 AI 社区和行业内引发了广泛关注。这一版本是 DeepSeek V3 （DeepSeek-V3 深度剖析：下一代 AI 模型的全面解读）模型的重要升级，其带来的一系列技术革新和性能提升远超众人预期，为开发者和企业带来了新的机遇与可能。一、DeepSeek-V3–0324 的技术突破（一）Multi-head Latent Attention（MLA）和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention（MLA）和增强版的 DeepSeekMoE 架构，这些创新技术为模型性能的提升奠定了坚实基础。

DeepSeek 开源 V3/R1 架构设计思路，原来 545% 的利润率，它也只是被逼无奈？

开源周的最后一天，DeepSeek分享了DeepSeek-V3/R1的架构设计思路，让大家能够更系统更全面的了解其推理系统的设计过程，以及更深刻的理解之前开源的6个项目。 DeepSeek-V3/R1推理系统的核心目标是什么？通过软件架构的优化，达到：更高的吞吐量；更低的延时；为什么DeepSeek要走这一条路？

DeepSeek 3FS 架构分析和思考（上篇）

2025 年 2 月28 日，DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System，简称 3FS。该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程，在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。项目一经发布，就获得了存储领域的广泛关注。

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型，通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

DeepSeek开源周第一天，降本大法公开——FlashMLA，直接突破H800计算上限。网友：这怎么可能？？

一文读懂DeepSeek-V3 技术报告

2023年7月17日，DeepSeek正式成立，由幻方量化提供资金支持。梁文锋凭借其在金融和AI领域的深厚背景，带领团队开始探索生成式AI技术。同年11月2日，DeepSeek推出首款开源模型DeepSeek Coder，支持多种编程语言的代码生成、调试和数据分析任务，为AI领域的应用奠定了基础，直到 2024 年 12 月，DeepSeek-V3的发布引发了行业震动和社会广泛关注，在他们的最新技术报告《DeepSeek-V3技术报告》中，团队详细介绍了其最新成果——DeepSeek-V3模型。

OpenAI Agent来了！大小事务自动帮你搞定，带推送提醒的那种，今日可开玩

开年第一剑，OpenAI Agent闪亮登场！ ChatGPT新功能「Tasks」，让AI有了执行力，可以替你完成各种任务。无论是一次性提醒还是重复执行的动作，告诉ChatGPT你需要什么以及何时需要，它会自动帮你处理。

万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

大模型Scaling Law终结，前段时间曾被吵得沸沸扬扬。面对诸多的质疑，硅谷巨头们用行动给出了截然不同的答案。谷歌祭出最强下一代新模型Gemini 2.0 Flash，并带着多个智能体一同亮相；OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

量化到1 bit的LLM还能再突破？这次，他们对激活值下手了！近日，BitNet系列的原班人马推出了新一代架构：BitNet a4.8，为1 bit大模型启用了4位激活值：图片论文地址：，激活值量化通常是比较难办的。

重磅开源！Kimi把自家底层推理架构都开源了，开源贡献阵容相当豪华：清华、阿里、华为、AISoft、面壁智能

就在昨天，Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来！有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。小编立马求证了一番，的确Github上有提到：Mooncake 正在服务Kimi平台。

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。