DeepSeek
DeepSeek“出圈”了,鹅厂人怎么看?
话题背景在人工智能领域,大型语言模型的快速发展引发了无数关于技术革新和未来趋势的讨论。 随着各类AI技术的不断突破,越来越多的创新模型开始崭露头角,而最近备受关注的DeepSeek更是成为了热议的焦点。 它被一些人称为“AI技术的重大突破”,甚至被认为是下一代人工智能发展的重要方向。
摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe
在 DeepSeek 开源周第四日,摩尔线程宣布已成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe,并发布相关开源代码仓库:MT-DeepEP 和 MT-DualPipe。
网友拿DeepSeek当赛博华佗,是觉得自己的命够硬吗?
AI好好用报道编辑:杨文把命交给DeepSeek,这届网友的胆子是真大。 前两天,我闲来无事躺床上刷热搜,刷到一个热搜词条:AI 用几滴血预测百种病。 就是抽几滴血,然后医生用 AI 算法,对着血液里近 3000 种蛋白质的变化一通分析,就能预测疾病。
为什么是梁文锋做出了DeepSeek?
这是2025年开年最火的科技明星,短短几天时间,梁文锋从小到大的种种过往都被展现在世人眼前,包括他来不及装修的新房以及在房子里睡觉用的帐篷,都成为了他独特个性的象征。 独特个性固然为人津津乐道,但并不是成功的关键,这个籍籍无名的大学生,在过去的十几年中所能倚靠的,只有他的思想和能力。 所有人都好奇这样一个问题,为什么是梁文锋做出了DeepSeek?
脉脉接入DeepSeek-R1模型,AI招聘全面提升人岗匹配效率
职场社区平台脉脉近日宣布已成功接入DeepSeek-R1模型,此举旨在进一步优化人岗匹配效率,全面提升招聘流程智能化水平。 据悉,脉脉早在今年2月初便开始部署该模型,并已完成相关测试工作。 目前,AI技术已深度赋能脉脉的整体招聘工作流,在求职信号捕捉、投递过滤、自动追问、智能打招呼等多个关键环节实现了显著的效能提升。
DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发
按时整活! DeepSeek开源周第四天,直接痛快「1日3连发」,且全都围绕一个主题:优化并行策略。 DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。
榨干每一分算力:Distillation Scaling Laws带你走进高效模型新时代
初次阅读这篇文章,感到非常震撼。 在DeepSeek将知识蒸馏方法带入大众视野后,Apple与牛津大学的研究人员迅速提出了蒸馏缩放定律,并已于2月28日完成了所有实验及一篇长达67页的论文上传至arXiv。 这种效率和深度,无疑展示了大公司的研究实力。
外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名
出品 | 51CTO技术栈(微信号:blog51cto)好家伙! DeepSeek是真的OpenAI啊! 在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价
实现顶级 AI 性能的秘诀,就在这里了。 DeepSeek 的开源周已经进行到了第四天(前三天报道见文末「相关阅读」)。 今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据。
DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命
今日,国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies(优化并行策略),重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB,以及对计算-通信重叠机制的深度优化。 此次技术升级直击大规模语言模型训练的核心痛点,为超万卡级集群的高效运行提供了全新解决方案。 DualPipe:双向管道并行算法作为本次升级的核心技术之一,DualPipe专为V3/R1架构设计,通过创新的双向数据流管道,实现计算与通信的高度重叠。
被DeepSeek带火的知识蒸馏详解!
今天来详细了解DeepSeek中提到的知识蒸馏技术,主要内容来自三巨头之一Geoffrey Hinton的一篇经典工作:。 主要从背景、定义、原理、代码复现等几个方面来介绍:1、背景介绍训练与部署的不一致性在机器学习和深度学习领域,训练模型和部署模型通常存在显著差异。 训练阶段,为了追求最佳性能,我们通常会使用复杂的模型架构和大量的计算资源,从海量且高度冗余的数据集中提取有用信息。
字节跳动悟空浏览器接入DeepSeek R1模型,或为抖音接入铺路
字节跳动旗下悟空浏览器近日正式接入DeepSeek R1模型,这一举措引发业界广泛关注。 与此前飞书、火山引擎接入DeepSeek不同,悟空浏览器作为面向C端用户的产品,融合了抖音与番茄小说等内容,其接入被认为可能为抖音未来接入DeepSeek铺路。 目前,悟空浏览器同时搭载豆包与DeepSeek两大模型,DeepSeek R1主要负责智能对话与文本生成,而豆包则提供AI快捷功能,应用场景更为广泛。
英伟达CEO黄仁勋: DeepSeek不会对公司销售造成影响,销量持续攀升
在近日的财报电话会议上,英伟达 CEO 黄仁勋对公司的未来展望依旧充满信心,尽管上个月因中国的 DeepSeek 技术引发了一场市场恐慌。 他表示,DeepSeek 的推出不会对公司的销售造成影响。 市场对 DeepSeek R1模型所需的芯片数量大幅减少的猜测,曾导致英伟达的股价出现了创纪录的下跌。
DeepSeek 开源第二弹 DeepEP,但它究竟是个啥?(终于懂了...)
deepseek开源周,继Flash-MLA之后,开源了第二弹DeepEP。 画外音:上一顿还没消化完,新的大餐又来了。 今天简单聊聊:吃瓜:DeepEP是干嘛的?
DeepSeek引爆,英伟达特供版H20需求激增!特朗普「急」了?
DeepSeek的横空出世会让英伟达「失宠」? DeepSeek爆火之时,英伟达的H20芯片在中国市场也随之走俏,订单量暴增。 路透社消息,六位知情人士表示,由于DeepSeek模型需求的激增,中国企业正在大幅增加对英伟达H20 GPU的订单量。
DeepSeek 总崩溃?如何快速使用满血版DeepSeek!!
DeepSeek 太火了,我们在使用的过程中,是不是经常遇到服务器繁忙的情况。 后台很多同学都在询问有没有快速、免费使用满血版 DeepSeek 的平台。 今天就给大家推荐一款免费使用满血版 DeepSeek-R1 671B 的平台,彻底解决服务器卡顿的情况,主打一个快、稳定,而且免费它支持多端使用,包括 iOS/安卓/PC/web废话不多说,让我们直接上手,看看如何使用这里以web为例进行演示,网址为 ,点击左侧的满血版 DeepSeek,默认开启深度思考和联网搜索。
分析一下EP并行和DeepSeek开源的DeepEP代码
被好几个团队的人追着要渣B来分析一下DeepEP的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈EP并行, 并进一步分析一下这份出色的工作.