训练
DeepSeek玩家能提前拿苹果新品!只要15万元,在家跑满血版R1
号称地表最强的M3 Ultra,本地跑满血版DeepSeek R1,效果到底如何? 其实,有些DeepSeek玩家们已经提前拿到手做过实测了。 例如这位Alex老哥就是其中之一:他提前拿到了两台搭载M3 Ultra的Mac Studio,配置是这样的:M3 Ultra(32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)512G统一内存1TB固态硬盘具体来说,Alex老哥用配备Thunderbolt 5互连技术(传输速率为 80Gbps)的EXO Labs设备,来运行完整的DeepSeek R1模型(671B、8-bit)。
3/13/2025 12:41:37 PM
量子位
AI屠戮白领,大学文凭变「废纸」!美高中重开体力课,年薪40万不是梦
OpenAI首个NextGenAI联盟正式成立! 联盟汇聚了15家领先研究机构,包括Caltech、MIT、哈佛等顶尖学府,创始阵容堪称豪华。 其中,研究资助、计算资金和API访问权限都将由OpenAI负责提供,全力支持学生、教育工作者和研究人员探索AI前沿应用。
3/6/2025 9:30:00 AM
新智元
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位
DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升
用代码训练大模型思考,其他方面的推理能力也能提升。 DeepSeek团队最新研究,利用300多万个实例,将代码转换成思考过程,构建出数据集CODEI/O,对Qwen、Llama等模型进行了训练。 结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括在非代码类的推理任务上,也展现出了良好的迁移能力。
2/17/2025 2:43:51 PM
量子位
DeepSeek R1 搭建个人 AI 知识库
前言上一篇文章写到了部署本地deepseek,基于这篇文章,继续讲一下如何搭建自己的知识库。 可能很多人会有疑问,本地部署有什么优势呢。 其实如果不是有特别的技术研究和比较私密的数据,可以不用搭建。
2/12/2025 12:12:59 PM
cqhly
Deepseek的前世今生
DeepSeek(深度求索)引起硅谷“恐慌”,性能超越了美国的顶尖模型,且研发成本更低,使用的芯片性能也较弱。 甚至有人猜测DeepSeek(深度求索)模型对美国股市都构成了威胁。 中国AI公司证明了用有限的计算资源,足以做出顶尖水平的模型。
2/12/2025 11:25:39 AM
小扒
刚刚,OpenAI发布o1模型新突破,推理时间增强对抗鲁棒性
今天凌晨2点,OpenAI发布了一项新技术研究,通过增加推理时间、算力资源来大幅度提升模型的对抗鲁棒性。 与传统的对抗训练样本方法不同的是,OpenAI提出的新方法不需要对大模型进行专门的对抗训练,也不需要提前了解攻击的具体形式。 只需要通过增加推理时间和算力资源,模型就可以更充分地利用其推理能力表现出更强的鲁棒性。
1/23/2025 10:45:52 AM
AIGC开放社区
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
AI设计
Anthropic
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
苹果
模态
AI视频
驾驶
文本
人形机器人
xAI
搜索
大语言模型
Copilot
字节跳动
神器推荐
LLaMA
具身智能
Claude
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练