模型

DeepSeek官方发布R1模型推荐设置，这才是正确用法

自春节以来，DeepSeek 就一直是 AI 领域最热门的关键词，甚至可能没有之一，其官方 App 成为了史上最快突破 3000 万日活的应用。最近一段时间，各家 AI 或云服务厂商更是掀起了部署 DeepSeek-R1 服务的狂潮，甚至让薅羊毛的用户们都有点忙不过来了。就在刚刚，DeepSeek 官网 X 帐号终于更新了（上一次更新还是在 1 月 28 日），官方下场推荐了部署 DeepSeek-R1 的设置。

2/17/2025 7:35:00 AM

机器之心

模型过剩危机：OpenAI壮士断腕，能否终结开发者'选择恐惧症'？

OpenAI要“动手”了，它计划对自己的模型产品阵容来一场大“瘦身”!就在它准备推出最后一个非推理模型GPT-4.5之际，这家科技巨头罕见地承认，之前的产品发布在客户眼里竟然没啥区别，这让市场有点懵。 OpenAI的首席执行官萨姆·奥特曼最近在X平台上更新了产品路线图，他坦诚地说，公司最近的一些发布确实让市场感到有点困惑。 “我们得把预定路线图分享得更清楚，还得在产品阵容简化上多下点功夫。

2/14/2025 11:25:45 AM

Emilia David

一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的模型结构基础

LLaMA是目前很多SOTA开源大模型的基础，包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。因此，LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。这篇文章就给大家汇总一下LLaMA的核心模型结构。

2/14/2025 1:00:00 AM

Fareise

手把手教你找免费AI服务：搜公开的DeepSeek模型接口

网上很多教程教你怎么自己搭 AI 模型，但今天我要教大家一个野路子——用搜索引擎直接找别人已经搭好的 AI（Ollama）服务（前提是合法使用）。就像有人忘记关 Wi-Fi，我教你怎么发现这些"公共资源"。一、用 Fofa 找公开的 AI 服务Fofa 是什么？

2/14/2025 12:00:00 AM

wayn

DeepSeek 系列模型详解之——DeepSeek LLM

DeepSeek LLM发布于2024年1月，收集了2万亿个词元用于预训练，在模型层面沿用了LLaMA的架构，并将余弦退火学习率调度器替换为多阶段学习率调度器，便于持续训练。并从多种来源收集了超过100万个实例进行监督微调(SFT)。此外，利用直接偏好优化（DPO）技术进一步提升模型的对话能力。

2/13/2025 11:00:30 AM

小喵学AI

DeepSeek 私有部署最强指南：满血推理，异构多机分布式，国产显卡无缝支持！

还还在为DeepSeek模型部署的各种难题抓狂？各种教程的下载分片、合并模型、编译环境……这些繁琐的操作是不是让你头大？ DeepSeek R1 火了，私有部署需求暴增，教程满天飞，但实际操作起来却麻烦得要命！

2/13/2025 10:12:27 AM

AI寒武纪

o3拿下IOI 2024金牌！新论文公布RL秘诀：AI自己设计测试时推理策略，无需人类干预

IOI 2024金牌，OpenAI o3轻松高分拿下！刚刚，OpenAI发布了关于推理模型在竞技编程中应用的研究论文报告，论文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具体成绩。三兄弟分别是OpenAI o1、o1-ioi（以o1为基础微调等改进而来）、o3，三者成绩如下。

2/13/2025 9:20:00 AM

量子位

OpenAI放王炸！GPT-5免费无限使用，产品矩阵大整合！

今天凌晨3点，OpenAI首席执行官Sam Altman公布了GPT-4.5和GPT-5的炸裂消息。 Altman表示，OpenAI很快发布GPT-4.5，就是传说中的猎户座模型（Orion），也是最后一个非思维链模型。接着会整合GPT和O系列两大模型打造一个全新的系统，能自动选择思考和非思考功能，适用于多种任务。

2/13/2025 9:15:00 AM

AIGC开放社区

刚刚，奥特曼剧透GPT-4.5、GPT-5重大更新，o3取消独立发布

奥特曼深夜一则推文，在网络上掀起了讨论狂潮。没有一点点预告，奥特曼亲自公布自家产品路线图，并承认公司最近发布的一些产品有些混乱。推文透露，OpenAI 的下一步是发布 GPT-4.5，这是其最后一个非思维链 (CoT) 模型。

2/13/2025 9:10:47 AM

机器之心

几个免费使用 DeepSeek 的渠道，告别「服务器繁忙，请稍后再试」

在眼下这个时间点，AI 已经不是什么稀缺资源了，这当然和最近爆火的 DeepSeek 有很大关系，尤其春节那几天，无论是北上广还是小县城甚至农村，无论是985高材生还是村里的叔叔大爷，都用上了 AI 大模型，而且是能力排在第一梯队的大模型，也就是 DeepSeek-R1。之所以说在这以前，AI 还是稀缺资源，那是因为公认的第一梯队的大模型产品基本上都是国外的，而想要使用国外的产品，对于普通人来说，门槛还是非常高的。而国内虽然也有不少免费的产品，但是整体来说，还是差点意思的。

2/13/2025 12:10:00 AM

风筝

淘宝卖DeepSeek安装包一月赚数十万？？？我们免费教你本地部署DeepSeek-R1

当看到这条消息时，机器之心编辑部陷入了集体沉默。作为一个免费开源的模型，DeepSeek 竟能让倒卖商如此大赚特赚，也着实让人震惊。而这也从侧面佐证了 DeepSeek 模型引发的本地部署热潮是多么汹涌。

2/12/2025 1:23:47 PM

机器之心

推理模型新路线开源！与DeepSeek截然不同，抛弃思维链不用人类语言思考

开源推理大模型新架构来了，采用与Deepseek-R1/OpenAI o1截然不同的路线：抛弃长思维链和人类的语言，直接在连续的高维潜空间用隐藏状态推理，可自适应地花费更多计算来思考更长时间。例如问题：Claire每天早餐都会做一个3个鸡蛋的煎蛋卷。她在4周内会吃多少个鸡蛋？

2/12/2025 9:00:00 AM

量子位

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

强化学习迎来重大突破！近日，来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B，通过简单的强化学习（RL）微调，得到了全新的DeepScaleR-1.5B-Preview。在AIME2024基准中，模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%，而且在只有1.5B参数的情况下超越了OpenAI o1-preview！

2/11/2025 4:17:42 PM

新智元

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。

2/11/2025 11:55:00 AM

AI在线

一文读懂！DeepSeek超简易本地部署教程

概述DeepSeek-R1模型在各项指标直逼甚至超越OpenAI及同类产品，迅速成为业界焦点。更令人惊喜的是该模型基于MIT协议免费开源，允许任何公司或个人自由商用，无需任何授权限制，一时间在AI界掀起了巨大波澜。最近DeepSeek服务被外海攻击，有时候无法访问，既然DeepSeek-R1是开源的，那么我们其实可以部署自己的DeepSeek-R1模型，如果再结合Webman AI，效果将更加完美。

2/11/2025 9:29:07 AM

walkor

DeepSeek下棋靠忽悠赢了ChatGPT，网友：孙子兵法都用上了

家人们，要笑不活了。 DeepSeek跟ChatGPT下了一把国际象棋，然后……通过忽悠的方式，竟让ChatGPT直接认输！ DeepSeek在这场对决中有多离谱呢？

2/8/2025 1:40:00 PM

量子位

山姆·奥特曼揭秘：Deepseek R1性价比之选！

在当今的人工智能领域，大模型之间的竞争日益激烈。 Deepseek 推出的 R1 模型引起了广泛关注。山姆·奥特曼评价道：“Deepseek 的 R1 是一个令人印象深刻的模型，尤其是在他们能够以这个价格提供的东西方面。

2/8/2025 11:31:17 AM

AGI

图解系列｜DeepSeek-R1的出众推理能力因何而来？

图片DeepSeek-R1 代表了人工智能发展的又一重要里程碑。对于机器学习领域的研究人员与开发者群体而言，这次发布之所以备受关注，主要有以下两点：首先，这是一款开源权重的模型，并且提供了更小的、经过蒸馏的版本；其次，它公布并深入探讨了训练方法，该方法能够复现类似于 OpenAI O1 的推理模型。本文将带您了解这一模型的构建过程。

2/8/2025 9:44:11 AM

追求卓越的

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了如何用AI做好情感化设计？来看大厂的实战案例！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型