AIGC宇宙 AIGC宇宙

模型

DeepSeek官方发布R1模型推荐设置,这才是正确用法

自春节以来,DeepSeek 就一直是 AI 领域最热门的关键词,甚至可能没有之一,其官方 App 成为了史上最快突破 3000 万日活的应用。 最近一段时间,各家 AI 或云服务厂商更是掀起了部署 DeepSeek-R1 服务的狂潮,甚至让薅羊毛的用户们都有点忙不过来了。 就在刚刚,DeepSeek 官网 X 帐号终于更新了(上一次更新还是在 1 月 28 日),官方下场推荐了部署 DeepSeek-R1 的设置。
2/17/2025 7:35:00 AM
机器之心

模型过剩危机:OpenAI壮士断腕,能否终结开发者'选择恐惧症'?

OpenAI要“动手”了,它计划对自己的模型产品阵容来一场大“瘦身”!就在它准备推出最后一个非推理模型GPT-4.5之际,这家科技巨头罕见地承认,之前的产品发布在客户眼里竟然没啥区别,这让市场有点懵。 OpenAI的首席执行官萨姆·奥特曼最近在X平台上更新了产品路线图,他坦诚地说,公司最近的一些发布确实让市场感到有点困惑。 “我们得把预定路线图分享得更清楚,还得在产品阵容简化上多下点功夫。
2/14/2025 11:25:45 AM
Emilia David

一文带你看懂开源大模型基石LLaMA核心技术点,DeepSeek/千问等LLM的模型结构基础

LLaMA是目前很多SOTA开源大模型的基础,包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。 因此,LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。 这篇文章就给大家汇总一下LLaMA的核心模型结构。
2/14/2025 1:00:00 AM
Fareise

手把手教你找免费AI服务:搜公开的DeepSeek模型接口

网上很多教程教你怎么自己搭 AI 模型,但今天我要教大家一个野路子——用搜索引擎直接找别人已经搭好的 AI(Ollama)服务(前提是合法使用)。 就像有人忘记关 Wi-Fi,我教你怎么发现这些"公共资源"。 一、用 Fofa 找公开的 AI 服务Fofa 是什么?
2/14/2025 12:00:00 AM
wayn

DeepSeek 系列模型详解之——DeepSeek LLM

DeepSeek LLM发布于2024年1月,收集了2万亿个词元用于预训练,在模型层面沿用了LLaMA的架构,并将余弦退火学习率调度器替换为多阶段学习率调度器,便于持续训练。 并从多种来源收集了超过100万个实例进行监督微调(SFT)。 此外,利用直接偏好优化(DPO)技术进一步提升模型的对话能力。
2/13/2025 11:00:30 AM
小喵学AI

DeepSeek 私有部署最强指南:满血推理,异构多机分布式,国产显卡无缝支持!

还还在为DeepSeek模型部署的各种难题抓狂? 各种教程的下载分片、合并模型、编译环境……这些繁琐的操作是不是让你头大? DeepSeek R1 火了,私有部署需求暴增,教程满天飞,但实际操作起来却麻烦得要命!
2/13/2025 10:12:27 AM
AI寒武纪

o3拿下IOI 2024金牌!新论文公布RL秘诀:AI自己设计测试时推理策略,无需人类干预

IOI 2024金牌,OpenAI o3轻松高分拿下! 刚刚,OpenAI发布了关于推理模型在竞技编程中应用的研究论文报告,论文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具体成绩。 三兄弟分别是OpenAI o1、o1-ioi(以o1为基础微调等改进而来)、o3,三者成绩如下。
2/13/2025 9:20:00 AM
量子位

OpenAI放王炸!GPT-5免费无限使用,产品矩阵大整合!

今天凌晨3点,OpenAI首席执行官Sam Altman公布了GPT-4.5和GPT-5的炸裂消息。 Altman表示,OpenAI很快发布GPT-4.5,就是传说中的猎户座模型(Orion),也是最后一个非思维链模型。 接着会整合GPT和O系列两大模型打造一个全新的系统,能自动选择思考和非思考功能,适用于多种任务。
2/13/2025 9:15:00 AM
AIGC开放社区

刚刚,奥特曼剧透GPT-4.5、GPT-5重大更新,o3取消独立发布

奥特曼深夜一则推文,在网络上掀起了讨论狂潮。 没有一点点预告,奥特曼亲自公布自家产品路线图,并承认公司最近发布的一些产品有些混乱。 推文透露,OpenAI 的下一步是发布 GPT-4.5,这是其最后一个非思维链 (CoT) 模型。
2/13/2025 9:10:47 AM
机器之心

几个免费使用 DeepSeek 的渠道,告别「服务器繁忙,请稍后再试」

在眼下这个时间点,AI 已经不是什么稀缺资源了,这当然和最近爆火的 DeepSeek 有很大关系,尤其春节那几天,无论是北上广还是小县城甚至农村,无论是985高材生还是村里的叔叔大爷,都用上了 AI 大模型,而且是能力排在第一梯队的大模型,也就是 DeepSeek-R1。 之所以说在这以前,AI 还是稀缺资源,那是因为公认的第一梯队的大模型产品基本上都是国外的,而想要使用国外的产品,对于普通人来说,门槛还是非常高的。 而国内虽然也有不少免费的产品,但是整体来说,还是差点意思的。
2/13/2025 12:10:00 AM
风筝

淘宝卖DeepSeek安装包一月赚数十万???我们免费教你本地部署DeepSeek-R1

当看到这条消息时,机器之心编辑部陷入了集体沉默。 作为一个免费开源的模型,DeepSeek 竟能让倒卖商如此大赚特赚,也着实让人震惊。 而这也从侧面佐证了 DeepSeek 模型引发的本地部署热潮是多么汹涌。
2/12/2025 1:23:47 PM
机器之心

推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考

开源推理大模型新架构来了,采用与Deepseek-R1/OpenAI o1截然不同的路线:抛弃长思维链和人类的语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。 例如问题:Claire每天早餐都会做一个3个鸡蛋的煎蛋卷。 她在4周内会吃多少个鸡蛋?
2/12/2025 9:00:00 AM
量子位

4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

强化学习迎来重大突破! 近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。 在AIME2024基准中,模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%,而且在只有1.5B参数的情况下超越了OpenAI o1-preview!
2/11/2025 4:17:42 PM
新智元

全球开源大模型榜单揭晓,阿里通义千问独占鳌头

近日,全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜(Open LLM Leaderboard),结果显示,排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。 这一成就标志着 Qwen 在开源 AI 领域的主导地位,进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单,测试维度涵盖了多个领域,包括阅读理解、逻辑推理、数学计算及事实问答等。
2/11/2025 11:55:00 AM
AI在线

一文读懂!DeepSeek超简易本地部署教程

概述DeepSeek-R1模型在各项指标直逼甚至超越OpenAI及同类产品,迅速成为业界焦点。 更令人惊喜的是该模型基于MIT协议免费开源,允许任何公司或个人自由商用,无需任何授权限制,一时间在AI界掀起了巨大波澜。 最近DeepSeek服务被外海攻击,有时候无法访问,既然DeepSeek-R1是开源的,那么我们其实可以部署自己的DeepSeek-R1模型,如果再结合Webman AI,效果将更加完美。
2/11/2025 9:29:07 AM
walkor

DeepSeek下棋靠忽悠赢了ChatGPT,网友:孙子兵法都用上了

家人们,要笑不活了。 DeepSeek跟ChatGPT下了一把国际象棋,然后……通过忽悠的方式,竟让ChatGPT直接认输! DeepSeek在这场对决中有多离谱呢?
2/8/2025 1:40:00 PM
量子位

山姆·奥特曼揭秘:Deepseek R1性价比之选!

在当今的人工智能领域,大模型之间的竞争日益激烈。 Deepseek 推出的 R1 模型引起了广泛关注。 山姆·奥特曼评价道:“Deepseek 的 R1 是一个令人印象深刻的模型,尤其是在他们能够以这个价格提供的东西方面。
2/8/2025 11:31:17 AM
AGI

图解系列|DeepSeek-R1的出众推理能力因何而来?

图片DeepSeek-R1 代表了人工智能发展的又一重要里程碑。 对于机器学习领域的研究人员与开发者群体而言,这次发布之所以备受关注,主要有以下两点:首先,这是一款开源权重的模型,并且提供了更小的、经过蒸馏的版本;其次,它公布并深入探讨了训练方法,该方法能够复现类似于 OpenAI O1 的推理模型。 本文将带您了解这一模型的构建过程。
2/8/2025 9:44:11 AM
追求卓越的