文章列表
ChatGPT会员北美大学生全免费,持续一个月,AI帮你过期末考试
本周五凌晨,OpenAI CEO 山姆・奥特曼宣布了一个令人兴奋的消息。 从现在开始,ChatGPT Plus(原价每月 20 美元)面向美国和加拿大的大学生免费了,时长持续一个月。 只要是美国和加拿大授予学位学校的全日制和非全日制学生均有资格享受此优惠。
4/4/2025 6:25:00 PM
机器之心
Midjourney 发布 AI 图片生成模型 V7,可“吟唱”生图
在“草图模式”下,用户可以使用语音识别生成功能,只需要在启用“草图模式”后点击麦克风图标,即可通过语音实时塑造图片。
4/4/2025 4:46:34 PM
潞源(实习)
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
这会是 DeepSeek R2 的雏形吗? 本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。 当前,强化学习(RL)已广泛应用于大语言模型(LLM)的后期训练。
4/4/2025 1:56:00 PM
机器之心
仅需10万不到,DeepSeek R1 671B大模型本地部署实战指南
最近帮一个朋友部署本地的671b版本的deepseek r1,需求是要完全本地部署,但是又不想花太高的成本,没有并发要求,我一想,用ktransformers框架来部署完全合适。 关于机器配置,在挑挑拣拣评比之后,设备选择如下,最终选择的是其中的服务器配置。 这套设备下来总成本不到10万,相比如动辄几百万的满血版deepseek R1或者花个五六十万买个deepseek 70b的一体机要值当的多,且不说70b并不是真正的deepseek r1,效果还不如32b的QWQ,就光说一体机的升级也是个麻烦事,买了机器基本就和模型绑定了,以后新模型出来后想升级就难了。
4/3/2025 3:57:48 PM
贝塔街的万事屋
机器学习|从0开发大模型之复现DeepSeek的aha moment
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合一些开源的方案复现aha monent,并给出完整的代码和工具链。 1、什么是 aha monent DeepSeek-R1 论文中提到,模型让作者「见证了强化学习的力量和美感」,在DeepSeek-R1-Zero的中间版本,「顿悟时刻」来了:模型学会了以人类的语气进行反思。 aha monent 2、使用什么的基座模型和训练数据 由于显卡只有48G,可以用基座模型Qwen2.5,模型大小:0.5B,1.5B,3B训练数据有很多:(可以直接在huggingface上找到) a.AI-MO/NuminaMath-TIR:包括72K行的数学问题,解决方案和答案,是从 NuminaMath-CoT 数据集提炼出来的 b.
4/3/2025 3:46:53 PM
周末程序猿
机器学习|从0开发大模型之DeepSeek的GRPO
DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩,论文发表于2024年2月份:,以下是该论文的摘要原文:复制翻译如下:复制对比数据1、什么是GRPOGRPO 是一种在线学习算法,核心思想是通过组内相对奖励来估计基线,从而避免使用额外的价值函数模型。 通过在训练期间使用受训模型自身生成的数据来迭代改进,GRPO 旨在最大化生成补全的优势,同时确保模型保持接近参考策略,下图是论文中的算法流程图:GRPOGRPO 是 PPO (Proximal Policy Optimization,近端策略优化,是一种强化学习算法,由OpenAI于2017年提出,旨在解决策略梯度方法中的训练不稳定问题) 的变体,主要区别是:GRPO 省略 value function modelGRPO 奖励计算,改成了一个 q 生成多个 r,然后 reward 打分GRPO算法流程:采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练,逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练,参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。
4/3/2025 3:40:41 PM
周末程序猿
OpenAI 持续迈步营利性公司,将组建专家小组听取各界意见、直面挑战
OpenAI 表示,该小组将广泛听取医疗、科学、教育和公共服务领域的意见,尤其是来自 OpenAI 总部所在的加利福尼亚州的行业领袖和社区代表。
4/3/2025 3:14:53 PM
清源
OpenAI的AI复现论文新基准,Claude拿了第一名
近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。 今年 3 月 12 日,Sakana AI 宣布他们推出的 AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。 这是 AI 科学家写出的首篇通过同行评审的科研论文!
4/3/2025 1:59:00 PM
机器之心
人类赢了!OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类,上演机器学习届“神仙打架”;R1排第三,Claude夺冠
编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)深夜,OpenAI再次发力Agent领域,开源了一个全新的AI Agent评测基准—— PaperBench。 这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。 智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、构建代码库并成功执行实验。
4/3/2025 1:35:49 PM
李美涵
Dify+大模型:重构企业基因的“数智引擎”——解锁AI工业化落地新范式
当AI开发进入“流水线时代”2025年,全球企业AI应用开发呈现“冰火两重天”:一边是OpenAI、DeepSeek等大模型参数突破百万亿级,另一边却是78%的企业困在“PPT智能”阶段——AI应用开发周期长、场景碎片化、数据孤岛难破。 Dify与大模型的结合,正在打破这一僵局。 它不仅是工具,更是企业AI能力工业化的流水线,让大模型从“技术狂欢”走向“价值落地”。
4/3/2025 1:07:50 PM
推推君
终于坐不住了!Midjourney V7全新版本亮出王牌!
最近AI圈可太热闹了。 随着什么都会的GPT-4o横空出世,大家都忙着让它画画去了。 我前几天刷朋友圈,十条有八条都在晒GPT-4o画的吉卜力风,剩下两条还在求画教程….
4/3/2025 12:38:44 PM
彭彭
为什么AI需要向量数据库?
大模型火遍全球,DeepSeek、OpenAI、谷歌、百度、抖音等科技巨头争相发布自家产品。 多数人会想当然认为,大模型越大越强大,参数量越多就越聪明。 现实呢?
4/3/2025 11:04:40 AM
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
OpenAI承认Claude是最好的了(狗头)。 刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。 与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务。
4/3/2025 10:21:32 AM
量子位
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办?
4/3/2025 9:23:08 AM
量子位
那些用ChatGPT实现10倍开发效率的顶级程序员,到底做对了什么?
大部分人都错了。 你刚刚发给ChatGPT那条“帮我写个函数实现xxx”的泛泛提示? 删了吧。
4/3/2025 8:36:31 AM
dev
OpenAI o3 模型运行成本估算大幅上调:单次任务从 3000 美元涨至 3 万美元
Arc Prize Foundation 大幅上调 OpenAI o3 模型运行成本估算,从 3000 美元涨至 3 万美元。高昂成本凸显 AI 模型特定任务的高成本难题,控制成本成行业挑战。##AI模型成本##
4/3/2025 7:59:45 AM
远洋
AI算法 | 训练数据的数量、质量及语言分布等因素对中文大模型性能的影响
已有LLM研究探索了训练数据对模型性能的影响,但这些研究大多集中在英文模型上,对于中文模型的研究相对较少。 今天来看一篇来自贝壳的研究团队在2023年的一篇工作——《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》。 这篇工作的核心目标是提升中文指令跟随语言模型的性能。
4/3/2025 7:00:00 AM
Goldma
谷歌 AI 笔记应用 NotebookLM 新增“发现资料”功能,可自动检索相关网络资源
谷歌NotebookLM推出“发现资料”新功能,基于Gemini技术自动搜索网络资源,提升学习研究效率。用户只需输入兴趣点,AI即可推荐相关资源并生成摘要。#AI学习工具##NotebookLM#
4/3/2025 6:50:40 AM
远洋