机器学习

机器学习|从0开发大模型之复现DeepSeek的aha moment

前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》，并且实现了一个简单版本的 GRPO 代码，不过从工程领域来看，并没有复现DeepSeek-R1，于是最近申请了48G的显存，结合一些开源的方案复现aha monent，并给出完整的代码和工具链。 1、什么是 aha monent DeepSeek-R1 论文中提到，模型让作者「见证了强化学习的力量和美感」，在DeepSeek-R1-Zero的中间版本，「顿悟时刻」来了：模型学会了以人类的语气进行反思。 aha monent 2、使用什么的基座模型和训练数据由于显卡只有48G，可以用基座模型Qwen2.5，模型大小：0.5B，1.5B，3B训练数据有很多：（可以直接在huggingface上找到） a.AI-MO/NuminaMath-TIR：包括72K行的数学问题，解决方案和答案，是从 NuminaMath-CoT 数据集提炼出来的 b.

机器学习|从0开发大模型之DeepSeek的GRPO

DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩，论文发表于2024年2月份：，以下是该论文的摘要原文：复制翻译如下：复制对比数据1、什么是GRPOGRPO 是一种在线学习算法，核心思想是通过组内相对奖励来估计基线，从而避免使用额外的价值函数模型。通过在训练期间使用受训模型自身生成的数据来迭代改进，GRPO 旨在最大化生成补全的优势，同时确保模型保持接近参考策略，下图是论文中的算法流程图：GRPOGRPO 是 PPO (Proximal Policy Optimization，近端策略优化，是一种强化学习算法，由OpenAI于2017年提出，旨在解决策略梯度方法中的训练不稳定问题) 的变体，主要区别是：GRPO 省略 value function modelGRPO 奖励计算，改成了一个 q 生成多个 r，然后 reward 打分GRPO算法流程：采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练，逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练，参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。

作业帮编程课程体系全新升级深度融合AI知识

2025年3月25日，作业帮编程宣布其课程体系全面升级，推出全新的“AI ”课程体系，旨在助力青少年更好地迎接AI时代。此次升级以培养青少年的科技创新潜质为核心目标，通过深度融合AI知识与应用场景，帮助学生从知识性思维向创造性思维转变。作业帮编程此次升级的课程体系分为八个阶段，每个阶段都融入了AI知识与人工智能技术的应用场景。

利用DeepSeek人工智能和人工智能可解释性预防银行欺诈

分析人工智能驱动的欺诈检测使用XGBoost、SHAP和实时仪表板提高了准确性和透明度，提供了可扩展的解决方案来打击欺诈。随着人工智能（AI）和机器学习（ML）的发展，银行业的欺诈检测取得了显著进展。然而，一个持续存在的挑战是欺诈决策的可解释性——我们如何证明为什么一个特定的交易被标记为欺诈？

科大讯飞出品！人人都能懂的AI大模型科普课

在当今科技飞速发展的时代,一个名为"AIGC"（Al Generated Content，人工智能生成内容）的概念正逐渐走进公众视野，并迅速成为各界热议的话题。无论是社交媒体上的讨论，还是专业论坛中的交流，AIGC都成为了不可忽视的存在。它不仅代表着技术进步的一个重要里程碑，更是预示着未来内容创作方式的一场深刻变革。

PVUW视频分割Workshop@CVPR 2025 | 征稿！比赛！

第四届真实世界下的像素级视频理解挑战赛（The 4th PVUW challenge）主页/Call for Paper：：复杂场景视频目标分割挑战赛（MOSE Challenge）：参赛、数据集下载：：基于动作描述的指向性视频分割挑战赛（MeViS Challenge）：参赛、数据集下载：真实世界下的像素级视频理解（Pixel-level Video Understanding in the Wild, PVUW）挑战赛将于 CVPR 2025 期间在美国田纳西州纳什维尔的 Music City Center 举办。像素级场景理解是计算机视觉中的核心问题之一，旨在识别图像中每个像素的类别、掩码和语义。然而，现实世界是动态的，基于视频的，而非静态的图像状态，因此学习进行视频分割对于实际应用来说更为合理和实用。

历史分水岭：DeepSeek GitHub星数超越OpenAI！大佬揭秘仅用450美元训推理模型

就在刚刚，历史性的一刻出现了。 DeepSeek项目在GitHub平台上的Star数，已经超越了OpenAI。热度最高的DeepSeek-V3，Star数如今已达7.7万。

DeepSeek-R1 模型幻觉问题严重，推理能力与准确性面临挑战

近日，Vectara 的机器学习团队对 DeepSeek 系列的两款模型进行了深入的幻觉测试，结果显示，DeepSeek-R1的幻觉率高达14.3%，显著高于其前身 DeepSeek-V3的3.9%。这表明，在增强推理的过程中，DeepSeek-R1产生了更多不准确或与原始信息不一致的内容。该结果引发了对推理增强大语言模型（LLM）产生幻觉率的广泛讨论。

机器学习|从0开始大模型之模型LoRA训练

1、LoRA是如何实现的? 在深入了解 LoRA 之前，我们先回顾一下一些基本的线性代数概念。 1.1、秩给定矩阵中线性独立的列（或行）的数量，称为矩阵的秩，记为 rank(A) 。

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

编辑 | 萝卜皮OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM），因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES）方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。加拿大温莎大学（University of Windsor）的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在下游任务中嵌入 SMILES 字符串的性能，重点关注两个关键应用：分子特性预测和药物-药物相互作用预测。该研究以「Can

OpenAI和Moderna合作，推进mRNA医学

编辑 | X4 月 24 日，Moderna 和 OpenAI 宣布双方继续开展合作，共同创新，共同愿景是 AI 在未来商业和医疗保健领域的变革潜力。Moderna 是 mRNA 医学领域创建的领导者，自成立以来就一直利用机器学习的力量。强大的数据基础及其强大的学习文化，使公司能够负责任地、无缝地将生成式 AI 集成到其运营中，并利用下一代人工智能创新。双方于 2023 年初开始合作，推出了 Moderna 自己的 ChatGPT 实例（称为 mChat），该实例内部构建于 OpenAI 的 API 之上。自首次亮

面对人工智能和深度学习，设计师到底要如何自处？

一键生成广告、插画、布局、视觉稿，这样的技术和产品在某种意义上几乎已经在我们眼前了。建立一个真正称得上是拥有智能的系统，针对特定受众的需求来生成素材，理解人类的情感和语义中的潜台词，明白行为的概念和美的意义，这仍然还太远。不过，建立一个专门的深度学习系统，自动化的设计流程，能够让设计师从一部分完全手动的工作中解放出来，这是完全可行的。实际上已经有很多新兴的设计素材和设计工具在做这个事情了。比如下面这些以深度学习为驱动力的创新的、自动化设计工具： Colormind.ioColormind 致力于让色彩理论真