模型训练

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

群组相对策略优化（Group Relative Policy Optimization，GRPO）已被证明是一种有效的算法，可用于训练大语言模型（LLMs），使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调（Supervised Fine-Tuning）与 GRPO 技术的结合，引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。为了进一步探索其实践应用，我们尝试将这些技术应用于现实场景中。

4/7/2025 2:25:00 AM

优设专访忠忠：从设计师到SD模型训练师的跨界之路

7/4/2024 7:53:12 AM

优设专栏主编

超详细！写给设计师的LoRa模型训练SOP

写在前面：在推进 AIGC 技术在我们业务中的应用过程中，我发现许多同事，特别是设计师和跨部门协作的团队，对 LoRA 模型在图像生成中的真正价值理解还不够深入。我们似乎更多地停留在"别人在做,我也要做"的从众心态，而没有真正认识到 LoRA 模型的战略意义和变革潜力。这种认知差距可能会导致我们在实践中走一些弯路，无法充分发挥 LoRA 模型的优势，也难以实现 AIGC 技术在业务中的最大化赋能。因此，我针对 LoRA 模型训练流程进行了系统梳理和优化，希望能给大家一些启发，帮助我们更好地理解和应用这一强大的工

4/8/2024 6:51:01 AM

NIC

资讯热榜

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔实测700多张图！深度测评最懂设计的AI生图模型：Ideogram 3.0

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI Copilot 人形机器人神器推荐具身智能 LLaMA 大语言模型字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构