AIGC宇宙 AIGC宇宙

模型训练

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

群组相对策略优化(Group Relative Policy Optimization,GRPO)已被证明是一种有效的算法,可用于训练大语言模型(LLMs),使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调(Supervised Fine-Tuning)与 GRPO 技术的结合,引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。 为了进一步探索其实践应用,我们尝试将这些技术应用于现实场景中。
4/7/2025 2:25:00 AM

超详细!写给设计师的LoRa模型训练SOP

写在前面: 在推进 AIGC 技术在我们业务中的应用过程中,我发现许多同事,特别是设计师和跨部门协作的团队,对 LoRA 模型在图像生成中的真正价值理解还不够深入。我们似乎更多地停留在"别人在做,我也要做"的从众心态,而没有真正认识到 LoRA 模型的战略意义和变革潜力。 这种认知差距可能会导致我们在实践中走一些弯路,无法充分发挥 LoRA 模型的优势,也难以实现 AIGC 技术在业务中的最大化赋能。因此,我针对 LoRA 模型训练流程进行了系统梳理和优化,希望能给大家一些启发,帮助我们更好地理解和应用这一强大的工
4/8/2024 6:51:01 AM
NIC
  • 1