AIGC宇宙 AIGC宇宙

DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性

作者:AI在线
2025-04-05 10:01

相关资讯

深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐

继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中,复旦团队揭示了 RLHF 在大语言模型中的基本框架,并深入分析了 PPO 算法的内部机制,特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。现在,复旦团队进一步挖掘 RLHF 的潜力,重点关注奖
1/15/2024 4:23:00 PM
机器之心

DeepSeek R2 或于3月17日发布,将撼动Claude Sonnet 3.7的地位

根据X平台上的最新消息,DeepSeek下一代AI模型DeepSeek R2或将于3月17日正式发布。 这一消息迅速引发业界关注,许多人认为这一新模型可能会对现有AI巨头,如Anthropic的Claude Sonnet3.7,构成强有力的挑战。 据X用户 tanvitabs 今日凌晨发布的帖子透露,DeepSeek R2宣称在多个关键领域实现突破,包括更出色的编程能力、多语言推理能力,以及以更低的成本提供更高的准确性。
3/11/2025 8:51:00 AM
AI在线