感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

作者：问舟 2025-03-20 06:36

Predibase 表示，DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响，让很多人意识到强化学习微调对训练大模型的重要性。受此启发，他们开发了这个端到端无服务器强化微调平台。

昨日晚间，大模型训练、开发平台 Predibase 发布了首个端到端强化微调平台（RFT）。

与传统的监督式微调相比，RFT 不依赖大量的标注数据，而是通过奖励和自定义函数来完成持续地强化学习，同时支持无服务器和端到端训练方法，从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器，设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

为了展示 RFT 的强大，Predibase 根据阿里开源的 Qwen2.5-Coder-32B-instruct，微调了一个专门用于将 PyTorch 代码翻译为 Triton 的模型 Predibase-T2T-32B-RFT。

感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

与传统的监督式微调方法不同，Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为，以最少的标记数据优化下游任务质量。这使其成为专有 LLM 的高性价比、高性能替代方案。

通过 RFT，Predibase 在训练过程结合了冷启动监督式微调、强化学习和课程学习，并且只使用了十几个标记数据点。

在 Kernelbench 数据集上进行的基准测试显示，Qwen2.5-Coder-32B-instruct 经过强化后，其正确率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍，比 Claude 3.7 Sonnet 高出 4 倍以上，而模型的体量却比这三个小很多。

AI在线附开源地址：https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址：https://predibase.com/reinforcement-fine-tuning-playground

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型，全世界已经陷入了没日没夜的大讨论。从它的模型能力是否真的先进，到是不是真的只用了 550W 进行训练，再到神秘的研究团队，每个角度都是话题。

2/5/2025 2:37:00 PM

机器之心

程序员购买OGOpenAI.com域名转向DeepSeek

最近，一名软件工程师以 “不到一顿 Chipotle 餐的价格” 购买了 OGOpenAI.com 域名，并将其重定向至中国人工智能实验室 DeepSeek 的网站。该实验室在开源 AI 领域崭露头角，吸引了广泛的关注。据软件工程师阿纳奈・阿罗拉（Ananay Arora）向《TechCrunch》透露，他的初衷是为了支持 DeepSeek，因为该实验室最近推出了一款名为 DeepSeek-R1的开放版本模型，声称在某些基准测试中表现优于 OpenAI 的 o1。

1/23/2025 4:32:00 PM

AI在线

腾讯云上线DeepSeek全系API接口并打通联网搜索

腾讯云宣布完成对深度求索（DeepSeek）大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口，并创新性接入自研大模型知识引擎，同步开放联网搜索能力。凭借腾讯云在推理并发和生成速率等方面的优化，用户可以获得更加稳定、安全、低门槛的使用体验。开发者只需在云上简单三步即可实现API接口调用，并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力，灵活构建专属的AI服务。

2/8/2025 2:09:00 PM

AI在线

感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

相关资讯

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

程序员购买OGOpenAI.com域名转向DeepSeek

腾讯云上线DeepSeek全系API接口并打通联网搜索