字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

2025-04-12 01:46

字节跳动Seed团队推出VAPO强化学习框架，针对大型语言模型在复杂任务中的推理能力进行优化。VAPO通过三项创新技术，显著提升模型性能，在AIME24基准测试中得分从5分跃升至60.4分。#AI技术# #字节跳动#

字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力。

现有挑战

在大型语言模型（LLM）的强化学习（RL）训练中，价值导向方法（Value-based reinforcement learning methods）因能精确追溯每个动作对后续回报的影响，展现出巨大潜力。然而，应用于长链式推理（CoT）任务时，价值模型面临三大挑战。

首先，价值模型初始化会引入偏差；其次，传统方法难以适应复杂任务中的序列长度差异；最后，验证任务中奖励信号稀疏，优化过程面临探索与利用的权衡，这些问题限制了价值导向方法的实际效果。

VAPO 简介

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd（增强价值的近端政策优化），基于 PPO 框架，通过三项创新技术应对上述挑战。

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

首先，VAPO 模型构建了细致的价值训练框架，增强模型对复杂任务的理解。其次，引入长度自适应广义优势估计（GAE）机制，能根据响应长度动态调整参数，优化长短序列的训练效果。最后，VAPO 整合了多项先前研究技术，形成协同增效的系统。

在不依赖特定监督微调（SFT）数据的情况下，Qwen2.5-32B 模型通过 VAPO 优化后，在 AIME24 基准测试中将得分从 5 分提升至 60.4 分，超越 DeepSeek R1 的 47 分，超过此前 SOTA 方式 DAPO（50 分）10 分，仅用 60% 的更新步骤即达成业界领先。

相较于传统 Proximal Policy Optimization（PPO）算法，VAPO 改进了数学推理能力，训练曲线更为平滑，优化过程更稳定。

测试显示，归因于其价值模型提供的细粒度信号，VAPO 在长序列任务中表现出色，得分增长更快。尽管后期训练熵值降低可能限制探索，VAPO 通过平衡设计确保了稳定性和可重复性。

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性：价值预训练防止崩溃，解耦 GAE 支持长回答优化，自适应 GAE 平衡短长回答，剪裁策略鼓励探索，词级损失增加长回答权重，正例语言模型损失提升 6 分，分组采样贡献 5 分。

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

这些改进使 VAPO 在探索与利用间找到最佳平衡，显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力，还为 LLM 在复杂推理任务中的应用提供了新方向。

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

通过高保真合成语音与真人语音无异。首先来听一段《凡人修仙传》：你猜的没错，这段有声书并非来自某个专业制作团队，而是一个 AI 模型 Seed-TTS，而这个模型则是来自字节跳动的 Seed Team。TTS 是指文本转语音，这是一种具备诸多妙用的技术，像是让个人智能助理说话、为视频或游戏配音、辅助视障人士、制作有声书等等。对于 TTS 技术研发者来说，流畅自然的表达一直以来都是值得追求的重要目标。字节跳动 Seed Team 发布的 Seed-TTS 不只是一个模型，而是一整个模型系列。论文标题：Seed-TTS:

6/18/2024 3:10:00 PM

机器之心

字节启动AGI长期研究计划，代号Seed Edge

1月23日，据媒体报道，字节豆包大模型团队已在内部组建AGI长期研究团队，代号“Seed Edge”，鼓励项目成员探索更长周期、具有不确定性和大胆的AGI研究课题。接近字节的知情人士透露，Seed Edge的目标是探索AGI的新方法，代号名中Seed是豆包大模型团队名称，Edge代表最前沿的AGI探索。 Seed Edge鼓励跨模态、跨团队合作，为项目成员提供宽松的研究环境，实行采用更长周期的考核方式，以保障挑战真正颠覆性的AGI课题。

1/23/2025 9:29:00 AM

新闻助手

消息称字节AI 核心部门Seed大调整，吴永辉博士或成核心人物

据多位接近字节跳动的人士透露，字节跳动的 AI 核心部门 Seed 正在经历快速的战略调整和人事变动。刚刚从谷歌加入字节跳动的 AI 领域权威专家、曾参与 Gemini 开发的 Google Fellow 吴永辉博士，将接替原 LLM 团队及 Seed 总负责人朱文佳，成为 Seed 部门的新负责人。目前，团队内部正在进行汇报关系的梳理和调整。

2/21/2025 1:57:00 PM

AI在线

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 AI视频用哪个？6个知名的AI视频工具使用测评报告

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

相关资讯

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

字节启动AGI长期研究计划，代号Seed Edge

消息称字节AI 核心部门Seed大调整 ，吴永辉博士或成核心人物

消息称字节AI 核心部门Seed大调整，吴永辉博士或成核心人物