使用vLLM部署工具加速QWQ，推理速度比ollama更快、并发更高

2025-04-09 10:47

与传统的HuggingFace Transformers相比，vLLM的吞吐量高达24倍，且无需改变模型架构，它采用创新的PagedAttention算法，优化了注意力键和值的管理，从而提升了推理速度，并且其能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。相比于ollama，vllm输出的速度更快，支持的并发更高，目前也没有遇到安全问题，稳定性非常好，更适合作为服务器的接口服务来部署。但相应的，vllm会把服务器的GPU显存都占满，使得机器无法再部署其他服务，同时ollama部署更加的简单，也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些，因此个人使用可能ollama更合适。

与传统的HuggingFace Transformers相比，vLLM的吞吐量高达24倍，且无需改变模型架构，它采用创新的PagedAttention算法，优化了注意力键和值的管理，从而提升了推理速度，并且其能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。

相比于ollama，vllm输出的速度更快，支持的并发更高，目前也没有遇到安全问题，稳定性非常好，更适合作为服务器的接口服务来部署。

但相应的，vllm会把服务器的GPU显存都占满，使得机器无法再部署其他服务，同时ollama部署更加的简单，也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些，因此个人使用可能ollama更合适。

关于vllm和ollama的对比可以看文章：ollama和vllm部署对比那个更合适

vLLM本地环境准备

vllm需要使用最新的0.7.3版本，支持思考过程增加<think>标签。

建议用conda新建一个环境来安装

复制

pip install vllm==0.7.3

python环境我这里使用的是python3.8，显卡为a40显卡40g显存版本。

模型权重下载

因为网络问题，建议在阿里魔塔社区下载QWQ模型。

选择好对应的版本后，使用pip安装modelscope，便可以下载选中的版本模型了：

复制

from modelscope import snapshot_download 
model_dir = snapshot_download('qwen/QWQ-32B')

vLLM部署运行模型

因为之前已经配置好vLLM的环境，所以使用以下命令可以运行模型：

复制

/root/miniconda3/envs/vllm/bin/python  
-m vllm.entrypoints.openai.api_server 
--served-model-name qwq-32b 
--model /root/.cache/modelscope/hub/qwen/QWQ-32B

参数解析：

模型路径：--model /root/.cache/modelscope/hub/qwen/QWQ-32B

模型名称：–served-model qwq-32b

QWQ的推理效果可以查看文章 QwQ总结能力测评，32b小模型真能超过deepseek吗

写在最后

2025年的今天，AI创新已如井喷，几乎每天都有新的技术出现。作为亲历三次AI浪潮的技术人，我坚信AI不是替代人类，而是让我们从重复工作中解放出来，专注于更有创造性的事情，关注我们公众号口袋大数据，一起探索大模型落地的无限可能！

Ollama与vLLM部署对比：哪个更合适？

Ollama：简单易用的LLM部署工具 Ollama以其简洁的安装和易于使用的特性而闻名。其官方文档清晰易懂，即使是新手也能快速上手。 Ollama支持多种LLM模型，并提供便捷的命令行界面进行管理和运行。

4/9/2025 8:20:00 AM

耗子

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

最近，大语言模型（LLM）的部署已经成为 AI 开发者绕不开的核心技能。而 VLLM 作为一款高性能、低延迟的推理引擎，在大模型推理领域迅速崛起。今天，我就带大家从零开始，在 Ubuntu 22.04 RTX 4090 Docker 环境下，部署 DeepSeek模型，并让它跑起来！

3/12/2025 12:37:50 PM

写代码的中年人

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型

vLLM（Virtual Large Language Model）是由加州大学伯克利分校团队开发的高性能大模型推理框架，其核心特点围绕显存优化、高吞吐量、灵活性和易用性展开。对比 ollama 作为个人开发者部署模型工具而言，vLLM 专注于高并发请求和大规模生产环境，适用于企业级应用和需要高效推理的场景。 vLLM 通过优化内存管理和并发处理，适合处理高负载的生产环境。

4/9/2025 3:25:00 AM

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布GPT-4.1指令提示工程指南

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

顶部

使用vLLM部署工具加速QWQ，推理速度比ollama更快、并发更高

vLLM本地环境准备

模型权重下载

vLLM部署运行模型

写在最后

相关资讯

Ollama与vLLM部署对比：哪个更合适？

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型