Ollama与vLLM部署对比：哪个更合适？

作者：耗子

2025-04-09 08:20

Ollama：简单易用的LLM部署工具 Ollama以其简洁的安装和易于使用的特性而闻名。其官方文档清晰易懂，即使是新手也能快速上手。 Ollama支持多种LLM模型，并提供便捷的命令行界面进行管理和运行。

Ollama：简单易用的LLM部署工具

Ollama以其简洁的安装和易于使用的特性而闻名。其官方文档清晰易懂，即使是新手也能快速上手。Ollama支持多种LLM模型，并提供便捷的命令行界面进行管理和运行。其核心优势在于：

简单安装：Ollama的安装过程非常简单，只需几条命令即可完成，无需复杂的配置。
易于使用：Ollama提供友好的用户界面和命令行工具，方便用户管理和运行LLM模型。
跨平台支持：Ollama支持macOS、Windows和Linux系统，具有良好的跨平台兼容性。
内存占用少：相较于其他一些部署方案，Ollama对内存的占用相对较少，这对于资源受限的设备来说非常友好。

然而，Ollama也存在一些不足之处：

并发限制：Ollama的并发处理能力相对有限，需要根据实际需求调整最大并发数。
国内网络环境：由于服务器在国外，国内用户在下载和使用过程中可能会遇到网络速度慢的问题。

Ollama安装示例（Linux）：

复制

curl -fsSL https://ollama.com/install.sh | sh

Ollama运行示例：

ollama run qwen2.5:32b-instruct

如果遇到网络问题的解决办法,可以修改下载源

打开 ollama_install.sh，找到以下两个下载地址：

复制

https://ollama.com/download/ollama-linux-${ARCH}${VER_PARAM}
https://ollama.com/download/ollama-linux-amd64-rocm.tgz${VER_PARAM}

我们要将这两个地址替换成 GitHub 的下载链接。但直接使用 GitHub 可能依旧缓慢，因此我们推荐使用 GitHub 文件加速服务。

使用以下脚本来修改下载源：

复制

#!/bin/bash


# 文件路径
FILE="ollama_install.sh"


# 修改 URL
sed -i 's|https://ollama.com/download/ollama-linux-${ARCH}${VER_PARAM}|https://github.moeyy.xyz/https://github.com/ollama/ollama/releases/download/v0.3.4/ollama-linux-amd64|g' $FILE
sed -i 's|https://ollama.com/download/ollama-linux-amd64-rocm.tgz${VER_PARAM}|https://github.moeyy.xyz/https://github.com/ollama/ollama/releases/download/v0.3.4/ollama-linux-amd64-rocm.tgz|g' $FILE

最终，把下载地址改为：

复制

https://github.moeyy.xyz/https://github.com/ollama/ollama/releases/download/v0.3.4/ollama-linux-amd64
https://github.moeyy.xyz/https://github.com/ollama/ollama/releases/download/v0.3.4/ollama-linux-amd64-rocm.tgz

vLLM：高性能LLM推理引擎

vLLM是一个专注于高性能LLM推理的工具。它能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。vLLM的主要优势在于：

高推理速度：vLLM在推理速度方面表现出色，能够快速生成LLM的输出。
资源利用率高：vLLM能够充分利用多核CPU和GPU资源，提升资源利用率。
灵活配置：vLLM允许用户根据实际需求灵活配置参数，例如模型路径、端口号等。

但是，vLLM的上手难度相对较高：

配置复杂：vLLM的配置相对复杂，需要用户具备一定的技术基础。
显存占用更大：相比于ollama的显存占用,vLLM占用的更大。

vLLM安装示例：

复制

pip install vllm

vLLM运行示例：

复制

vllm serve --host 0.0.0.0 --port 8080 --model-path /path/to/model

总结

Ollama和vLLM各有千秋，选择哪种方案取决于具体需求。如果需要一个简单易用、快速部署的LLM解决方案，并且对推理速度要求不高，那么Ollama是不错的选择。如果追求高性能的LLM推理，并且具备一定的技术基础，那么vLLM更适合。

使用vLLM部署工具加速QWQ，推理速度比ollama更快、并发更高

与传统的HuggingFace Transformers相比，vLLM的吞吐量高达24倍，且无需改变模型架构，它采用创新的PagedAttention算法，优化了注意力键和值的管理，从而提升了推理速度，并且其能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。相比于ollama，vllm输出的速度更快，支持的并发更高，目前也没有遇到安全问题，稳定性非常好，更适合作为服务器的接口服务来部署。但相应的，vllm会把服务器的GPU显存都占满，使得机器无法再部署其他服务，同时ollama部署更加的简单，也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些，因此个人使用可能ollama更合适。

4/9/2025 10:47:02 AM

贝塔街的万事

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

最近，大语言模型（LLM）的部署已经成为 AI 开发者绕不开的核心技能。而 VLLM 作为一款高性能、低延迟的推理引擎，在大模型推理领域迅速崛起。今天，我就带大家从零开始，在 Ubuntu 22.04 RTX 4090 Docker 环境下，部署 DeepSeek模型，并让它跑起来！

3/12/2025 12:37:50 PM

写代码的中年人

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型

vLLM（Virtual Large Language Model）是由加州大学伯克利分校团队开发的高性能大模型推理框架，其核心特点围绕显存优化、高吞吐量、灵活性和易用性展开。对比 ollama 作为个人开发者部署模型工具而言，vLLM 专注于高并发请求和大规模生产环境，适用于企业级应用和需要高效推理的场景。 vLLM 通过优化内存管理和并发处理，适合处理高负载的生产环境。

4/9/2025 3:25:00 AM

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

Ollama与vLLM部署对比：哪个更合适？

Ollama：简单易用的LLM部署工具

vLLM：高性能LLM推理引擎

总结

相关资讯

使用vLLM部署工具加速QWQ，推理速度比ollama更快、并发更高

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型