AIGC宇宙 AIGC宇宙

Ollama与vLLM部署对比:哪个更合适?

作者:耗子
2025-04-09 08:20
Ollama:简单易用的LLM部署工具 Ollama以其简洁的安装和易于使用的特性而闻名。 其官方文档清晰易懂,即使是新手也能快速上手。 Ollama支持多种LLM模型,并提供便捷的命令行界面进行管理和运行。

Ollama与vLLM部署对比:哪个更合适?

Ollama:简单易用的LLM部署工具 

Ollama以其简洁的安装和易于使用的特性而闻名。其官方文档清晰易懂,即使是新手也能快速上手。Ollama支持多种LLM模型,并提供便捷的命令行界面进行管理和运行。其核心优势在于:   

  • 简单安装:Ollama的安装过程非常简单,只需几条命令即可完成,无需复杂的配置。
  • 易于使用:Ollama提供友好的用户界面和命令行工具,方便用户管理和运行LLM模型。
  • 跨平台支持:Ollama支持macOS、Windows和Linux系统,具有良好的跨平台兼容性。
  • 内存占用少:相较于其他一些部署方案,Ollama对内存的占用相对较少,这对于资源受限的设备来说非常友好。

 然而,Ollama也存在一些不足之处: 

  • 并发限制:Ollama的并发处理能力相对有限,需要根据实际需求调整最大并发数。
  • 国内网络环境:由于服务器在国外,国内用户在下载和使用过程中可能会遇到网络速度慢的问题。

 Ollama安装示例(Linux): 

复制
curl -fsSL https://ollama.com/install.sh | sh

 Ollama运行示例: 

ollama run qwen2.5:32b-instruct

如果遇到网络问题的解决办法,可以修改下载源

打开 ollama_install.sh,找到以下两个下载地址:

复制
https://ollama.com/download/ollama-linux-${ARCH}${VER_PARAM}
https://ollama.com/download/ollama-linux-amd64-rocm.tgz${VER_PARAM}

我们要将这两个地址替换成 GitHub 的下载链接。但直接使用 GitHub 可能依旧缓慢,因此我们推荐使用 GitHub 文件加速服务。

使用以下脚本来修改下载源:

复制
#!/bin/bash


# 文件路径
FILE="ollama_install.sh"


# 修改 URL
sed -i 's|https://ollama.com/download/ollama-linux-${ARCH}${VER_PARAM}|https://github.moeyy.xyz/https://github.com/ollama/ollama/releases/download/v0.3.4/ollama-linux-amd64|g' $FILE
sed -i 's|https://ollama.com/download/ollama-linux-amd64-rocm.tgz${VER_PARAM}|https://github.moeyy.xyz/https://github.com/ollama/ollama/releases/download/v0.3.4/ollama-linux-amd64-rocm.tgz|g' $FILE

最终,把下载地址改为:

复制
https://github.moeyy.xyz/https://github.com/ollama/ollama/releases/download/v0.3.4/ollama-linux-amd64
https://github.moeyy.xyz/https://github.com/ollama/ollama/releases/download/v0.3.4/ollama-linux-amd64-rocm.tgz

 vLLM:高性能LLM推理引擎 

vLLM是一个专注于高性能LLM推理的工具。它能够有效地利用多核CPU和GPU资源,显著提升LLM的推理速度。vLLM的主要优势在于: 

  • 高推理速度:vLLM在推理速度方面表现出色,能够快速生成LLM的输出。
  • 资源利用率高:vLLM能够充分利用多核CPU和GPU资源,提升资源利用率。
  • 灵活配置:vLLM允许用户根据实际需求灵活配置参数,例如模型路径、端口号等。

 但是,vLLM的上手难度相对较高:

  • 配置复杂:vLLM的配置相对复杂,需要用户具备一定的技术基础。
  • 显存占用更大:相比于ollama的显存占用,vLLM占用的更大。 

vLLM安装示例: 

复制
pip install vllm

 vLLM运行示例: 

复制
vllm serve --host 0.0.0.0 --port 8080 --model-path /path/to/model

 总结

Ollama和vLLM各有千秋,选择哪种方案取决于具体需求。如果需要一个简单易用、快速部署的LLM解决方案,并且对推理速度要求不高,那么Ollama是不错的选择。如果追求高性能的LLM推理,并且具备一定的技术基础,那么vLLM更适合。

相关标签:

相关资讯

使用vLLM部署工具加速QWQ,推理速度比ollama更快、并发更高

与传统的HuggingFace Transformers相比,vLLM的吞吐量高达24倍,且无需改变模型架构,它采用创新的PagedAttention算法,优化了注意力键和值的管理,从而提升了推理速度,并且其能够有效地利用多核CPU和GPU资源,显著提升LLM的推理速度。 相比于ollama,vllm输出的速度更快,支持的并发更高,目前也没有遇到安全问题,稳定性非常好,更适合作为服务器的接口服务来部署。 但相应的,vllm会把服务器的GPU显存都占满,使得机器无法再部署其他服务,同时ollama部署更加的简单,也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些,因此个人使用可能ollama更合适。
4/9/2025 10:47:02 AM
贝塔街的万事

使用 VLLM 部署 DeepSeek:基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

最近,大语言模型(LLM)的部署已经成为 AI 开发者绕不开的核心技能。 而 VLLM 作为一款高性能、低延迟的推理引擎,在大模型推理领域迅速崛起。 今天,我就带大家从零开始,在 Ubuntu 22.04 RTX 4090 Docker 环境下,部署 DeepSeek模型,并让它跑起来!
3/12/2025 12:37:50 PM
写代码的中年人

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型

vLLM(Virtual Large Language Model)是由加州大学伯克利分校团队开发的高性能大模型推理框架,其核心特点围绕显存优化、高吞吐量、灵活性和易用性展开。 对比 ollama 作为个人开发者部署模型工具而言,vLLM 专注于高并发请求和大规模生产环境,适用于企业级应用和需要高效推理的场景。 vLLM 通过优化内存管理和并发处理,适合处理高负载的生产环境 。
4/9/2025 3:25:00 AM