01 vLLM 快速部署入门
info
参考文献
- Se7en. AI Infra
- 教程:vLLM Quickstart.
- 原文链接:https://cr7258.github.io/courses/ai-infra/AI%20Infra%20教程/01-vllm-quickstart
版权:CC BY-SA 4.0(署名—相同方式共享)
1 什么是 vLLM?
vLLM 是一个高效、易用的大语言模型(LLM)推理和服务框架,专注于优化推理速度和吞吐量,尤其适合高并发的生产环境。它由加州大学伯克利分校的研究团队开发,并因其出色的性能成为当前最受欢迎的 LLM 推理引擎之一。

vLLM 同时支持在 GPU 和 CPU 上运行,本文将会分别介绍 vLLM 使用 GPU 和 CPU 作为后端时的安装与运行方法。
2 前提准备
2.1 购买虚拟机
如果本地不具备 GPU 环境,可考虑通过云服务提供商(如阿里云、腾讯云等)购买 GPU 服务器。
操作系统建议选择 Ubuntu 22.04,GPU 型号可根据实际需求进行选择。由于大语言模型通常占用较多磁盘空间,建议适当增加磁盘容量。
