Self-hosted LLM inference стал доступен для команд без ML-инженера

Self-hosted inference stack, 2025

Что изменилось

Ещё год назад запустить собственный LLM-сервер требовало ML-инженера, знакомого с CUDA, нескольких недель настройки и хорошего бюджета на GPU. Сейчас картина другая.

vLLM 0.5 добавил упрощённый деплой через Docker с автоматическим определением GPU. llama.cpp теперь использует Metal на Apple Silicon — на M2 Pro можно гонять 13B-модель с приемлемой скоростью. А Meta выпустила официальные Q4_K_M квантизированные веса для всей линейки Llama 3.

Что это означает на практике

Один DevOps-инженер с базовым пониманием Docker теперь может поднять inference-сервер за день. Без ML-команды, без глубокого знания PyTorch.

Минимальный inference stack

Минимальный стек на 2025

Для команды без ML-инженера достаточно трёх компонентов:

vLLM — inference движок с batching
Qdrant — векторная БД для RAG
Nginx — балансировщик и rate limiting

На одной A10G это держит ~200 RPS для 7B-модели с RAG. Стоимость — около $800/мес против $15k+ через облачный API.

Источники

vLLM 0.5 Release Notes GitHub
llama.cpp — Metal support docs GitHub
Meta Llama 3 quantized models HuggingFace