AI / ML

Self-hosted LLM inference стал доступен для команд без ML-инженера

vLLM 0.5, llama.cpp с Metal-ускорением и новые quantized-модели от Meta снизили порог входа. Разбираем что изменилось и как это использовать прямо сейчас.

Self-hosted inference stack, 2025

Что изменилось

Ещё год назад запустить собственный LLM-сервер требовало ML-инженера, знакомого с CUDA, нескольких недель настройки и хорошего бюджета на GPU. Сейчас картина другая.

vLLM 0.5 добавил упрощённый деплой через Docker с автоматическим определением GPU. llama.cpp теперь использует Metal на Apple Silicon — на M2 Pro можно гонять 13B-модель с приемлемой скоростью. А Meta выпустила официальные Q4_K_M квантизированные веса для всей линейки Llama 3.

Что это означает на практике

Один DevOps-инженер с базовым пониманием Docker теперь может поднять inference-сервер за день. Без ML-команды, без глубокого знания PyTorch.

Минимальный inference stack

Минимальный стек на 2025

Для команды без ML-инженера достаточно трёх компонентов:

  • vLLM — inference движок с batching
  • Qdrant — векторная БД для RAG
  • Nginx — балансировщик и rate limiting

На одной A10G это держит ~200 RPS для 7B-модели с RAG. Стоимость — около $800/мес против $15k+ через облачный API.

Источники