Self-hosted LLM inference стал доступен для команд без ML-инженера
vLLM 0.5, llama.cpp с Metal-ускорением и новые quantized-модели от Meta снизили порог входа. Разбираем что изменилось и как это использовать прямо сейчас.
Что изменилось
Ещё год назад запустить собственный LLM-сервер требовало ML-инженера, знакомого с CUDA, нескольких недель настройки и хорошего бюджета на GPU. Сейчас картина другая.
vLLM 0.5 добавил упрощённый деплой через Docker с автоматическим определением GPU. llama.cpp теперь использует Metal на Apple Silicon — на M2 Pro можно гонять 13B-модель с приемлемой скоростью. А Meta выпустила официальные Q4_K_M квантизированные веса для всей линейки Llama 3.
Что это означает на практике
Один DevOps-инженер с базовым пониманием Docker теперь может поднять inference-сервер за день. Без ML-команды, без глубокого знания PyTorch.
Минимальный стек на 2025
Для команды без ML-инженера достаточно трёх компонентов:
- vLLM — inference движок с batching
- Qdrant — векторная БД для RAG
- Nginx — балансировщик и rate limiting
На одной A10G это держит ~200 RPS для 7B-модели с RAG. Стоимость — около $800/мес против $15k+ через облачный API.
Источники
- vLLM 0.5 Release Notes GitHub
- llama.cpp — Metal support docs GitHub
- Meta Llama 3 quantized models HuggingFace