AI-инфраструктура для мобильной RPG с 2M DAU
Self-hosted LLM inference с RAG-системой на игровой документации. Latency 80мс на P99, снижение стоимости на 74% против облачного API.
Задача
Клиент — мобильная RPG с 2M DAU — хотел добавить AI-ассистента, который отвечает на вопросы игроков о механиках, квестах и предметах в контексте текущего состояния игры.
Ограничения: latency не более 100мс на P99, бюджет на AI не более $15k/мес, данные пользователей не должны покидать их инфраструктуру. Облачные API не проходили ни по одному из этих параметров.
Решение
Self-hosted inference на базе vLLM с continuous batching, двухуровневый RAG (контекст игрока + семантический поиск по документации), мониторинг качества через LLM-as-a-judge.
Стек
- Llama-3 8B Q4_K_M — основная модель
- vLLM — inference с prefix caching
- Ray Serve — маршрутизация по queue depth
- Qdrant — векторная БД, 180k чанков
- 4×A10G — GPU кластер
Результаты
За 6 месяцев от постановки задачи до production. Latency P99 — 78мс (план был 100мс). Стоимость инфраструктуры — $11.2k/мес вместо ожидаемых $43k через облачный API.
Рейтинг удовлетворённости AI-ответами (thumbs up/down) — 81% позитивных. За первый месяц ассистент обработал 4.2M запросов без инцидентов.
"Самый важный урок: начинать с evaluation-фреймворка, а не с выбора модели. Иначе не знаешь, стало ли лучше после каждого изменения.
— из ретроспективы проекта