AI / ML · Gamedev

AI-инфраструктура для мобильной RPG с 2M DAU

Self-hosted LLM inference с RAG-системой на игровой документации. Latency 80мс на P99, снижение стоимости на 74% против облачного API.

80мс
P99 latency
Ответ AI-ассистента на 99-м перцентиле
2M
DAU
Без деградации производительности
−74%
Стоимость
Против облачного API
6 мес
Срок
От задачи до production
Схема AI-инфраструктуры

Задача

Клиент — мобильная RPG с 2M DAU — хотел добавить AI-ассистента, который отвечает на вопросы игроков о механиках, квестах и предметах в контексте текущего состояния игры.

Ограничения: latency не более 100мс на P99, бюджет на AI не более $15k/мес, данные пользователей не должны покидать их инфраструктуру. Облачные API не проходили ни по одному из этих параметров.

Решение

Self-hosted inference на базе vLLM с continuous batching, двухуровневый RAG (контекст игрока + семантический поиск по документации), мониторинг качества через LLM-as-a-judge.

RAG pipeline

Стек

  • Llama-3 8B Q4_K_M — основная модель
  • vLLM — inference с prefix caching
  • Ray Serve — маршрутизация по queue depth
  • Qdrant — векторная БД, 180k чанков
  • 4×A10G — GPU кластер
Архитектура до
Архитектура после

Результаты

За 6 месяцев от постановки задачи до production. Latency P99 — 78мс (план был 100мс). Стоимость инфраструктуры — $11.2k/мес вместо ожидаемых $43k через облачный API.

Рейтинг удовлетворённости AI-ответами (thumbs up/down) — 81% позитивных. За первый месяц ассистент обработал 4.2M запросов без инцидентов.

"

Самый важный урок: начинать с evaluation-фреймворка, а не с выбора модели. Иначе не знаешь, стало ли лучше после каждого изменения.

— из ретроспективы проекта