AI / ML · Gamedev

AI-инфраструктура для мобильной RPG с 2M DAU

Self-hosted LLM inference с RAG-системой на игровой документации. Latency 80мс на P99, снижение стоимости на 74% против облачного API.

80мс

P99 latency

Ответ AI-ассистента на 99-м перцентиле

DAU

Без деградации производительности

−74%

Стоимость

Против облачного API

6 мес

Срок

От задачи до production

Схема AI-инфраструктуры

Задача

Клиент — мобильная RPG с 2M DAU — хотел добавить AI-ассистента, который отвечает на вопросы игроков о механиках, квестах и предметах в контексте текущего состояния игры.

Ограничения: latency не более 100мс на P99, бюджет на AI не более $15k/мес, данные пользователей не должны покидать их инфраструктуру. Облачные API не проходили ни по одному из этих параметров.

Решение

Self-hosted inference на базе vLLM с continuous batching, двухуровневый RAG (контекст игрока + семантический поиск по документации), мониторинг качества через LLM-as-a-judge.

RAG pipeline

Стек

Llama-3 8B Q4_K_M — основная модель
vLLM — inference с prefix caching
Ray Serve — маршрутизация по queue depth
Qdrant — векторная БД, 180k чанков
4×A10G — GPU кластер

Архитектура до

Архитектура после

Результаты

За 6 месяцев от постановки задачи до production. Latency P99 — 78мс (план был 100мс). Стоимость инфраструктуры — $11.2k/мес вместо ожидаемых $43k через облачный API.

Рейтинг удовлетворённости AI-ответами (thumbs up/down) — 81% позитивных. За первый месяц ассистент обработал 4.2M запросов без инцидентов.

"
Самый важный урок: начинать с evaluation-фреймворка, а не с выбора модели. Иначе не знаешь, стало ли лучше после каждого изменения.
— из ретроспективы проекта

Автор

CREEX TEAM

Fractional CTO / AI Infra

7+ лет в gamedev, строю backend и AI-системы для production под нагрузкой.

Клиент

GameStudio X

Mobile RPG · 2M DAU

Связаться

Обсудим вашу задачу — AI-инфраструктуру, backend-архитектуру или fractional CTO.