AI / ML · 2 Jun 2025
Self-hosted LLM inference стал доступен для команд без ML-инженера
vLLM 0.5, llama.cpp с Metal-ускорением и новые quantized-модели от Meta снизили порог входа до уровня одного DevOps-инженера. Разбираем что изменилось.
AI / ML · 12 May 2025
Как я строил AI-инфраструктуру для игрового сервиса с 2M DAU
Разбор реального кейса: от постановки задачи до production-деплоя. Какие модели выбрали, почему отказались от облачных API и как добились задержки ответа менее 80мс на P99.
AI / ML · 1 May 2025
AI-инфраструктура для мобильной RPG с 2M DAU
Self-hosted LLM inference, RAG на игровой документации. Latency 80мс P99, снижение стоимости на 74%.