20 мая 2026 Инфраструктура VseLLM

Обновление платформы: ротация моделей, оптимизация тарифов и статус новых функций

Мы продолжаем работу над повышением доступности нашей инфраструктуры, стабильностью шлюзов и точностью тарификации. Делимся ключевыми изменениями, планами и статусом разработки на ближайшие недели.

Ротация каталога

Оптимизация списка моделей

Вывод из эксплуатации линеек T-Tech и GigaChat для повышения общего аптайма пула.

С 1 июня

Корректировка тарифов

Обновление стоимости запросов к провайдерам Yandex и OpenAI для сохранения качества балансировки.

1. Изменения в каталоге моделей

Для обеспечения стабильно высокого уровня SLA мы регулярно пересматриваем доступность отдельных эндпоинтов. На основе внутренней аналитики доступности были приняты следующие решения:

t-pro / t-lite (T-Tech): Модели выводятся из эксплуатации. В последнее время мы фиксировали критическое количество периодических ошибок доступности (уровня 5xx) на стороне инфраструктуры провайдера, что негативно сказывалось на отказоустойчивости клиентских интеграций.
GigaChat: Модель полностью удаляется из каталога. Это связано с официальным прекращением поддержки OpenAI-compatible эндпоинта со стороны поставщика, что делает невозможным сохранение бесшовной интеграции через наш стандартный интерфейс.

2. Новые рублевые тарифы с 1 июня

С 1 июня 2026 года вступают в силу обновленные тарифные условия на обработку токенов для линеек моделей от OpenAI и Yandex. Цены приведены в соответствие с текущей себестоимостью маршрутизации трафика и содержанием резервных каналов с высоким аптаймом. Все расчеты внутри биллинга привязаны к финальной рублевой стоимости.

Динамика изменения цен

Корректировка тарифов носит плановый рыночный характер. Это позволит полностью перекрыть инфраструктурные издержки на балансировку и резервные аплинки.

Ниже представлена полная итоговая таблица стоимости в рублях за 1 миллион (1М) токенов, сформированная на основе данных обновленной тарифной сетки:

Название модели	Input (за 1М токенов)	Output (за 1М токенов)
OpenAI (GPT)
openai/gpt-5.5	552.50 ₽	3 315.00 ₽
openai/gpt-5.4-mini	82.88 ₽	497.25 ₽
openai/gpt-5.4-nano	27.63 ₽	165.75 ₽
openai/gpt-4o	276.25 ₽	1 105.00 ₽
openai/gpt-4o-mini	16.58 ₽	66.30 ₽
openai/o1-preview	1 657.50 ₽	6 630.00 ₽
openai/o1-mini	331.50 ₽	1 326.00 ₽
openai/o3-mini	121.55 ₽	486.20 ₽
Yandex Cloud
yandex/gpt5-pro	1 560.30 ₽	1 560.30 ₽
yandex/gpt5-lite	260.00 ₽	260.00 ₽
yandex/gpt5.1-pro	1 040.00 ₽	1 040.00 ₽

3. Статус разработки: Sticky-cache routing

Мы активно дорабатываем обещанную функцию Sticky-cache routing для оптимизации работы с контекстом и снижения задержек (TTFT).

На данный момент архитектурное решение полностью готово и проходит закрытые тесты. Небольшая задержка релиза связана со сложностью реализации точечной и абсолютно прозрачной логики биллинга для кэшированных токенов. Мы обязаны гарантировать, что каждый сэкономленный рубль будет корректно учтен на вашем балансе без ошибок округления. Функция выйдет в продакшн сразу после завершения аудита биллинговой системы.

Спасибо, что выбираете VseLLM для своих проектов.
— Команда разработки платформы

Блог

Технический апдейт VseLLM: ротация моделей, рублевые тарифы и Sticky-cache routing