Технический апдейт VseLLM: ротация моделей, рублевые тарифы и Sticky-cache routing

Технический апдейт VseLLM с 1 июня: вывод из эксплуатации моделей T-pro, T-lite и GigaChat, обновление рублевой тарифной сетки для моделей OpenAI GPT и Yandex, статус разработки Sticky-cache routing.

Технический апдейт VseLLM: ротация моделей, рублевые тарифы и Sticky-cache routing
20 мая 2026 Инфраструктура VseLLM

Обновление платформы: ротация моделей, оптимизация тарифов и статус новых функций

Мы продолжаем работу над повышением доступности нашей инфраструктуры, стабильностью шлюзов и точностью тарификации. Делимся ключевыми изменениями, планами и статусом разработки на ближайшие недели.

Ротация каталога

Оптимизация списка моделей

Вывод из эксплуатации линеек T-Tech и GigaChat для повышения общего аптайма пула.

С 1 июня

Корректировка тарифов

Обновление стоимости запросов к провайдерам Yandex и OpenAI для сохранения качества балансировки.

1. Изменения в каталоге моделей

Для обеспечения стабильно высокого уровня SLA мы регулярно пересматриваем доступность отдельных эндпоинтов. На основе внутренней аналитики доступности были приняты следующие решения:

  • t-pro / t-lite (T-Tech): Модели выводятся из эксплуатации. В последнее время мы фиксировали критическое количество периодических ошибок доступности (уровня 5xx) на стороне инфраструктуры провайдера, что негативно сказывалось на отказоустойчивости клиентских интеграций.
  • GigaChat: Модель полностью удаляется из каталога. Это связано с официальным прекращением поддержки OpenAI-compatible эндпоинта со стороны поставщика, что делает невозможным сохранение бесшовной интеграции через наш стандартный интерфейс.

2. Новые рублевые тарифы с 1 июня

С 1 июня 2026 года вступают в силу обновленные тарифные условия на обработку токенов для линеек моделей от OpenAI и Yandex. Цены приведены в соответствие с текущей себестоимостью маршрутизации трафика и содержанием резервных каналов с высоким аптаймом. Все расчеты внутри биллинга привязаны к финальной рублевой стоимости.

Динамика изменения цен

Корректировка тарифов носит плановый рыночный характер. Это позволит полностью перекрыть инфраструктурные издержки на балансировку и резервные аплинки.

Ниже представлена полная итоговая таблица стоимости в рублях за 1 миллион (1М) токенов, сформированная на основе данных обновленной тарифной сетки:

Название модели Input (за 1М токенов) Output (за 1М токенов)
OpenAI (GPT)
openai/gpt-5.5552.50 ₽3 315.00 ₽
openai/gpt-5.4-mini82.88 ₽497.25 ₽
openai/gpt-5.4-nano27.63 ₽165.75 ₽
openai/gpt-4o276.25 ₽1 105.00 ₽
openai/gpt-4o-mini16.58 ₽66.30 ₽
openai/o1-preview1 657.50 ₽6 630.00 ₽
openai/o1-mini331.50 ₽1 326.00 ₽
openai/o3-mini121.55 ₽486.20 ₽
Yandex Cloud
yandex/gpt5-pro1 560.30 ₽1 560.30 ₽
yandex/gpt5-lite260.00 ₽260.00 ₽
yandex/gpt5.1-pro1 040.00 ₽1 040.00 ₽

3. Статус разработки: Sticky-cache routing

Мы активно дорабатываем обещанную функцию Sticky-cache routing для оптимизации работы с контекстом и снижения задержек (TTFT).

На данный момент архитектурное решение полностью готово и проходит закрытые тесты. Небольшая задержка релиза связана со сложностью реализации точечной и абсолютно прозрачной логики биллинга для кэшированных токенов. Мы обязаны гарантировать, что каждый сэкономленный рубль будет корректно учтен на вашем балансе без ошибок округления. Функция выйдет в продакшн сразу после завершения аудита биллинговой системы.

Спасибо, что выбираете VseLLM для своих проектов.
— Команда разработки платформы