Обновление платформы: ротация моделей, оптимизация тарифов и статус новых функций
Мы продолжаем работу над повышением доступности нашей инфраструктуры, стабильностью шлюзов и точностью тарификации. Делимся ключевыми изменениями, планами и статусом разработки на ближайшие недели.
Оптимизация списка моделей
Вывод из эксплуатации линеек T-Tech и GigaChat для повышения общего аптайма пула.
Корректировка тарифов
Обновление стоимости запросов к провайдерам Yandex и OpenAI для сохранения качества балансировки.
1. Изменения в каталоге моделей
Для обеспечения стабильно высокого уровня SLA мы регулярно пересматриваем доступность отдельных эндпоинтов. На основе внутренней аналитики доступности были приняты следующие решения:
- t-pro / t-lite (T-Tech): Модели выводятся из эксплуатации. В последнее время мы фиксировали критическое количество периодических ошибок доступности (уровня 5xx) на стороне инфраструктуры провайдера, что негативно сказывалось на отказоустойчивости клиентских интеграций.
- GigaChat: Модель полностью удаляется из каталога. Это связано с официальным прекращением поддержки OpenAI-compatible эндпоинта со стороны поставщика, что делает невозможным сохранение бесшовной интеграции через наш стандартный интерфейс.
2. Новые рублевые тарифы с 1 июня
С 1 июня 2026 года вступают в силу обновленные тарифные условия на обработку токенов для линеек моделей от OpenAI и Yandex. Цены приведены в соответствие с текущей себестоимостью маршрутизации трафика и содержанием резервных каналов с высоким аптаймом. Все расчеты внутри биллинга привязаны к финальной рублевой стоимости.
Динамика изменения цен
Корректировка тарифов носит плановый рыночный характер. Это позволит полностью перекрыть инфраструктурные издержки на балансировку и резервные аплинки.
Ниже представлена полная итоговая таблица стоимости в рублях за 1 миллион (1М) токенов, сформированная на основе данных обновленной тарифной сетки:
| Название модели | Input (за 1М токенов) | Output (за 1М токенов) |
|---|---|---|
| OpenAI (GPT) | ||
| openai/gpt-5.5 | 552.50 ₽ | 3 315.00 ₽ |
| openai/gpt-5.4-mini | 82.88 ₽ | 497.25 ₽ |
| openai/gpt-5.4-nano | 27.63 ₽ | 165.75 ₽ |
| openai/gpt-4o | 276.25 ₽ | 1 105.00 ₽ |
| openai/gpt-4o-mini | 16.58 ₽ | 66.30 ₽ |
| openai/o1-preview | 1 657.50 ₽ | 6 630.00 ₽ |
| openai/o1-mini | 331.50 ₽ | 1 326.00 ₽ |
| openai/o3-mini | 121.55 ₽ | 486.20 ₽ |
| Yandex Cloud | ||
| yandex/gpt5-pro | 1 560.30 ₽ | 1 560.30 ₽ |
| yandex/gpt5-lite | 260.00 ₽ | 260.00 ₽ |
| yandex/gpt5.1-pro | 1 040.00 ₽ | 1 040.00 ₽ |
3. Статус разработки: Sticky-cache routing
Мы активно дорабатываем обещанную функцию Sticky-cache routing для оптимизации работы с контекстом и снижения задержек (TTFT).
На данный момент архитектурное решение полностью готово и проходит закрытые тесты. Небольшая задержка релиза связана со сложностью реализации точечной и абсолютно прозрачной логики биллинга для кэшированных токенов. Мы обязаны гарантировать, что каждый сэкономленный рубль будет корректно учтен на вашем балансе без ошибок округления. Функция выйдет в продакшн сразу после завершения аудита биллинговой системы.
Спасибо, что выбираете VseLLM для своих проектов.
— Команда разработки платформы