Технический апдейт VseLLM: новые модели Gemini 3.5 Flash и Qwen 3.7 Max, стабилизация шлюзов и обновление тарифов

Техническое обновление VseLLM: интеграция новых моделей Google Gemini 3.5 Flash и Alibaba Qwen 3.7 Max, отчет об устранении сбоя OpenAI, корректировка тарифов на Moonshot Kimi K2.5 и Zhipu AI (ZAI) для расширения пула резервных провайдеров.

Технический апдейт VseLLM: новые модели Gemini 3.5 Flash и Qwen 3.7 Max, стабилизация шлюзов и обновление тарифов

25 мая 2026 Инфраструктура VseLLM

Технический апдейт: новые нейросети, расширение пула провайдеров и отчет о стабильности

Мы рады представить очередное расширение нашего каталога передовыми мультимодальными и языковыми моделями. Одновременно с этим наша инженерная команда провела масштабные работы по укреплению отказоустойчивости ключевых шлюзов платформы.

Новинки каталога

Добавлены Gemini 3.5 Flash и Qwen 3.7 Max

Интегрированы свежие флагманы от Google и Alibaba для ультрабыстрой генерации и глубокого анализа кода.

Стабильность шлюзов

Оптимизация пула OpenAI

Успешно завершены работы по внедрению автоматического переключения аплинков на случай внешних инцидентов.

1. Новые модели в API

Мы добавили две долгожданные модели, которые уже доступны для вызова через ваши стандартные интеграции:

  • google/gemini-3.5-flash: Новое поколение высокоскоростных мультимодальных моделей от Google. Модель предлагает радикально сниженный показатель Time-To-First-Token (TTFT), расширенное окно контекста и улучшенную обработку сложных системных промптов. Идеально подходит для агентов и real-time автоматизаций.
  • qwen/qwen3.7-max: Флагманское решение от Alibaba. Модель демонстрирует выдающиеся результаты в области точных наук (Math), генерации и рефакторинга сложного кода, а также глубокого смыслового анализа мультиязычных документов. Это один из сильнейших инструментов для enterprise-задач на текущий момент.

2. Повышение отказоустойчивости и разбор инцидента

В минувшую пятницу часть наших пользователей могла столкнуться с временными задержками или ошибками доступности при обращении к моделям семейства OpenAI (GPT). Данный инцидент был вызван нестабильностью на стороне аплинков магистрального провайдера.

Наши инженеры оперативно локализовали проблему и провели глубокую оптимизацию систем маршрутизации трафика. Мы развернули дополнительные независимые шлюзы для дублирования запросов к OpenAI, что минимизирует риски повторения подобных ситуаций. Мы искренне благодарим наше сообщество за проявленное понимание и приносим глубокие извинения за доставленные неудобства. Ваша стабильность — наш главный приоритет.

3. Оптимизация пула резервных провайдеров

Для создания максимально надежной инфраструктуры «нулевого отказа» требуется постоянное расширение географии и количества альтернативных поставщиков вычислительных мощностей. Чтобы гарантировать моментальное автоматическое переключение нагрузки в моменты пиковых глобальных сбоев, мы пересматриваем экономику некоторых позиций.

С первого июня стоимость запросов к моделям moonshotai/kimi-k2.5, а также к линейкам моделей от провайдера Zhipu AI (ZAI) будет скорректирована в сторону увеличения. Этот шаг позволит нам привлечь дополнительные высокопроизводительные каналы и зарезервировать избыточные мощности у дополнительных провайдеров, сделав доступ к Kimi и ZAI бесперебойным при любых обстоятельствах.

Оставайтесь с нами — впереди еще больше технологических релизов.
— Команда VseLLM