Обновление VseLLM: ротация моделей и анонс Session-Sticky Routing

Временное удаление o3 Deep Research из-за таймаутов. Улучшение стабильности и анонс Session-Sticky Routing для экономии на длинных контекстах через API.

Обновление VseLLM: ротация моделей и анонс Session-Sticky Routing

Техническое обновление: ротация моделей и запуск Session-Sticky Routing

🛠 Изменения в каталоге: Модель openai/o3-deep-research временно выведена из эксплуатации.

На стороне поставщика зафиксированы участившиеся таймауты и ошибки генерации (500/504), что не позволяет обеспечить стабильный пользовательский опыт. Мы приняли решение убрать модель из списка доступных до момента стабилизации её работы и проведения тщательного тестирования технической командой.

Повышение эффективности API: Session-Sticky Routing

🧠 Мы завершаем разработку функционала Session-Sticky Routing.

Эта технология позволит оптимизировать работу с длинными промптами и сложными контекстами. Благодаря «липкой» маршрутизации сессий, ваши повторные запросы будут обрабатываться быстрее и дешевле за счет механизмов контекстного кэширования на стороне узлов. Это обеспечит значительную экономию токенов в рамках одной диалоговой сессии.

Мы продолжаем дорабатывать документацию и готовим масштабное обновление функционала к майским праздникам. Следите за новостями!

🔗 Техническая документация VseLLM