Статус сервиса

Отслеживание доступности сервисов VseLLM

Все системы работают
6 часов 12 часов 24 часа 3 дня 7 дней
Модель Доступность Health
Score
Статус Задержка Long
Context
Streaming Function
Calling
Загрузка данных...

Методология проверки

Health Score (0-100)

Общий балл здоровья модели рассчитывается на основе всех метрик:

Метрика Штраф
Модель недоступна -100 (Offline)
Rate Limited (429) -70
Server Error (5xx) -80
Latency > 5s -40
Latency 3-5s -25
Latency 2-3s -15
Latency 1-2s -5
Нет Streaming -10
Нет Function Calling -10
Partial Function Calling -5
Нет Long Context -15

Статусы: Excellent (85-100), Good (70-84), Fair (50-69), Poor (<50)

Long Context

Проверка поддержки длинного контекста (~10k токенов):

  • Отправляется запрос с текстом ~2000 слов
  • Модель просят резюмировать текст в 3 слова
  • Если запрос успешен - поддержка длинного контекста подтверждена
  • При ошибке "context limit exceeded" - длинный контекст не поддерживается
Streaming

Проверка поддержки потоковой передачи (Server-Sent Events):

  • Отправляется запрос с параметром stream=true
  • Проверяется получение минимум 2 чанков ответа
  • Если чанки получены - streaming поддерживается
Function Calling

Проверка поддержки вызова функций (tools):

  • Определяется инструмент get_current_time с параметром timezone
  • Модели отправляется запрос: "What time is it in Moscow?"
  • Проверяется наличие tool_calls в ответе
  • Если tool_calls присутствуют - функция вызвана корректно (verified)
  • Если нет - partial (ответил текстом без вызова функции)
Частота проверок

Все проверки выполняются каждые 10 минут для 5 случайных моделей.

Последнее обновление: -