Транскрибация аудио и видео через Gemini API: замена Whisper на VseLLM

Узнайте, как использовать модели Gemini для качественной расшифровки аудио и видео. Инструкция по работе с input_audio, примеры кода на Python и советы по оптимизации запросов.

Транскрибация аудио и видео через Gemini API: замена Whisper на VseLLM

🎙️ Транскрибация аудио и видео через Gemini: замена Whisper

Мы прекратили поддержку модели Whisper, предложив взамен более мощное решение — мультимодальные модели Gemini (например, google/gemini-3.1-pro-preview или google/gemini-2.5-pro).

В чем преимущество Gemini?

В отличие от узкоспециализированных систем, Gemini не просто распознает речь, но и понимает контекст, расставляет знаки препинания и позволяет гибко управлять результатом через промпт. Вы можете сразу попросить модель сделать саммари созвона, выделить тезисы или перевести речь на другой язык.

Как это работает: Gemini поддерживает передачу медиафайлов (mp3, ogg, wav, mp4) напрямую в виде Base64-строки через стандартный клиент openai с использованием блока input_audio.

Пример реализации на Python

import openai
import base64

client = openai.OpenAI(api_key="ВАШ_API_KEY", base_url="https://api.vsellm.ru/v1")

# Кодирование файла в Base64
with open("recording.mp3", "rb") as f:
    audio_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="google/gemini-3.1-pro-preview",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Расшифруй аудио и сделай краткие выводы."},
            {"type": "input_audio", "input_audio": {"data": audio_base64, "format": "mp3"}}
        ]
    }],
    temperature=0
)
print(response.choices[0].message.content)
Важные ограничения:
  • Для работы с аудио рекомендуем модели Gemini. Модели DeepSeek, Qwen или Claude не поддерживают этот тип входных данных.
  • Base64 увеличивает размер файла примерно на 30%. Для тяжелых видеофайлов рекомендуется предварительно извлекать аудиодорожку.