🎙️ Транскрибация аудио и видео через Gemini: замена Whisper
Мы прекратили поддержку модели Whisper, предложив взамен более мощное решение — мультимодальные модели Gemini (например, google/gemini-3.1-pro-preview или google/gemini-2.5-pro).
В чем преимущество Gemini?
В отличие от узкоспециализированных систем, Gemini не просто распознает речь, но и понимает контекст, расставляет знаки препинания и позволяет гибко управлять результатом через промпт. Вы можете сразу попросить модель сделать саммари созвона, выделить тезисы или перевести речь на другой язык.
Как это работает: Gemini поддерживает передачу медиафайлов (mp3, ogg, wav, mp4) напрямую в виде Base64-строки через стандартный клиент
openai с использованием блока input_audio.
Пример реализации на Python
import openai
import base64
client = openai.OpenAI(api_key="ВАШ_API_KEY", base_url="https://api.vsellm.ru/v1")
# Кодирование файла в Base64
with open("recording.mp3", "rb") as f:
audio_base64 = base64.b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Расшифруй аудио и сделай краткие выводы."},
{"type": "input_audio", "input_audio": {"data": audio_base64, "format": "mp3"}}
]
}],
temperature=0
)
print(response.choices[0].message.content)
Важные ограничения:
- Для работы с аудио рекомендуем модели Gemini. Модели DeepSeek, Qwen или Claude не поддерживают этот тип входных данных.
- Base64 увеличивает размер файла примерно на 30%. Для тяжелых видеофайлов рекомендуется предварительно извлекать аудиодорожку.