OpenAI: Whisper-1
OpenAI
Специализированная модель для преобразования речи в текст (ASR), выполняющая многоязычную транскрипцию, определение языка и тайм-коды — оптимизирована для точного распознавания речи.
Чтобы сгенерировать ключ, авторизуйтесь и пополните баланс
Производительность модели
Лимит размера аудио:
25 МБ
Скорость обработки 1 часа аудио (Real-Time Factor):
60x (1 час за 60 сек.)
Ценообразование за 1 минуту аудио
Input:
1 ₽
Output:
- ₽
Хронология
Дата релиза:
Сентябрь 2024
Модальности
Input
Audio
Output
Text
Функциональные и технические возможности
Перевод при транскрибации
Возврат таймкодов
Как получить доступ к whisper-1 по API
2
Приступайте к работе
Используйте любой SDK, совместимый с OpenAI, чтобы встроить whisper-1 в ваше приложение.
Пример интеграции
import openai
from pathlib import Path
client = openai.OpenAI(
api_key="your-api-key",
base_url="https://api.vsellm.ru/v1"
)
audio_path = Path("speech.mp3")
with audio_path.open("rb") as audio_file:
response = client.audio.transcriptions.create(
file=audio_file,
model="openai/whisper-1"
)
print("Распознанный текст:")
print(response.text)