Что такое модель Whisper?

Статья
09/02/2024

Модель Whisper — это речь в текстовой модели из OpenAI, которую можно использовать для транскрибирования звуковых файлов. Модель обучена на большом наборе данных английского звука и текста. Модель оптимизирована для транскрибирования аудиофайлов, содержащих речь на английском языке. Модель также может использоваться для транскрибирования звуковых файлов, содержащих речь на других языках. Выходные данные модели — английский текст.

Модели Whisper доступны через службу Azure OpenAI или с помощью службы "Речь СИ Azure". Функции отличаются для этих предложений. В службе "Речь ИИ Azure" Whisper — это лишь одна из нескольких моделей, которые можно использовать для преобразования речи в текст.

Вопрос.

Подходит ли модель Whisper для моего сценария или лучше ли модель распознавания речи ВИ Azure? Каковы сравнения API между двумя типами моделей?
Если я хочу использовать модель Whisper, следует ли использовать ее с помощью службы Azure OpenAI или с помощью службы "Речь СИ Azure"? Каковы сценарии, которые помогут мне использовать один или другой?

Модель Whisper или модели распознавания речи ВИ Azure

Модели Whisper или модели распознавания речи ВИ Azure подходят в зависимости от ваших сценариев. Если вы решите использовать распознавание речи искусственного интеллекта Azure, вы можете выбрать из нескольких моделей, включая модель Whisper. В следующей таблице сравниваются параметры с рекомендациями по началу работы.

Сценарий	Модель Whisper	Модели распознавания речи ВИ Azure
Транскрибирование в режиме реального времени, субтитры и субтитры для аудио и видео.	Недоступно	Рекомендуемая конфигурация
Транскрибирование, субтитры и субтитры для предварительно подготовленных аудио и видео.	Модель Whisper с помощью Azure OpenAI рекомендуется для быстрой обработки отдельных звуковых файлов. Модель Whisper с помощью службы "Речь ИИ Azure" рекомендуется для пакетной обработки больших файлов. Дополнительные сведения см. в статье об модели Whisper с помощью службы "Речь ИИ Azure" или с помощью службы Azure OpenAI?	Рекомендуется выполнять пакетную обработку больших файлов, диаризации и меток времени на уровне слов.
Расшифровка записей телефонных звонков и аналитики, таких как сводка звонков, тональность, ключевые темы и пользовательские аналитические сведения.	На месте	Рекомендуемая конфигурация
Транскрибирование и аналитика в режиме реального времени для помощи агентам центра обработки вызовов с вопросами клиентов.	Недоступно	Рекомендуемая конфигурация
Расшифровка записей собраний и аналитики, таких как сводка собрания, глава собрания и извлечение элементов действия.	На месте	Рекомендуемая конфигурация
Запись текста в режиме реального времени и создание документов с помощью диктовки голоса.	Недоступно	Рекомендуемая конфигурация
Агент голосовой связи центра контактов: маршрутизация звонков и интерактивный голосовой ответ для центров вызовов.	На месте	Рекомендуемая конфигурация
Голосовой помощник: приложение для конкретного голосового помощника для набора верхней коробки, мобильного приложения, встроенного в машину и других сценариев.	На месте	Рекомендуемая конфигурация
Оценка произношения: оценка произношения голоса говорящего.	Недоступно	Рекомендуемая конфигурация
Перевод динамического звука с одного языка на другой.	Недоступно	Рекомендуется с помощью API перевода речи
Перевод предварительно созданного звука с других языков на английский.	Рекомендуемая конфигурация	Доступно через API перевода речи
Преобразуйте предварительно подготовленный звук на языки, отличные от английского.	Недоступно	Рекомендуется с помощью API перевода речи

Модель Whisper с помощью службы "Речь ИИ Azure" или с помощью Службы Azure OpenAI?

Если вы решите использовать модель Whisper, у вас есть два варианта. Вы можете выбрать, следует ли использовать модель Whisper с помощью Azure OpenAI или с помощью службы "Речь СИ Azure". В любом случае возможность чтения транскрибированного текста одинакова. Вы можете ввести звук смешанного языка, а выходные данные — на английском языке.

Модель Whisper через Службу Azure OpenAI может быть лучшей для:

Быстрое транскрибирование аудиофайлов по одному за раз
Перевод звука с других языков на английский
Укажите запрос модели для руководства выходными данными
Поддерживаемые форматы файлов: mp3, mp4, mpweg, mpga, m4a, wav и webm

Модель Whisper с помощью службы "Речь СИ Azure" может быть лучшей для:

Транскрибирование файлов размером более 25 МБ (до 1 ГБ). Ограничение размера файла для модели Whisper Azure OpenAI составляет 25 МБ.
Транскрибирование больших пакетов аудиофайлов
Диаризация для различения разных докладчиков, участвующих в беседе. Служба "Речь" предоставляет сведения о том, какой докладчик говорил определенную часть транскрибированного речи. Модель Whisper через Azure OpenAI не поддерживает диаризацию.
Метки времени на уровне Word
Поддерживаемые форматы файлов: mp3, wav и ogg
Настройка базовой модели Whisper для повышения точности для вашего сценария (в ближайшее время)

Региональная поддержка является еще одним фактором.

Модель Whisper с помощью Службы Azure OpenAI доступна в следующих регионах: восточная часть США 2, Южная Индия, Северная Часть, Северная Норвегия, Восточная Норвегия, Центральная Швеция и Западная Европа.
Модель Whisper с помощью службы "Речь с помощью искусственного интеллекта Azure" доступна в следующих регионах: Восточная Австралия, восточная часть США, северная часть США, южная часть США, юго-восточная Азия, Южная Часть Великобритании и Западная Европа.

Поделиться через

Что такое модель Whisper?

Модель Whisper или модели распознавания речи ВИ Azure

Модель Whisper с помощью службы "Речь ИИ Azure" или с помощью Службы Azure OpenAI?

Следующие шаги

Обратная связь

Дополнительные ресурсы