¿Qué es el modelo Whisper?

Artículo
04/13/2024

El modelo Whisper es un modelo de conversión de voz en texto de OpenAI que puede usar para transcribir archivos de audio. El modelo es entrenado en un gran conjunto de datos de audio y texto en inglés. El modelo está optimizado para transcribir archivos de audio que contienen voz en inglés. El modelo también se puede usar para transcribir archivos de audio que contengan voz en otros lenguajes. La salida del modelo es texto en inglés.

Los modelos Whisper están disponibles mediante Azure OpenAI Service o mediante Voz de Azure AI. Las características difieren para esas ofertas. En Voz de Azure AI, Whisper es solo uno de los varios modelos de conversión de voz en texto que puede usar.

Podría preguntar:

¿Es el modelo Whisper una buena opción para mi escenario o es mejor un modelo de Voz de Azure AI? ¿Cuáles son las comparaciones de API entre los dos tipos de modelos?
Si quisiera usar el modelo Whisper, ¿debería usarlo a través de Azure OpenAI Service o a través de Voz de Azure AI? ¿Cuáles son los escenarios que me guían para usar uno u otro?

Modelo Whisper o modelos de Voz de Azure AI

El modelo Whisper o los modelos de Voz de Azure AI son adecuados en función de los escenarios. Si decide usar Voz de Azure AI, puede elegir entre varios modelos, incluido el modelo Whisper. En la tabla siguiente se comparan las opciones con recomendaciones sobre por dónde empezar.

Escenario	Modelo Whisper	Modelos de Voz de Azure AI
Transcripciones, títulos y subtítulos en tiempo real para audio y vídeo.	No disponible	Recomendado
Transcripciones, títulos y subtítulos para audio y vídeo grabado previamente.	El modelo Whisper a través de Azure OpenAI se recomienda para el procesamiento rápido de archivos de audio individuales. El modelo Whisper a través de Voz de Azure AI se recomienda para el procesamiento por lotes de archivos grandes. Para obtener más información, consulte Modelo Whisper a través de Voz de Azure AI o Azure OpenAI Service?	Recomendado para el procesamiento por lotes de archivos grandes, diarización y marcas de tiempo de nivel de palabra.
Transcripción de análisis y grabaciones de llamadas telefónicas, como resúmenes de llamadas, opiniones, temas clave e información personalizada.	Disponible	Recomendado
Análisis y transcripción en tiempo real para ayudar a los agentes del centro de llamadas con preguntas de los clientes.	No disponible	Recomendado
Transcripciones de análisis y grabaciones de reuniones, como resumen de reuniones, capítulos de reuniones y extracción de elementos de acción.	Disponible	Recomendado
Entrada de texto en tiempo real y generación de documentos mediante dictado de voz.	No disponible	Recomendado
Agente de voz del centro de contactos: enrutamiento de llamadas y respuesta de voz interactiva para centros de llamadas.	Disponible	Recomendado
Asistente para voz: asistente para voz específico de la aplicación para un descodificador, aplicación móvil, para el coche y otros escenarios.	Disponible	Recomendado
Valoración de la pronunciación: valoración de la pronunciación de la voz de un hablante.	No disponible	Recomendado
Traducción de audio en directo de un idioma a otro.	No disponible	Recomendado a través de la API de traducción de voz
Traducción de audio grabado previamente de otros idiomas al inglés.	Recomendado	Disponible a través de la API de traducción de voz
Traducir audio grabado previamente en idiomas distintos del inglés.	No disponible	Recomendado a través de la API de traducción de voz

¿El modelo Whisper a través de Voz de Azure AI o a través de Azure OpenAI Service?

Si decide usar el modelo Whisper, tiene dos opciones. Es posible elegir si se va a usar el modelo Whisper a través de Azure OpenAI o a través de Voz de Azure AI. En cualquier caso, la legibilidad del texto transcrito será la misma. Es posible introducir audio de idioma mixto y la salida estará en inglés.

El modelo Whisper, a través de Azure OpenAI Service, podría ser el mejor para:

Transcribir rápidamente archivos de audio de uno en uno
Traducir audio de otros idiomas al inglés
Proporcionar un mensaje al modelo para guiar la salida
Formatos de archivo admitidos: mp3, mp4, mpweg, mpga, m4a, wav y webm

El modelo Whisper, a través de Voz de Azure AI, podría ser el mejor para:

Transcribir archivos de más de 25 MB (hasta 1 GB). El límite de tamaño de archivo para el modelo Whisper de Azure OpenAI es de 25 MB.
Transcribir grandes lotes de archivos de audio
Diarización para distinguir entre los diferentes hablantes que participen en la conversación. El servicio Voz proporciona información sobre qué hablante hablaba una parte determinada de la voz transcrita. El modelo Whisper a través de Azure OpenAI no admite la diarización.
Marcas de tiempo de nivel de palabra
Formatos de archivo admitidos: mp3, wav y ogg
Personalización del modelo básico de Whisper para mejorar la precisión de su escenario (próximamente)

La compatibilidad regional es otra consideración.

El modelo Whisper mediante Azure OpenAI Service está disponible en las siguientes regiones: Este de EE. UU. 2, Sur de India, Centro-norte de EE. UU., Este de Noruega, Centro de Suecia y Oeste de Europa.
El modelo Whisper mediante Voz de Azure AI está disponible en las siguientes regiones:Este de Australia, Este de EE. UU., Centro-norte de EE. UU., Centro-sur de EE. UU., Sudeste de Asia, Sur de Reino Unido y Oeste de Europa.

¿Qué es el modelo Whisper?

Modelo Whisper o modelos de Voz de Azure AI

¿El modelo Whisper a través de Voz de Azure AI o a través de Azure OpenAI Service?

Pasos siguientes

Recursos adicionales