¿Qué es el modelo Whisper?
El modelo Whisper es un modelo de conversión de voz en texto de OpenAI que puede usar para transcribir archivos de audio. El modelo es entrenado en un gran conjunto de datos de audio y texto en inglés. El modelo está optimizado para transcribir archivos de audio que contienen voz en inglés. El modelo también se puede usar para transcribir archivos de audio que contengan voz en otros lenguajes. La salida del modelo es texto en inglés.
Los modelos Whisper están disponibles mediante Azure OpenAI Service o mediante Voz de Azure AI. Las características difieren para esas ofertas. En Voz de Azure AI (transcripción por lotes), Whisper es solo uno de los varios modelos que puede usar para la conversión de voz en texto.
Podría preguntar:
¿Es el modelo Whisper una buena opción para mi escenario o es mejor un modelo de Voz de Azure AI? ¿Cuáles son las comparaciones de API entre los dos tipos de modelos?
Si quisiera usar el modelo Whisper, ¿debería usarlo a través de Azure OpenAI Service o a través de Voz de Azure AI? ¿Cuáles son los escenarios que me guían para usar uno u otro?
Modelo Whisper o modelos de Voz de Azure AI
El modelo Whisper o los modelos de Voz de Azure AI son adecuados en función de los escenarios. Si decide usar Voz de Azure AI, puede elegir entre varios modelos, incluido el modelo Whisper. En la tabla siguiente se comparan las opciones con recomendaciones sobre por dónde empezar.
Escenario | Modelo Whisper | Modelos de Voz de Azure AI |
---|---|---|
Transcripciones, títulos y subtítulos en tiempo real para audio y vídeo. | No disponible | Recomendado |
Transcripciones, títulos y subtítulos para audio y vídeo grabado previamente. | El modelo Whisper a través de Azure OpenAI se recomienda para el procesamiento rápido de archivos de audio individuales. Se recomienda el modelo Whisper desde Voz de Azure AI (transcripción por lotes) para el procesamiento por lotes de archivos grandes. Para más información, vea ¿Modelo Whisper mediante la transcripción por lotes de Voz de Azure AI o Azure OpenAI Service? | Recomendado para el procesamiento por lotes de archivos grandes, diarización y marcas de tiempo de nivel de palabra. |
Transcripción de análisis y grabaciones de llamadas telefónicas, como resúmenes de llamadas, opiniones, temas clave e información personalizada. | Disponible | Recomendado |
Análisis y transcripción en tiempo real para ayudar a los agentes del centro de llamadas con preguntas de los clientes. | No disponible | Recomendado |
Transcripciones de análisis y grabaciones de reuniones, como resumen de reuniones, capítulos de reuniones y extracción de elementos de acción. | Disponible | Recomendado |
Entrada de texto en tiempo real y generación de documentos mediante dictado de voz. | No disponible | Recomendado |
Agente de voz del centro de contactos: enrutamiento de llamadas y respuesta de voz interactiva para centros de llamadas. | Disponible | Recomendado |
Asistente para voz: asistente para voz específico de la aplicación para un descodificador, aplicación móvil, para el coche y otros escenarios. | Disponible | Recomendado |
Valoración de la pronunciación: valoración de la pronunciación de la voz de un hablante. | No disponible | Recomendado |
Traducción de audio en directo de un idioma a otro. | No disponible | Recomendado a través de la API de traducción de voz |
Traducción de audio grabado previamente de otros idiomas al inglés. | Recomendado | Disponible a través de la API de traducción de voz |
Traducir audio grabado previamente en idiomas distintos del inglés. | No disponible | Recomendado a través de la API de traducción de voz |
¿El modelo Whisper a través de Voz de Azure AI o a través de Azure OpenAI Service?
Si decide usar el modelo Whisper, tiene dos opciones. Puede elegir si usar el modelo Whisper desdeAzure OpenAI o Voz de Azure AI (transcripción por lotes). En cualquier caso, la legibilidad del texto transcrito será la misma. Es posible introducir audio de idioma mixto y la salida estará en inglés.
El modelo Whisper, a través de Azure OpenAI Service, podría ser el mejor para:
- Transcribir rápidamente archivos de audio de uno en uno
- Traducir audio de otros idiomas al inglés
- Proporcionar un mensaje al modelo para guiar la salida
- Formatos de archivo admitidos: mp3, mp4, mpweg, mpga, m4a, wav y webm
- Solo se admite el carácter ASCII para el nombre de archivo
El modelo Whisper mediante la transcripción por lotes de Voz de Azure AI puede ser más indicado para lo siguiente:
- Transcribir archivos de más de 25 MB (hasta 1 GB). El límite de tamaño de archivo para el modelo Whisper de Azure OpenAI es de 25 MB.
- Transcribir grandes lotes de archivos de audio.
- Diarización para distinguir entre los diferentes hablantes que participen en la conversación. El servicio Voz proporciona información sobre qué hablante hablaba una parte determinada de la voz transcrita. El modelo Whisper a través de Azure OpenAI no admite la diarización.
- Marcas de tiempo de nivel de palabra
- Formatos de archivo admitidos: mp3, wav y ogg.
La compatibilidad regional es otra consideración.
- El modelo Whisper mediante Azure OpenAI Service está disponible en las siguientes regiones: Este de EE. UU. 2, Sur de India, Centro-norte de EE. UU., Este de Noruega, Centro de Suecia, Norte de Suiza y Oeste de Europa.
- El modelo Whisper mediante Voz de Azure AI está disponible en las siguientes regiones:Este de Australia, Este de EE. UU., Centro-norte de EE. UU., Centro-sur de EE. UU., Sudeste de Asia, Sur de Reino Unido y Oeste de Europa.