Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El modelo whisper es un modelo de voz a texto de OpenAI que puede usar para transcribir o traducir archivos de audio. El modelo es entrenado en un gran conjunto de datos de audio y texto en inglés.
- El modelo está optimizado para transcribir archivos de audio que contienen voz en inglés.
- El modelo también se puede usar para traducir archivos de audio que contienen voz en otros lenguajes. La salida de la transcripción es texto en inglés.
Los modelos de susurro están disponibles a través de Azure OpenAI en los modelos de Microsoft Foundry o a través de Azure Speech in Foundry Tools. Las características difieren para esas ofertas. En Voz de Azure (transcripción por lotes), Whisper es solo uno de los varios modelos que puede usar para la conversión de voz en texto.
Podría preguntarle:
¿El modelo de susurro es una buena opción para mi escenario o es mejor un modelo de Voz de Azure? ¿Cuáles son las comparaciones de API entre los dos tipos de modelos?
Si quiero usar el modelo de susurro, ¿debo usarlo a través de Azure OpenAI o a través de Voz de Azure? ¿Cuáles son los escenarios que me guían para usar uno u otro?
Modelo Whisper o modelos de voz de Azure
El modelo de susurro o los modelos de Voz de Azure son adecuados en función de los escenarios. Si decide usar Azure Speech, puede elegir entre varios modelos, incluido el modelo de susurro. En la tabla siguiente se comparan las opciones con recomendaciones sobre por dónde empezar.
| Escenario | Modelo Whisper | Modelos de Voz de Azure |
|---|---|---|
| Transcripciones, títulos y subtítulos en tiempo real para audio y vídeo. | No disponible | Recomendado |
| Transcripciones, títulos y subtítulos para audio y vídeo grabado previamente. | El modelo Whisper a través de Azure OpenAI se recomienda para el procesamiento rápido de archivos de audio individuales. El modelo Whisper a través de Azure Speech (batch transcription) se recomienda para el procesamiento por lotes de archivos grandes. Para más información, vea ¿Modelo Whisper mediante la transcripción por lotes de Voz de Azure o Azure OpenAI? | Recomendado para el procesamiento por lotes de archivos grandes, diarización y marcas de tiempo de nivel de palabra. |
| Transcripción de análisis y grabaciones de llamadas telefónicas, como resúmenes de llamadas, opiniones, temas clave e información personalizada. | Disponible | Recomendado |
| Análisis y transcripción en tiempo real para ayudar a los agentes del centro de llamadas con preguntas de los clientes. | No disponible | Recomendado |
| Transcripciones de análisis y grabaciones de reuniones, como resumen de reuniones, capítulos de reuniones y extracción de elementos de acción. | Disponible | Recomendado |
| Entrada de texto en tiempo real y generación de documentos mediante dictado de voz. | No disponible | Recomendado |
| Agente de voz del centro de contactos: enrutamiento de llamadas y respuesta de voz interactiva para centros de llamadas. | Disponible | Recomendado |
| Asistente para voz: asistente para voz específico de la aplicación para un descodificador, aplicación móvil, para el coche y otros escenarios. | Disponible | Recomendado |
| Valoración de la pronunciación: valoración de la pronunciación de la voz de un hablante. | No disponible | Recomendado |
| Traducción de audio en directo de un idioma a otro. | No disponible | Se recomienda mediante la API de traducción de voz. |
| Traducción de audio grabado previamente de otros idiomas al inglés. | Recomendado | También está disponible a través de la API de traducción de voz. |
| Traducir audio grabado previamente en idiomas distintos del inglés. | No disponible | Se recomienda mediante la API de traducción de voz. |
¿El modelo Whisper a través de Voz de Azure o a través de Azure OpenAI?
Si decide usar el modelo Whisper, tiene dos opciones. Puede elegir si va a usar el modelo de susurro a través de Azure OpenAI o a través de Azure Speech (transcripción por lotes). En cualquier caso, la legibilidad del texto transcrito será la misma.
El modelo de susurro a través de Azure OpenAI puede ser el mejor para:
- Transcribir archivos de audio rápidamente, uno a uno.
- Traduzca audio de otros idiomas en inglés. Es posible introducir audio de idioma mixto y la salida estará en inglés.
- Proporcione un mensaje al modelo para guiar la salida.
- Formatos de archivo admitidos: mp3, mp4, mpweg, mpga, m4a, wav y webm.
- Solo se admite el carácter ASCII para el nombre de archivo.
El modelo Whisper a través de la transcripción por lotes de Azure Speech podría ser el más adecuado para:
- Transcribir archivos de más de 25 MB (hasta 1 GB). El límite de tamaño de archivo para el modelo Whisper de Azure OpenAI es de 25 MB.
- Transcribir grandes lotes de archivos de audio.
- Diarización para distinguir entre los diferentes hablantes que participen en la conversación. El servicio Voz proporciona información sobre qué hablante hablaba una parte determinada de la voz transcrita. El modelo Whisper a través de Azure OpenAI no admite la diarización.
- Marcas de tiempo de nivel de palabra
- Formatos de archivo admitidos: mp3, wav y ogg.
La compatibilidad regional es otra consideración.
- Para obtener la lista actual de regiones en las que está disponible el modelo Whisper, consulte la tabla de regiones del servicio de voz.