Compartir vía


¿Qué es el modelo Whisper?

El modelo whisper es un modelo de voz a texto de OpenAI que puede usar para transcribir o traducir archivos de audio. El modelo es entrenado en un gran conjunto de datos de audio y texto en inglés.

  • El modelo está optimizado para transcribir archivos de audio que contienen voz en inglés.
  • El modelo también se puede usar para traducir archivos de audio que contienen voz en otros lenguajes. La salida de la transcripción es texto en inglés.

Los modelos de susurro están disponibles a través de Azure OpenAI en los modelos de Microsoft Foundry o a través de Azure Speech in Foundry Tools. Las características difieren para esas ofertas. En Voz de Azure (transcripción por lotes), Whisper es solo uno de los varios modelos que puede usar para la conversión de voz en texto.

Podría preguntarle:

  • ¿El modelo de susurro es una buena opción para mi escenario o es mejor un modelo de Voz de Azure? ¿Cuáles son las comparaciones de API entre los dos tipos de modelos?

  • Si quiero usar el modelo de susurro, ¿debo usarlo a través de Azure OpenAI o a través de Voz de Azure? ¿Cuáles son los escenarios que me guían para usar uno u otro?

Modelo Whisper o modelos de voz de Azure

El modelo de susurro o los modelos de Voz de Azure son adecuados en función de los escenarios. Si decide usar Azure Speech, puede elegir entre varios modelos, incluido el modelo de susurro. En la tabla siguiente se comparan las opciones con recomendaciones sobre por dónde empezar.

Escenario Modelo Whisper Modelos de Voz de Azure
Transcripciones, títulos y subtítulos en tiempo real para audio y vídeo. No disponible Recomendado
Transcripciones, títulos y subtítulos para audio y vídeo grabado previamente. El modelo Whisper a través de Azure OpenAI se recomienda para el procesamiento rápido de archivos de audio individuales. El modelo Whisper a través de Azure Speech (batch transcription) se recomienda para el procesamiento por lotes de archivos grandes. Para más información, vea ¿Modelo Whisper mediante la transcripción por lotes de Voz de Azure o Azure OpenAI? Recomendado para el procesamiento por lotes de archivos grandes, diarización y marcas de tiempo de nivel de palabra.
Transcripción de análisis y grabaciones de llamadas telefónicas, como resúmenes de llamadas, opiniones, temas clave e información personalizada. Disponible Recomendado
Análisis y transcripción en tiempo real para ayudar a los agentes del centro de llamadas con preguntas de los clientes. No disponible Recomendado
Transcripciones de análisis y grabaciones de reuniones, como resumen de reuniones, capítulos de reuniones y extracción de elementos de acción. Disponible Recomendado
Entrada de texto en tiempo real y generación de documentos mediante dictado de voz. No disponible Recomendado
Agente de voz del centro de contactos: enrutamiento de llamadas y respuesta de voz interactiva para centros de llamadas. Disponible Recomendado
Asistente para voz: asistente para voz específico de la aplicación para un descodificador, aplicación móvil, para el coche y otros escenarios. Disponible Recomendado
Valoración de la pronunciación: valoración de la pronunciación de la voz de un hablante. No disponible Recomendado
Traducción de audio en directo de un idioma a otro. No disponible Se recomienda mediante la API de traducción de voz.
Traducción de audio grabado previamente de otros idiomas al inglés. Recomendado También está disponible a través de la API de traducción de voz.
Traducir audio grabado previamente en idiomas distintos del inglés. No disponible Se recomienda mediante la API de traducción de voz.

¿El modelo Whisper a través de Voz de Azure o a través de Azure OpenAI?

Si decide usar el modelo Whisper, tiene dos opciones. Puede elegir si va a usar el modelo de susurro a través de Azure OpenAI o a través de Azure Speech (transcripción por lotes). En cualquier caso, la legibilidad del texto transcrito será la misma.

El modelo de susurro a través de Azure OpenAI puede ser el mejor para:

  • Transcribir archivos de audio rápidamente, uno a uno.
  • Traduzca audio de otros idiomas en inglés. Es posible introducir audio de idioma mixto y la salida estará en inglés.
  • Proporcione un mensaje al modelo para guiar la salida.
  • Formatos de archivo admitidos: mp3, mp4, mpweg, mpga, m4a, wav y webm.
  • Solo se admite el carácter ASCII para el nombre de archivo.

El modelo Whisper a través de la transcripción por lotes de Azure Speech podría ser el más adecuado para:

  • Transcribir archivos de más de 25 MB (hasta 1 GB). El límite de tamaño de archivo para el modelo Whisper de Azure OpenAI es de 25 MB.
  • Transcribir grandes lotes de archivos de audio.
  • Diarización para distinguir entre los diferentes hablantes que participen en la conversación. El servicio Voz proporciona información sobre qué hablante hablaba una parte determinada de la voz transcrita. El modelo Whisper a través de Azure OpenAI no admite la diarización.
  • Marcas de tiempo de nivel de palabra
  • Formatos de archivo admitidos: mp3, wav y ogg.

La compatibilidad regional es otra consideración.