¿Qué es el modelo Whisper?

El modelo Whisper es un modelo de conversión de voz en texto de OpenAI que puede usar para transcribir archivos de audio. El modelo es entrenado en un gran conjunto de datos de audio y texto en inglés. El modelo está optimizado para transcribir archivos de audio que contienen voz en inglés. El modelo también se puede usar para transcribir archivos de audio que contengan voz en otros lenguajes. La salida del modelo es texto en inglés.

Los modelos Whisper están disponibles mediante Azure OpenAI Service o mediante Voz de Azure AI. Las características difieren para esas ofertas. En Voz de Azure AI, Whisper es solo uno de los varios modelos de conversión de voz en texto que puede usar.

Podría preguntar:

  • ¿Es el modelo Whisper una buena opción para mi escenario o es mejor un modelo de Voz de Azure AI? ¿Cuáles son las comparaciones de API entre los dos tipos de modelos?

  • Si quisiera usar el modelo Whisper, ¿debería usarlo a través de Azure OpenAI Service o a través de Voz de Azure AI? ¿Cuáles son los escenarios que me guían para usar uno u otro?

Modelo Whisper o modelos de Voz de Azure AI

El modelo Whisper o los modelos de Voz de Azure AI son adecuados en función de los escenarios. Si decide usar Voz de Azure AI, puede elegir entre varios modelos, incluido el modelo Whisper. En la tabla siguiente se comparan las opciones con recomendaciones sobre por dónde empezar.

Escenario Modelo Whisper Modelos de Voz de Azure AI
Transcripciones, títulos y subtítulos en tiempo real para audio y vídeo. No disponible Recomendado
Transcripciones, títulos y subtítulos para audio y vídeo grabado previamente. El modelo Whisper a través de Azure OpenAI se recomienda para el procesamiento rápido de archivos de audio individuales. El modelo Whisper a través de Voz de Azure AI se recomienda para el procesamiento por lotes de archivos grandes. Para obtener más información, consulte Modelo Whisper a través de Voz de Azure AI o Azure OpenAI Service? Recomendado para el procesamiento por lotes de archivos grandes, diarización y marcas de tiempo de nivel de palabra.
Transcripción de análisis y grabaciones de llamadas telefónicas, como resúmenes de llamadas, opiniones, temas clave e información personalizada. Disponible Recomendado
Análisis y transcripción en tiempo real para ayudar a los agentes del centro de llamadas con preguntas de los clientes. No disponible Recomendado
Transcripciones de análisis y grabaciones de reuniones, como resumen de reuniones, capítulos de reuniones y extracción de elementos de acción. Disponible Recomendado
Entrada de texto en tiempo real y generación de documentos mediante dictado de voz. No disponible Recomendado
Agente de voz del centro de contactos: enrutamiento de llamadas y respuesta de voz interactiva para centros de llamadas. Disponible Recomendado
Asistente para voz: asistente para voz específico de la aplicación para un descodificador, aplicación móvil, para el coche y otros escenarios. Disponible Recomendado
Valoración de la pronunciación: valoración de la pronunciación de la voz de un hablante. No disponible Recomendado
Traducción de audio en directo de un idioma a otro. No disponible Recomendado a través de la API de traducción de voz
Traducción de audio grabado previamente de otros idiomas al inglés. Recomendado Disponible a través de la API de traducción de voz
Traducir audio grabado previamente en idiomas distintos del inglés. No disponible Recomendado a través de la API de traducción de voz

¿El modelo Whisper a través de Voz de Azure AI o a través de Azure OpenAI Service?

Si decide usar el modelo Whisper, tiene dos opciones. Es posible elegir si se va a usar el modelo Whisper a través de Azure OpenAI o a través de Voz de Azure AI. En cualquier caso, la legibilidad del texto transcrito será la misma. Es posible introducir audio de idioma mixto y la salida estará en inglés.

El modelo Whisper, a través de Azure OpenAI Service, podría ser el mejor para:

  • Transcribir rápidamente archivos de audio de uno en uno
  • Traducir audio de otros idiomas al inglés
  • Proporcionar un mensaje al modelo para guiar la salida
  • Formatos de archivo admitidos: mp3, mp4, mpweg, mpga, m4a, wav y webm

El modelo Whisper, a través de Voz de Azure AI, podría ser el mejor para:

  • Transcribir archivos de más de 25 MB (hasta 1 GB). El límite de tamaño de archivo para el modelo Whisper de Azure OpenAI es de 25 MB.
  • Transcribir grandes lotes de archivos de audio
  • Diarización para distinguir entre los diferentes hablantes que participen en la conversación. El servicio Voz proporciona información sobre qué hablante hablaba una parte determinada de la voz transcrita. El modelo Whisper a través de Azure OpenAI no admite la diarización.
  • Marcas de tiempo de nivel de palabra
  • Formatos de archivo admitidos: mp3, wav y ogg
  • Personalización del modelo básico de Whisper para mejorar la precisión de su escenario (próximamente)

La compatibilidad regional es otra consideración.

  • El modelo Whisper mediante Azure OpenAI Service está disponible en las siguientes regiones: Este de EE. UU. 2, Sur de India, Centro-norte de EE. UU., Este de Noruega, Centro de Suecia y Oeste de Europa.
  • El modelo Whisper mediante Voz de Azure AI está disponible en las siguientes regiones:Este de Australia, Este de EE. UU., Centro-norte de EE. UU., Centro-sur de EE. UU., Sudeste de Asia, Sur de Reino Unido y Oeste de Europa.

Pasos siguientes