¿Qué es la conversión de voz en texto?

En esta introducción, conocerá las ventajas y funcionalidades de la característica de conversión de voz en texto para el servicio de Voz, que es parte de servicios de Azure AI. La conversión de voz en texto se puede usar para la transcripción por lotes o en tiempo real de secuencias de audio en texto.

Nota:

Para comparar los precios de la transcripción en tiempo real con la transcripción por lotes, consulte Precios del servicio de voz.

Para obtener una lista completa de los idiomas de la conversión de voz en texto disponibles, consulte Compatibilidad de idioma y voz.

Conversión de voz en texto en tiempo real

Con la conversión de voz en texto en tiempo real, el audio se transcribe mientras la voz se reconoce desde un micrófono o archivo. Usa la conversión de voz en texto en tiempo real para las aplicaciones que necesiten transcribir audio en tiempo real, como:

La conversión de voz en texto en tiempo real está disponible a través del SDK de Voz y la CLI de Voz.

Transcripción de Azure Batch

La transcripción por lotes se usa para transcribir una gran cantidad de audio en el almacenamiento. Puede apuntar a archivos de audio con un identificador URI de firma de acceso compartido (SAS) y recibir los resultados de las transcripciones de forma asincrónica. Usa la transcripción por lotes para aplicaciones que necesiten transcribir audio de forma masiva, como:

  • Transcripciones, títulos o subtítulos para audio grabado previamente
  • Análisis de llamadas posteriores al centro de contactos
  • Diarización

La transcripción por lotes está disponible a través de:

Voz personalizada

Con la voz personalizada puede evaluar y mejorar la precisión del reconocimiento de voz para sus aplicaciones y productos. Se puede usar un modelo de voz personalizado para la conversión de voz en texto en tiempo real, la traducción de voz y la transcripción por lotes.

Sugerencia

No se requiere un punto de conexión de implementación hospedado para usar la voz personalizada con la API de transcripción de Batch. Es posible conservar los recursos si el modelo de voz personalizado solo se usa para la transcripción por lotes. Para más información, consulte Precios del servicio de voz.

De forma predeterminada, el reconocimiento de voz utiliza un modelo de lenguaje universal como modelo base que se entrena con datos que son propiedad de Microsoft y refleja el idioma hablado que se usa habitualmente. El modelo base está entrenado previamente con dialectos y fonética que representan varios dominios comunes. Al hacer una solicitud de reconocimiento de voz, el modelo base más reciente para cada idioma admitido se usa de manera predeterminada. El modelo base funciona bien en la mayoría de los escenarios de reconocimiento de voz.

Se puede usar un modelo personalizado para aumentar el modelo base para mejorar el reconocimiento del vocabulario concreto del dominio específico de la aplicación proporcionando datos de texto para entrenar el modelo. También se puede usar para mejorar el reconocimiento basado en las condiciones de audio específicas de la aplicación proporcionando datos de audio con transcripciones de referencia. Para más información, consulte Voz personalizada y API de REST de conversión de voz en texto.

Las opciones de personalización varían según el idioma y la configuración regional. Para comprobar la compatibilidad, consulte Compatibilidad de idioma y voz con el servicio de Voz.

IA responsable

Los sistemas de inteligencia artificial no solo incluyen la tecnología, sino también las personas que la usan, las que se ven afectadas por ella y el entorno en el que se implementan. Lea las notas sobre transparencia para obtener información sobre el uso responsable de la inteligencia artificial y la implementación en los sistemas.

Pasos siguientes