Compartir vía


Elección de una tecnología de generación y reconocimiento de Voz de Azure AI

Los servicios de Azure AI ayudan a los diseñadores y desarrolladores de cargas de trabajo a crear rápidamente aplicaciones inteligentes, vanguardistas, listas para el mercado y responsables con API y modelos listos para usar, precompilados y personalizables.

En este artículo se describen los servicios de Azure AI que ofrecen funcionalidades de generación y reconocimiento de voz, como conversiones de voz a texto y de texto a voz, traducción de audio, reconocimiento de hablantes, así como compatibilidad de lectura para personas con diferencias de aprendizaje.

Nota:

Para recopilar información sobre términos o frases u obtener un análisis contextual detallado del lenguaje hablado o escrito, consulte Elección de una tecnología de procesamiento de lenguaje de destino de Azure AI.

Servicios

Los siguientes servicios de Azure AI pueden proporcionar funcionalidades de generación y reconocimiento de voz para la carga de trabajo.

  • Voz de Azure AI proporciona procesamiento de lenguaje natural para el análisis de texto.

    • Use el servicio voz cuando necesite transcribir o traducir voz hablada o identificar a los hablantes en una conversación. También puede utilizar el servicio como una alternativa de menor coste para la generación de voz con sonido natural frente al Whisper de mayor calidad de los modelos OpenAI.
    • No use el servicio Voz para chat, resumen de contenido, moderación ni guía de usuarios a través de scripts. Para ello, use otros modelos.
  • Immersive Reader es una herramienta que implementa técnicas demostradas para mejorar la comprensión lectora de nuevos lectores, estudiantes de idiomas y personas con diferencias de aprendizaje.

    • Use Immersive Reader para proporcionar una experiencia de legibilidad mejorada adaptada para estudiantes de idiomas o personas con diferencias de aprendizaje.
    • No use Immersive Reader para los casos de uso tradicionales de texto a voz.

Voz de Azure AI

Voz de Azure AI proporciona funcionalidades de voz a texto y de texto a voz con un recurso de Voz. Puede transcribir voz en texto con alta precisión, producir voces de texto a voz de sonido natural, traducir audio hablado y usar el reconocimiento del hablante durante las conversaciones. Cree voces personalizadas, agregue palabras específicas al vocabulario base o cree sus propios modelos. Ejecute el servicio de Voz en cualquier lugar, en la nube o en el perímetro en contenedores.

El servicio de Voz está disponible para muchos idiomas y regiones.

Funcionalidades

En la tabla siguiente se proporciona una lista de las funcionalidades disponibles en el servicio Voz de Azure AI.

Funcionalidad Descripción
Transcripción de Azure Batch Transcriba una gran cantidad de datos de audio en el almacenamiento. Tanto Speech-to-text REST API como la CLI de Voz admiten la transcripción por lotes.
Reconocimiento de la intención Una intención es algo que el usuario quiere hacer: reservar un vuelo, comprobar el tiempo o hacer una llamada. Con el reconocimiento de intenciones, las aplicaciones, herramientas y dispositivos pueden determinar lo que el usuario desea iniciar o hacer en función de las opciones. La intención del usuario se define en el modelo de reconocimiento de la intención o el modelo de reconocimiento del lenguaje conversacional (CLU).
Evaluación de la pronunciación Evalúa la pronunciación de la voz y ofrece a los oradores información sobre la precisión y la fluidez del audio hablado.
Reconocimiento del hablante Speaker Recognition puede ayudar a determinar quién habla en un clip de audio. El servicio puede comprobar e identificar a los hablantes por sus características de voz únicas, mediante la biometría de voz.
Voz a texto Convierte transmisiones de audio en texto en tiempo real o por lotes.
Texto a voz Permite que sus aplicaciones, herramientas o dispositivos conviertan el texto en una voz sintetizada similar a la humana.
Traducción de voz Ofrece una traducción de voz a voz y voz a texto en varios idiomas y en tiempo real.
Traducción de vídeo Traducir y generar vídeos en varios idiomas automáticamente.

Casos de uso

En la tabla siguiente, se enumeran algunas de las formas en las que se puede usar Voz de Azure AI.

Caso de uso Capacidad para usar Descripción
Creación de contenido de audio Voz a texto Puede usar las voces neuronales usar para que las interacciones con los bots de chat y los asistentes de voz sean más naturales y atractivas, para convertir textos digitales (por ejemplo, los libros electrónicos) en audiolibros y para mejorar los sistemas de navegación de los automóviles.
Transcripción para los centros de llamadas Voz a texto Transcriba llamadas en tiempo real o procese las llamadas en lote, censure la información de identificación personal y extraiga información como opiniones para ayudar con el caso de uso del centro de llamadas.
Subtítulos Voz a texto Sincronización de los subtítulos con el audio de entrada, la aplicación de filtros de palabras soeces, la obtención de resultados parciales, la aplicación de personalizaciones y la identificación de los idiomas hablados en escenarios multilingües.
Aprendizaje de idiomas Voz a texto Proporcione comentarios de evaluación de la pronunciación a los aprendices de idiomas, admita la transcripción en tiempo real para conversaciones de aprendizaje remoto y lea materiales de enseñanza en voz alta con voces neuronales.
Asistentes de voz Texto a voz Cree interfaces de conversación naturales, similares a la humana, para sus aplicaciones y experiencias. La característica de asistente para voz proporciona una interacción rápida y confiable entre un dispositivo y la implementación de un asistente.

Immersive Reader

Immersive Reader, parte de los servicios de Azure AI, es una herramienta diseñada de manera inclusiva que implementa técnicas demostradas para mejorar la comprensión lectora de nuevos lectores, estudiantes de idiomas y personas con dificultades de aprendizaje, como la dislexia. Con la biblioteca de cliente de Immersive Reader, puede usar la misma tecnología que se usa en Microsoft Word y Microsoft OneNote para proporcionar una gran experiencia a los usuarios de la carga de trabajo.

Funcionalidades

A continuación se muestra una lista de funcionalidades que la carga de trabajo podría usar para ayudar a los usuarios a alcanzar sus objetivos de comprensión de lectura.

  • Aislar el contenido para mejorar la legibilidad
  • Mostrar imágenes para palabras y términos frecuentes
  • Se pueden resaltar elementos de la oración y la gramática para ayudar a los aprendices a comprender verbos, nombres, pronombres, etc.
  • Leer contenido en voz alta, como el texto seleccionado por el usuario en la interfaz de usuario de la carga de trabajo
  • Traducir contenido a muchos idiomas en tiempo real, lo que ayuda a mejorar la comprensión de los lectores que aprenden un nuevo idioma
  • Dividir las palabras en sílabas para mejorar la legibilidad o para pronunciar sílaba a sílaba palabras nuevas.

Pasos siguientes