¿Qué es Speech Service?

El servicio de Voz proporciona funcionalidades de conversión de voz en texto y texto a voz con un recurso de Voz de Azure. Puede transcribir voz en texto con alta precisión, producir voces de texto a voz de sonido natural, traducir audio hablado y usar el reconocimiento del hablante durante las conversaciones.

Imágenes de los iconos que representan algunas de las características del servicio Voz.

Cree voces personalizadas, agregue palabras específicas al vocabulario base o cree sus propios modelos. Ejecute el servicio de Voz en cualquier lugar, en la nube o en el perímetro en contenedores. Es fácil habilitar aplicaciones, herramientas y dispositivos mediante la CLI de Voz, el SDK de voz, Speech Studio o las API REST.

El servicio de Voz está disponible para muchos idiomas, regiones y puntos de precio.

Escenarios de voz

Entre los escenarios comunes de voz, se incluyen:

  • Subtítulos: obtenga información sobre la sincronización de los subtítulos con el audio de entrada, la aplicación de filtros de palabras soeces, la obtención de resultados parciales, la aplicación de personalizaciones y la identificación de los idiomas hablados en escenarios multilingües.
  • Creación de contenido de audio: puede usar voces neuronales para que las interacciones con los bots de chat y los asistentes para voz sean más naturales y atractivas, para convertir textos digitales (por ejemplo, los libros electrónicos) en audiolibros y para mejorar los sistemas de navegación de los automóviles.
  • Centro de llamadas: transcriba llamadas en tiempo real o procese las llamadas en lote, censure la información de identificación personal y extraiga información como opiniones para ayudar con el caso de uso del centro de llamadas.
  • Asistentes para voz: cree interfaces de conversación naturales, similares a la humana, para sus aplicaciones y experiencias. La característica de asistente para voz proporciona una interacción rápida y confiable entre un dispositivo y la implementación de un asistente.

Microsoft usa el servicio de Voz para muchos escenarios, como los subtítulos en Teams, el dictado en Office 365 y la lectura en voz alta en el explorador Edge.

Imagen que muestra los logotipos de los productos de Microsoft en los que se usa el servicio Voz.

Las funcionalidades de voz

A continuación, se proporcionan resúmenes de características del servicio de Voz con vínculos para obtener más información.

Voz a texto

Use la conversión de voz en texto para transcribir audio en texto, ya sea en tiempo real o de forma asincrónica.

Convierta audio en texto a partir de una variedad de orígenes, incluidos micrófonos, archivos de audio y almacenamiento de blobs. Utilice la creación de diarios de los hablantes para determinar quién ha dicho qué y cuándo. Obtenga transcripciones legibles con formato y puntuación automáticos.

Es posible que el modelo base no sea suficiente si el audio contiene ruido ambiente o incluye una gran cantidad de jerga específica del sector y del dominio. En estos casos, puede crear y entrenar modelos de voz personalizados con datos acústicos, de lenguaje y pronunciación. Los modelos de voz personalizados son privados y pueden ofrecer una ventaja competitiva.

Puede probar la conversión de voz en texto con esta aplicación web de demostración o en Speech Studio.

Texto a voz

Con texto a voz, puede convertir el texto de entrada en una voz sintetizada similar a la humana. Use voces neuronales, que son voces similares a las humanas con tecnología de redes neuronales profundas. Use el Lenguaje de marcado de síntesis de voz (SSML) para un ajuste preciso del tono, la pronunciación, la velocidad del habla, el volumen y mucho más.

  • Voz neuronal creada previamente: voces predefinidas muy naturales. Consulte los ejemplos de voz neuronal creada previamente aquí y determine la voz adecuada para sus necesidades empresariales.
  • Voz neuronal personalizada: además de las voces neuronales creadas previamente que vienen listas para usar, también puede crear una voz neuronal personalizada que sea reconocible y única para su marca o producto. Las voces neuronales personalizadas son privadas y pueden ofrecer una ventaja competitiva. Consulte los ejemplos de voz neuronal personalizada aquí.

Traducción de voz

La traducción de voz habilita la traducción de voz en varios idiomas en tiempo real en sus aplicaciones, herramientas y dispositivos. Use esta característica para la traducción de voz a voz y conversión de voz en texto.

Identificación del idioma

La identificación del idioma se usa para identificar los idiomas que se hablan en el audio mediante la comparación con una lista de idiomas admitidos. Use la identificación del idioma por sí mismo, con el reconocimiento de voz en texto o con la traducción de voz.

Reconocimiento del hablante

El reconocimiento del hablante proporciona algoritmos que comprueban e identifican a los hablantes por sus características de voz únicas. El reconocimiento del hablante se usa para responder a la pregunta "¿quién está hablando?".

Evaluación de la pronunciación

La evaluación de la pronunciación evalúa la pronunciación de la voz y ofrece a los oradores comentarios sobre la precisión y la fluidez del audio hablado. Con la evaluación de la pronunciación, los estudiantes de idiomas pueden practicar, obtener comentarios instantáneos y mejorar su pronunciación para poder hablar y realizar presentaciones con confianza.

Reconocimiento de la intención

Reconocimiento de intenciones: use la conversión de voz en texto con Language Understanding (LUIS) para derivar las intenciones del usuario a partir de voz transcrita y actuar en los comandos de voz.

Entrega y presencia

Puede implementar las características de Voz de Azure Cognitive Services en la nube o en el entorno local.

Con los contenedores, puede acercar el servicio a los datos por motivos de cumplimiento, seguridad u otras razones operativas.

La implementación del servicio de Voz en nubes soberanas está disponible para algunas entidades gubernamentales y sus asociados. Por ejemplo, la nube de Azure Government está disponible para las entidades de la Administración Pública de Estados Unidos y sus asociados. La nube de Azure China está disponible para organizaciones con presencia empresarial en China. Para más información, consulte Nubes soberanas.

Diagrama que muestra dónde se puede implementar el servicio Voz y dónde se puede acceder a él.

Uso del servicio de Voz en la aplicación

Speech Studio es un conjunto de herramientas basadas en la interfaz de usuario para crear e integrar características del servicio Voz de Azure Cognitive Services en las aplicaciones. Debe crear proyectos en Speech Studio mediante un enfoque sin código y, a continuación, hacer referencia a esos recursos en las aplicaciones mediante el SDK de Voz, la CLI de Voz o las API de REST.

La CLI del servicio de Voz es una herramienta de la línea de comandos para usar el servicio de Voz sin necesidad de escribir código. La mayoría de las características principales del SDK de voz están disponibles en la CLI de voz, y algunas características y personalizaciones avanzadas se han simplificado en esta última.

El SDK de Voz expone muchas de las funcionalidades del servicio de Voz que se pueden usar para desarrollar aplicaciones habilitadas para voz. El SDK de voz está disponible en muchos lenguajes de programación y en todas las plataformas.

En algunos casos, no puede o no debe usar el SDK de Voz. En esos casos, puede usar las API REST para acceder al servicio de Voz. Por ejemplo, use las API REST para transcripción por lotes y las API REST de reconocimiento del hablante.

Primeros pasos

Ofrecemos inicios rápidos en los lenguajes de programación más conocidos. El diseño de cada inicio rápido le permite ejecutar el código en menos de 10 minutos. Consulte la siguiente lista para obtener la guía de inicio rápido de cada característica:

Ejemplos de código

Hay disponible código de ejemplo para el servicio de Voz en GitHub. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados. Use estos vínculos para ver ejemplos de SDK y REST:

Pasos siguientes