¿Qué es el texto a voz?

En esta introducción, conocerá las ventajas y funcionalidad de texto a voz para el servicio de voz, que es parte de Azure Cognitive Services.

La característica de texto a voz permite que sus aplicaciones, herramientas o dispositivos conviertan el texto en una voz sintetizada similar a la humana. La funcionalidad de texto a voz también se conoce como síntesis de voz. Puede usar voces neuronales pregeneradas de serie, similares a la voz humana, o puede optar por una voz neuronal personalizada, exclusiva para su producto o marca. Para obtener una lista completa de las voces, idiomas y configuraciones regionales compatibles, consulte Compatibilidad con idiomas y voz para el servicio voz.

Características principales

La característica de texto a voz incluye las siguientes características:

Característica Resumen Demostración
Voz neuronal pregenerada (denominada Neuronal en la página de precios) Voces muy naturales y lista para su uso. Cree una cuenta de Azure y una suscripción al servicio de voz. Después podrá usar el SDK de Voz o visitar el portal de Speech Studio y seleccionar voces neuronales pregeneradas para empezar. Consulte los detalles de precios. Consulte la Galería de voces y determine la voz adecuada para las necesidades de su empresa.
Voz neuronal personalizada (llamada Neuronal personalizada en la página de precios) Autoservicio fácil de usar para crear una voz de marca natural, con acceso limitado para un uso responsable. Cree una cuenta de Azure y una suscripción al servicio de voz (con el nivel de S0) y seleccione Aplicar para usar la característica de voz neuronal personalizada. Una vez que se le haya concedido acceso, puede visitar el portal de Speech Studio y seleccione Voz personalizada para empezar. Consulte los detalles de precios. Compruebe las muestras de voz.

Más información sobre las características neuronales del servicio de texto a voz

La característica de texto a voz del servicio de voz en Azure se ha renovado completamente para usar el motor de texto a voz neuronal. Este motor usa redes neuronales profundas para hacer que las voces de los equipos no se distingan prácticamente de las grabaciones de personas. Gracias a la clara articulación de las palabras, la funcionalidad de texto a voz neuronal reduce significativamente la fatiga auditiva cuando los usuarios interactúan con sistemas de inteligencia artificial.

Los patrones de acentuación y entonación en el lenguaje hablado se denominan prosodia. Los sistemas de texto a voz tradicionales desglosan la prosodia en pasos de predicción acústica y análisis lingüísticos independientes que rigen modelos independientes. Esto puede dar lugar a una síntesis de voz amortiguada y con ruido.

A continuación se proporciona más información sobre las características neuronales de texto a voz en el servicio de voz y cómo superan los límites de los sistemas tradicionales de texto a voz:

  • Síntesis de voz en tiempo real: use el SDK de Voz o la API REST para convertir texto a voz mediante las voces neuronales pregeneradas o las voces neuronales personalizadas.

  • Síntesis asincrónica de audio de larga duración: use Batch synthesis API (versión preliminar) para sintetizar asincrónicamente archivos de texto a voz de más de 10 minutos (por ejemplo, audiolibros o conferencias). A diferencia de la síntesis realizada mediante el SDK de Voz o la API REST de voz a texto, las respuestas no se devuelven en tiempo real. La expectativa es que las solicitudes se envíen de forma asincrónica, se sondeen las respuestas y el audio sintetizado se descargue cuando el servicio lo permita.

  • Voces neuronales pregeneradas: la característica de texto a voz neuronal de Microsoft usa redes neuronales profundas para superar los límites de la síntesis de voz tradicional, con respecto al acento y la entonación en el lenguaje hablado. La predicción de la prosodia y la síntesis de voz tienen lugar simultáneamente, lo que resulta en una voz más fluida y natural. Cada modelo de voz neuronal precompilado está disponible a 24 kHz y alta fidelidad de 48 kHz. Mediante el uso de voces neuronales, podrá:

    • Hacer que las interacciones con bots de chat y asistentes de voz sean más naturales y atractivas.
    • Convertir textos digitales como libros electrónicos en audiolibros.
    • Mejorar los sistemas de navegación en el automóvil.

    Para obtener una lista completa de las voces neuronales de la plataforma, consulte Compatibilidad de idioma y voz con el servicio voz.

  • Ajustar la salida de texto a voz con SSML: el lenguaje de marcado de síntesis de voz (SSML) es un lenguaje de marcado basado en XML que se usa para personalizar las salidas de texto a voz. Mediante SSML, puede ajustar el tono, agregar pausas, mejorar la pronunciación, cambiar la velocidad del habla, ajustar el volumen y atribuir varias voces a un solo documento.

    Puede usar SSML para definir sus propios léxicos o cambiar a diferentes estilos de habla. Con las voces multilingües, también puede ajustar los idiomas de habla mediante SSML. A fin de ajustar la salida de voz para su escenario, vea Mejora de la síntesis con lenguaje de marcado de síntesis de voz y Síntesis de voz con la herramienta Creación de contenido de audio.

  • Visemas: los visemas son los principales planteamientos de la voz observada, incluida la posición de los labios, mandíbula y lengua al producir un fonema determinado. Las visemas tienen una correlación fuerte con las voces y fonemas.

    Mediante el uso de eventos de visema en el SDK de Voz, puede generar datos de animación facial. Estos datos se pueden usar para animar caras en la comunicación con lectura de labios, la educación, el entretenimiento y el servicio de atención al cliente. Actualmente, los visemas solo se admiten para las voces neuronalesen-US (Inglés de EE. UU.).

Nota

Tenemos previsto retirar las voces tradicionales o estándar y la voz personalizada no neuronal en 2024. Después de esa fecha, se dejarán de usar.

Si sus aplicaciones, herramientas o productos usan cualquiera de las voces estándar y las voces personalizadas, debe migrar a la versión neuronal. Para más información, consulte Migración a voces neuronales.

Introducción

Para empezar a usar el servicio de texto a voz, consulte el inicio rápido. El servicio de texto a voz está disponible en el SDK de Voz, la API REST y la CLI de Voz.

Sugerencia

Para convertir texto a voz con un enfoque sin código, pruebe la herramienta Creación de contenido de audio en Speech Studio.

Código de ejemplo

El ejemplo de código para texto a voz está disponible en GitHub. Estos ejemplos tratan la conversión de texto a voz en los lenguajes de programación más populares.

Voz neuronal personalizada

Además de las voces neuronales pregeneradas, puede crear y ajustar voces neuronales personalizadas exclusivas para su producto o marca. Todo lo que se necesita para empezar son unos cuantos archivos de audio y las transcripciones asociadas. Para más información, consulte Creación de un proyecto de Voz neuronal personalizada.

Nota de precios

Caracteres facturables

Cuando use la característica de texto a voz, se le cobrará por cada carácter que se convierta a voz, incluida la puntuación. Aunque el documento SSML en sí no es facturable, los elementos opcionales que se usan para ajustar el modo de convertir el texto a voz, como los fonemas y el tono, se cuentan como caracteres facturables. Aquí tiene una lista de lo que se puede facturar:

  • El texto que se pase a la característica de texto a voz en el cuerpo SSML de la solicitud.
  • Todas las marcas en el campo de texto del cuerpo de la solicitud que están en formato SSML, excepto las etiquetas <speak> y <voice>.
  • Letras, puntuación, espacios, tabulaciones, marcas y todos los caracteres de espacios en blanco.
  • Cada punto de código que se define en Unicode

Para obtener información detallada, consulte Precios del servicio voz.

Importante

Cada carácter chino cuenta como dos caracteres a efectos de facturación, incluidos el carácter Kanji usado en japonés, el carácter Hanja usado en coreano o el carácter Hanzi usado en otros idiomas.

Tiempo de hospedaje y entrenamiento del modelo para Voz neuronal personalizada

El entrenamiento y el hospedaje de Voz neuronal personalizada se calculan por hora y se facturan por segundo. Para conocer el precio unitario de facturación, consulte Precios del servicio de Voz.

El tiempo de entrenamiento de Voz neuronal personalizada (CNV) se mide mediante "horas de proceso" (una unidad para medir el tiempo de ejecución de la máquina). Normalmente, al entrenar un modelo de voz, se ejecutan en paralelo dos tareas de proceso. Por lo tanto, las horas de proceso calculadas serán más que el tiempo de entrenamiento real. En promedio, se tarda menos de una hora de proceso en entrenar una voz CNV Lite, mientras que para CNV Pro, normalmente se tardan entre 20 y 40 horas de proceso para entrenar una voz de estilo único y alrededor de 90 horas de proceso para entrenar una voz de varios estilos. El tiempo de entrenamiento de CNV se factura con un límite de 96 horas de proceso. Por lo tanto, en el caso de que un modelo de voz se entrene en 98 horas de proceso, solo se le cobrarán 96 horas de proceso.

El hospedaje del punto de conexión de Voz neuronal personalizada (CNV) se mide con el tiempo real (horas). El tiempo de hospedaje (horas) de cada punto de conexión se calcula a las 00:00 UTC todos los días para las 24 horas anteriores. Por ejemplo, si el punto de conexión ha estado activo durante 24 horas el día uno, se facturará por las 24 horas a las 00:00 UTC el segundo día. Si el punto de conexión se acaba de crear o se ha suspendido durante el día, se le facturará por su tiempo de ejecución acumulado hasta las 00:00 UTC del segundo día. Si el punto de conexión no está hospedado actualmente, no se facturará. Además del cálculo diario a las 00:00 UTC cada día, la facturación también se desencadena inmediatamente cuando se elimina o se suspende un punto de conexión. Por ejemplo, para un punto de conexión creado a las 08:00 UTC el 1 de diciembre, las horas de hospedaje se calcularán como 16 horas a las 00:00 UTC el 2 de diciembre y 24 horas a las 00:00 UTC del 3 de diciembre. Si el usuario suspende el hospedaje del punto de conexión a las 16:30 UTC del 3 de diciembre, se calculará la duración (16.5 horas) desde las 00:00 a las 16:30 UTC del 3 de diciembre para la facturación.

Documentos de referencia

Pasos siguientes