Compartir a través de


Entrenamiento de su modelo de voz profesional

En este artículo, aprenderá a ajustar una voz profesional a través del portal de Azure AI Foundry.

Importante

El ajuste de voz profesional solo está disponible actualmente en algunas regiones. Una vez entrenado el modelo de voz en una región compatible, puede copiar el modelo de voz profesional en un recurso de Azure AI Foundry en otra región según sea necesario. Para más información, consulte las notas al pie de página de la tabla del servicio de Voz.

La duración del entrenamiento varía en función de la cantidad de datos que use. Se tarda aproximadamente 40 horas de computación en promedio en ajustar una voz profesional. Con un recurso estándar (S0) de Azure AI Foundry, puede entrenar cuatro voces simultáneamente. Si alcanza el límite, espere hasta que al menos uno de los modelos de voz finalice el aprendizaje e inténtelo de nuevo.

Nota

Aunque el número total de horas necesarias por método de entrenamiento varía, se aplica el mismo precio unitario a cada uno. Para obtener más información, vea los detalles de precios de entrenamiento neuronal personalizado.

Elección de un método de entrenamiento

Después de validar los archivos de datos, úselos para compilar el modelo de voz personalizado. Al crear una voz personalizada, puede elegir entrenarla con uno de los métodos siguientes:

  • Neuronal: cree una voz en el mismo idioma de sus datos de entrenamiento.

  • Neuronal: multilingüe: cree una voz que hable un idioma diferente al de sus datos de entrenamiento. Comience con 300 expresiones. Por ejemplo, con los datos de entrenamiento zh-CN, puede crear una voz que hable en-US.

    El idioma de los datos de entrenamiento y el de destino deben ser uno de los idiomas compatibles con el entrenamiento de voz multilingüe. No es necesario preparar datos de entrenamiento en el idioma de destino, pero el script de prueba sí que debe estar escrito en el idioma de destino.

  • Neuronal: varios estilos: cree una voz personalizada cuya habla incorpore varios estilos y emociones, sin agregar nuevos datos de entrenamiento. Las voces de varios estilos son útiles para personajes de videojuegos, bots de chat de conversación, audiolibros, lectores de contenido y mucho más.

    Para crear una voz de varios estilos, debe preparar un conjunto de datos de entrenamiento generales, al menos 300 expresiones. Seleccione uno o varios de los estilos de habla de destino preestablecidos. También puede crear múltiples estilos personalizados proporcionando ejemplos de estilo, de al menos 100 expresiones por estilo, como datos de entrenamiento adicionales para la misma voz. Los estilos preestablecidos admitidos varían según los distintos idiomas. Consulte Estilos preestablecidos disponibles en diferentes idiomas.

  • Neural - multilingüe (versión preliminar): cree una voz que hable varios idiomas con los datos de entrenamiento de un solo idioma. Por ejemplo, con los datos de entrenamiento principales en-US, puede crear una voz que hable en-US, de-DE, zh-CN, etc. idiomas secundarios.

    El idioma principal de los datos de entrenamiento y los idiomas secundarios debe estar en los idiomas admitidos para el entrenamiento de voz multilingüe. No es necesario preparar los datos de entrenamiento en los idiomas secundarios.

El idioma de los datos de entrenamiento debe ser uno de los idiomas que se admiten para la voz personalizada, el lenguaje cruzado o el entrenamiento de varios estilos.

Entrenamiento del modelo de voz personalizado

Para crear una voz personalizada en el portal de Azure AI Foundry, siga estos pasos para uno de los métodos siguientes:

  1. Inicie sesión en Portal de la Fundición de IA de Azure.

  2. Seleccione Ajuste preciso en el panel izquierdo y, a continuación, seleccione Ajuste preciso del servicio DE IA.

  3. Seleccione la tarea de ajuste de la precisión de Voz profesional (por nombre del modelo) que ha iniciado como se describe en el artículo creación de voz profesional.

  4. Seleccione Entrenar modelo>+ Entrenar modelo.

  5. Seleccione Neuronal como método de entrenamiento para el modelo. Para usar otro método de entrenamiento, consulte Neural - cross lingual, Neural - multi style, Neural - multi lingual (versión preliminar) o Neural - HD Voice (versión preliminar).

    Captura de pantalla que muestra cómo seleccionar el entrenamiento neuronal.

  6. Seleccione una versión de la receta de entrenamiento para el modelo. La versión más reciente se seleccionará de forma predeterminada. Las características admitidas y el tiempo de entrenamiento pueden variar según la versión. Normalmente, se recomienda la última versión. En algunos casos, puede elegir una versión anterior para reducir el tiempo de entrenamiento. Consulte Formación bilingüe para obtener más información sobre la formación bilingüe y las diferencias entre configuraciones regionales.

  7. Seleccione Next (Siguiente).

  8. Seleccione los datos que quiere usar para el entrenamiento. Los nombres de audio duplicados se quitan del entrenamiento. Asegúrese de que los datos que seleccione no contengan los mismos nombres de audio en varios archivos .zip.

    Solo puede seleccionar conjuntos de datos procesados correctamente para el entrenamiento. Si no ve el conjunto de entrenamiento en la lista, compruebe el estado de procesamiento de datos.

  9. Seleccione un archivo de hablante con la declaración de actor de voz que corresponda al hablante en los datos de entrenamiento.

  10. Seleccione Next (Siguiente).

  11. Seleccione un script de prueba y, a continuación, seleccione Siguiente.

    • Cada entrenamiento genera 100 archivos de audio de muestra automáticamente para ayudarle a probar el modelo con un script predeterminado.
    • Como alternativa, puede seleccionar Agregar mi propio script de prueba y proporcionar su propio script de prueba con hasta 100 expresiones para probar el modelo sin costo adicional. Los archivos de audio generados son una combinación de los scripts de prueba automáticos y los personalizados. Para obtener más información, vea los requisitos del script de prueba.
  12. Escriba un nombre de modelo de voz. Elija un nombre con cuidado. El nombre del modelo se usa como nombre de voz en la solicitud de síntesis de voz mediante el SDK y la entrada SSML. Solo se permiten letras, números y algunos signos de puntuación. Use nombres diferentes para los modelos de voz neuronal diferentes.

  13. Opcionalmente, escriba la Descripción para ayudarle a identificar el modelo. Un uso habitual de la descripción es registrar los nombres de los datos que se usaron para crear el modelo.

  14. Active la casilla para aceptar los términos de uso y, a continuación, seleccione Siguiente.

  15. Revise la configuración y seleccione la casilla para aceptar las condiciones de uso.

  16. Seleccione Entrenar para iniciar el entrenamiento del modelo.

Formación bilingüe

Si selecciona el tipo de formación neuronal, puede entrenar una voz para hablar en varios idiomas. Las configuraciones regionales zh-CN, zh-HK y zh-TW admiten la formación bilingüe para que la voz hable tanto en chino como en inglés. En función de los datos de entrenamiento, la voz sintetizada puede hablar inglés con un acento nativo inglés o inglés con el mismo acento que los datos de formación.

Nota

Para habilitar una voz en la configuración regional zh-CN para hablar inglés con el mismo acento que los datos de ejemplo, debe cargar los datos en inglés en un conjunto de entrenamiento contextual, o seleccionar Chinese (Mandarin, Simplified), English bilingual al crear un proyecto o especificar la configuración regional zh-CN (English bilingual) para los datos del conjunto de entrenamiento a través de la API de REST.

En el conjunto de entrenamiento contextual, incluya al menos 100 oraciones o 10 minutos de contenido en inglés y no supere la cantidad de contenido chino.

En la siguiente tabla se muestran las diferencias entre las configuraciones regionales:

Configuración regional de Speech Studio Configuración regional de la API de REST Soporte bilingüe
Chinese (Mandarin, Simplified) zh-CN Si los datos de ejemplo incluyen el inglés, la voz sintetizada habla inglés con un acento nativo en inglés, en lugar del mismo acento que los datos de muestra, independientemente de la cantidad de datos en inglés.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Si desea que la voz sintetizada hable inglés con el mismo acento que los datos de ejemplo, se recomienda incluir más del 10 % de los datos en inglés en el conjunto de entrenamiento. De lo contrario, es posible que el acento de habla inglesa no sea ideal.
Chinese (Cantonese, Simplified) zh-HK Si desea entrenar una voz sintetizada capaz de hablar inglés con el mismo acento que los datos de ejemplo, asegúrese de proporcionar más del 10 % de datos en inglés en el conjunto de entrenamiento. De lo contrario, el valor predeterminado es un acento nativo inglés. El umbral del 10 % se calcula en función de los datos aceptados después de la carga correcta, no los datos antes de cargarlos. Si algunos datos cargados en inglés se rechazan debido a defectos y no cumplen el umbral del 10 %, la voz sintetizada tiene como valor predeterminado un acento nativo inglés.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Si desea entrenar una voz sintetizada capaz de hablar inglés con el mismo acento que los datos de ejemplo, asegúrese de proporcionar más del 10 % de datos en inglés en el conjunto de entrenamiento. De lo contrario, el valor predeterminado es un acento nativo inglés. El umbral del 10 % se calcula en función de los datos aceptados después de la carga correcta, no los datos antes de cargarlos. Si algunos datos cargados en inglés se rechazan debido a defectos y no cumplen el umbral del 10 %, la voz sintetizada tiene como valor predeterminado un acento nativo inglés.

Supervisión del proceso de entrenamiento

En la tabla Entrenar modelo se muestra una nueva entrada que corresponde a este modelo recién creado. El estado refleja el proceso de conversión de los datos en un modelo de voz, tal como se describe en esta tabla:

Estado Significado
Procesamiento Se está creando el modelo de voz.
Correcto El modelo de voz se ha creado y se puede implementar.
Con error Se ha producido un error del modelo de voz en el entrenamiento. Las causas del error podrían ser, por ejemplo, problemas de datos no detectados o problemas de red.
Cancelado Se canceló el entrenamiento del modelo de voz.

Mientras el estado del modelo es Procesamiento, puede seleccionar el modelo y, a continuación, seleccionar Cancelar entrenamiento para cancelar el entrenamiento. No se le cobrará por este entrenamiento cancelado.

Captura de pantalla que muestra cómo cancelar el entrenamiento de un modelo.

Cuando termine de entrenar el modelo con éxito, podrá revisar los detalles del modelo y Probar su modelo de voz.

Cambio de nombre del modelo

Debe clonar el modelo para cambiarle el nombre. No se puede cambiar el nombre del modelo directamente.

  1. Seleccione el modelo.
  2. Seleccione Clonar modelo para crear un clon del modelo con un nombre nuevo en el proyecto actual.
  3. Escriba el nuevo nombre en la ventana Modelo de voz clon.
  4. Seleccione Enviar. El texto Neuronal se agregará automáticamente como sufijo al nombre del modelo nuevo.

Prueba del modelo de voz

Una vez que el modelo de voz se haya creado correctamente, puede usar los archivos de audio de muestra generados para probarlo antes de implementarlo.

La calidad de la voz depende de muchos factores, como:

  • El tamaño del conjunto de entrenamiento.
  • La calidad de la grabación.
  • La precisión del archivo de transcripción.
  • La correspondencia de la voz grabada en los datos de entrenamiento con la personalidad de la voz diseñada para el caso de uso previsto.

Seleccione DefaultTests en Pruebas para escuchar los archivos de audio de ejemplo. Los ejemplos de prueba predeterminados incluyen 100 archivos de audio de ejemplo generados automáticamente durante el entrenamiento para ayudarle a probar el modelo. Además de estos 100 archivos de audio proporcionados de manera predeterminada, sus propias expresiones de script de prueba también se agregan al conjunto de DefaultTests. Esta suma es como máximo de 100 expresiones. No se le cobrará por las pruebas con DefaultTests.

Si quiere cargar su propio script de prueba para probar mejor el modelo, seleccione Agregar scripts de prueba para cargarlo.

Antes de cargar el script de prueba, compruebe los requisitos del script de prueba. Se le cobrará por las pruebas adicionales con la síntesis por lotes en función del número de caracteres facturables. Consulte Precios de Voz de Azure AI.

En Agregar scripts de prueba, seleccione Buscar un archivo para seleccionar su propio script y luego Agregar para cargarlo.

Requisitos del script de prueba

El script de prueba debe ser un archivo .txt de menos de 1 MB. Entre los formatos de codificación compatibles se incluyen ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE o UTF-16-BE.

A diferencia de los archivos de transcripción de entrenamiento, el script de prueba debería excluir el id. de la expresión, que es el nombre de archivo de cada expresión. De lo contrario, estos identificadores se pronunciarán.

Este es un conjunto de expresiones de ejemplo en un archivo .txt:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Cada párrafo de la expresión genera un audio independiente. Si desea combinar todas las frases en un solo audio, únalas todas en un párrafo.

Nota

Los archivos de audio generados son una combinación de los scripts de prueba automáticos y los personalizados.

Actualización de la versión del motor del modelo de voz

Los motores de texto a voz de Azure se actualizan de vez en cuando para capturar el modelo de lenguaje más reciente que define la pronunciación del lenguaje. Después de entrenar la voz, puede aplicarla al nuevo modelo de lenguaje mediante una actualización a la versión más reciente del motor.

  • Cuando haya un nuevo motor disponible, se le pedirá que actualice el modelo de voz neuronal.
  • Vaya a la página de detalles del modelo y siga las instrucciones en pantalla para instalar el motor más reciente.
  • Como alternativa, seleccione Instalar el motor más reciente más adelante para actualizar el modelo a la versión más reciente del motor. No se le cobrará por actualizar el motor. También se mantendrán las versiones anteriores.
  • Puede comprobar todas las versiones del motor del modelo en la lista Versión del motor, o quitar una si ya no la necesita.

La versión actualizada se establecerá automáticamente como predeterminada. No obstante, puede cambiar la versión predeterminada seleccionando una versión en la lista desplegable y luego Establecer como predeterminada.

Si quiere probar cada versión del motor de su modelo de voz, puede seleccionar una versión de la lista, después seleccione DefaultTests en Pruebas para escuchar los archivos de audio de muestra. Si quiere cargar sus propios scripts de prueba para seguir probando la versión actual de su motor, asegúrese primero de que la versión está establecida de forma predeterminada y después siga los pasos que se indican en Pruebe su modelo de voz.

Al actualizar el motor, se crea una nueva versión del modelo sin coste adicional. Después de actualizar la versión del motor para el modelo de voz, debe implementar la nueva versión para crear un nuevo punto de conexión. Solo es posible implementar la versión predeterminada.

Después de crear un nuevo punto de conexión, debe transferir el tráfico al nuevo punto de conexión del producto.

Para obtener más información sobre las funcionalidades y los límites de esta característica, y el procedimiento recomendado para mejorar la calidad del modelo, consulte Características y limitaciones para usar voz personalizada.

Copia del modelo de voz en otro proyecto

Nota

En este contexto, "proyecto" hace referencia a una tarea de ajuste preciso en lugar de a un proyecto de Azure AI Foundry.

Después de entrenar, puede copiar el modelo de voz en otro proyecto para la misma región u otra región.

Por ejemplo, puede copiar un modelo de voz profesional entrenado en una región a un proyecto en otra región. El ajuste de voz profesional solo está disponible actualmente en algunas regiones.

Para copiar el modelo de voz personalizado en otro proyecto:

  1. En la pestaña Entrenar modelo, seleccione un modelo de voz que quiera copiar y, a continuación, seleccione Copiar a proyecto.
  2. Seleccione la tarea Suscripción, Región de destino, Servicio de IA conectada (recurso ai Foundry) y Tarea de ajuste de destino donde desea copiar el modelo.
  3. Seleccione Copiar para copiar el modelo.
  4. Seleccione Ver modelo bajo el mensaje de notificación para la copia correcta.

Vaya al proyecto donde ha copiado el modelo para implementar la copia del modelo.

Pasos siguientes

En este artículo, aprenderá a ajustar una voz profesional a través del portal de Speech Studio.

Importante

El ajuste de voz profesional solo está disponible actualmente en algunas regiones. Una vez que su modelo de voz esté entrenado en una región admitida, puede copiarlo a un recurso de AI Foundry para Voz en otra región cuando sea necesario. Para más información, consulte las notas al pie de página de la tabla del servicio de Voz.

La duración del entrenamiento varía en función de la cantidad de datos que use. Se tarda aproximadamente 40 horas de computación en promedio en ajustar una voz profesional. Los usuarios que tengan una suscripción estándar (S0) pueden entrenar cuatro voces simultáneamente. Si alcanza el límite, espere hasta que al menos uno de los modelos de voz finalice el aprendizaje e inténtelo de nuevo.

Nota

Aunque el número total de horas necesarias por método de entrenamiento varía, se aplica el mismo precio unitario a cada uno. Para obtener más información, vea los detalles de precios de entrenamiento neuronal personalizado.

Elección de un método de entrenamiento

Después de validar los archivos de datos, úselos para compilar el modelo de voz personalizado. Al crear una voz personalizada, puede elegir entrenarla con uno de los métodos siguientes:

  • Neuronal: cree una voz en el mismo idioma de sus datos de entrenamiento.

  • Neuronal: multilingüe: cree una voz que hable un idioma diferente al de sus datos de entrenamiento. Comience con 300 expresiones. Por ejemplo, con los datos de entrenamiento zh-CN, puede crear una voz que hable en-US.

    El idioma de los datos de entrenamiento y el de destino deben ser uno de los idiomas compatibles con el entrenamiento de voz multilingüe. No es necesario preparar datos de entrenamiento en el idioma de destino, pero el script de prueba sí que debe estar escrito en el idioma de destino.

  • Neuronal: varios estilos: cree una voz personalizada cuya habla incorpore varios estilos y emociones, sin agregar nuevos datos de entrenamiento. Las voces de varios estilos son útiles para personajes de videojuegos, bots de chat de conversación, audiolibros, lectores de contenido y mucho más.

    Para crear una voz de varios estilos, debe preparar un conjunto de datos de entrenamiento generales, al menos 300 expresiones. Seleccione uno o varios de los estilos de habla de destino preestablecidos. También puede crear múltiples estilos personalizados proporcionando ejemplos de estilo, de al menos 100 expresiones por estilo, como datos de entrenamiento adicionales para la misma voz. Los estilos preestablecidos admitidos varían según los distintos idiomas. Consulte Estilos preestablecidos disponibles en diferentes idiomas.

  • Neural - multilingüe (versión preliminar): cree una voz que hable varios idiomas con los datos de entrenamiento de un solo idioma. Por ejemplo, con los datos de entrenamiento principales en-US, puede crear una voz que hable en-US, de-DE, zh-CN, etc. idiomas secundarios.

    El idioma principal de los datos de entrenamiento y los idiomas secundarios debe estar en los idiomas admitidos para el entrenamiento de voz multilingüe. No es necesario preparar los datos de entrenamiento en los idiomas secundarios.

  • Neural: voz de alta definición (versión preliminar):cree una voz de alta definición en el mismo idioma de los datos de entrenamiento. Las voces neuronales HD de Azure, basadas en LLM, están optimizadas para conversaciones dinámicas. Obtenga más información sobre las voces neuronales de HD aquí.

El idioma de los datos de entrenamiento debe ser uno de los idiomas que se admiten para la voz personalizada, el lenguaje cruzado o el entrenamiento de varios estilos.

Entrenamiento del modelo de voz personalizado

Para crear una voz personalizada en Speech Studio, siga estos pasos para uno de los métodos siguientes:

  1. Inicie sesión en Speech Studio.

  2. Seleccione voz personalizada><Nombre de su proyecto>>Entrenar modelo>Entrenar un nuevo modelo.

  3. Seleccione Neuronal como método de entrenamiento para el modelo y, después, seleccione Siguiente. Para usar otro método de entrenamiento, consulte Neural - cross lingual o Neural - multi style o Neural - multi lingual (vista previa) o Neural - HD Voice (vista previa).

    Recorte de pantalla en el que se muestra cómo seleccionar el entrenamiento neuronal.

  4. Seleccione una versión de la receta de entrenamiento para el modelo. La versión más reciente se seleccionará de forma predeterminada. Las características admitidas y el tiempo de entrenamiento pueden variar según la versión. Normalmente, se recomienda la última versión. En algunos casos, puede elegir una versión anterior para reducir el tiempo de entrenamiento. Consulte Formación bilingüe para obtener más información sobre la formación bilingüe y las diferencias entre configuraciones regionales.

    Nota

    Las versiones V3.0V7.0 del modelo y V8.0 se retirarán el 25 de julio de 2025. Los modelos de voz ya creados en estas versiones retiradas no se verán afectados.

  5. Seleccione los datos que quiere usar para el entrenamiento. Los nombres de audio duplicados se quitan del entrenamiento. Asegúrese de que los datos que seleccione no contengan los mismos nombres de audio en varios archivos .zip.

    Solo puede seleccionar conjuntos de datos procesados correctamente para el entrenamiento. Si no ve el conjunto de entrenamiento en la lista, compruebe el estado de procesamiento de datos.

  6. Seleccione un archivo de hablante con la declaración de actor de voz que corresponda al hablante en los datos de entrenamiento.

  7. Seleccione Next (Siguiente).

  8. Cada entrenamiento genera 100 archivos de audio de muestra automáticamente para ayudarle a probar el modelo con un script predeterminado.

    De forma opcional, también puede seleccionar Agregar mi propio script de prueba y proporcionar su propio script de prueba con hasta 100 expresiones para probar el modelo sin coste adicional. Los archivos de audio generados son una combinación de los scripts de prueba automáticos y los personalizados. Para obtener más información, vea los requisitos del script de prueba.

  9. Escriba un nombre para ayudarle a identificar el modelo. Elija un nombre con cuidado. El nombre del modelo se usa como nombre de voz en la solicitud de síntesis de voz mediante el SDK y la entrada SSML. Solo se permiten letras, números y algunos signos de puntuación. Use nombres diferentes para los modelos de voz neuronal diferentes.

  10. Opcionalmente, escriba la Descripción para ayudarle a identificar el modelo. Un uso habitual de la descripción es registrar los nombres de los datos que se usaron para crear el modelo.

  11. Seleccione Next (Siguiente).

  12. Revise la configuración y seleccione la casilla para aceptar las condiciones de uso.

  13. Seleccione Enviar para empezar a entrenar el modelo.

Formación bilingüe

Si selecciona el tipo de formación neuronal, puede entrenar una voz para hablar en varios idiomas. Las configuraciones regionales zh-CN, zh-HK y zh-TW admiten la formación bilingüe para que la voz hable tanto en chino como en inglés. En función de los datos de entrenamiento, la voz sintetizada puede hablar inglés con un acento nativo inglés o inglés con el mismo acento que los datos de formación.

Nota

Para habilitar una voz en la configuración regional zh-CN para hablar inglés con el mismo acento que los datos de ejemplo, debe cargar los datos en inglés en un conjunto de entrenamiento contextual, o seleccionar Chinese (Mandarin, Simplified), English bilingual al crear un proyecto o especificar la configuración regional zh-CN (English bilingual) para los datos del conjunto de entrenamiento a través de la API de REST.

En el conjunto de entrenamiento contextual, incluya al menos 100 oraciones o 10 minutos de contenido en inglés y no supere la cantidad de contenido chino.

En la siguiente tabla se muestran las diferencias entre las configuraciones regionales:

Configuración regional de Speech Studio Configuración regional de la API de REST Soporte bilingüe
Chinese (Mandarin, Simplified) zh-CN Si los datos de ejemplo incluyen el inglés, la voz sintetizada habla inglés con un acento nativo en inglés, en lugar del mismo acento que los datos de muestra, independientemente de la cantidad de datos en inglés.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Si desea que la voz sintetizada hable inglés con el mismo acento que los datos de ejemplo, se recomienda incluir más del 10 % de los datos en inglés en el conjunto de entrenamiento. De lo contrario, es posible que el acento de habla inglesa no sea ideal.
Chinese (Cantonese, Simplified) zh-HK Si desea entrenar una voz sintetizada capaz de hablar inglés con el mismo acento que los datos de ejemplo, asegúrese de proporcionar más del 10 % de datos en inglés en el conjunto de entrenamiento. De lo contrario, el valor predeterminado es un acento nativo inglés. El umbral del 10 % se calcula en función de los datos aceptados después de la carga correcta, no los datos antes de cargarlos. Si algunos datos cargados en inglés se rechazan debido a defectos y no cumplen el umbral del 10 %, la voz sintetizada tiene como valor predeterminado un acento nativo inglés.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Si desea entrenar una voz sintetizada capaz de hablar inglés con el mismo acento que los datos de ejemplo, asegúrese de proporcionar más del 10 % de datos en inglés en el conjunto de entrenamiento. De lo contrario, el valor predeterminado es un acento nativo inglés. El umbral del 10 % se calcula en función de los datos aceptados después de la carga correcta, no los datos antes de cargarlos. Si algunos datos cargados en inglés se rechazan debido a defectos y no cumplen el umbral del 10 %, la voz sintetizada tiene como valor predeterminado un acento nativo inglés.

Supervisión del proceso de entrenamiento

En la tabla Entrenar modelo se muestra una nueva entrada que corresponde a este modelo recién creado. El estado refleja el proceso de conversión de los datos en un modelo de voz, tal como se describe en esta tabla:

Estado Significado
Procesamiento Se está creando el modelo de voz.
Correcto El modelo de voz se ha creado y se puede implementar.
Con error Se ha producido un error del modelo de voz en el entrenamiento. Las causas del error podrían ser, por ejemplo, problemas de datos no detectados o problemas de red.
Cancelado Se canceló el entrenamiento del modelo de voz.

Mientras el estado del modelo sea Procesando, puede seleccionar Cancelar entrenamiento si quiere cancelar el modelo de voz. No se le cobrará por este entrenamiento cancelado.

Recorte de pantalla que muestra cómo cancelar el entrenamiento para un modelo.

Cuando termine de entrenar el modelo con éxito, podrá revisar los detalles del modelo y Probar su modelo de voz.

Puede usar la herramienta Creación de contenido de audio en Speech Studio para crear audio y ajustar la voz implementada. Si es aplicable a la voz, puede seleccionar uno de varios estilos.

Cambio de nombre del modelo

  1. Si quiere cambiar el nombre del modelo que ha creado, seleccione Clonar modelo para crear un clon del modelo con un nombre nuevo en el proyecto actual.

    Recorte de pantalla de la selección del botón Clonar modelo.

  2. Escriba el nombre nuevo en la ventana Clonar modelo de voz y luego seleccione Enviar. El texto Neuronal se agregará automáticamente como sufijo al nombre del modelo nuevo.

    Recorte de pantalla de clonar un modelo con un nuevo nombre.

Prueba del modelo de voz

Una vez que el modelo de voz se haya creado correctamente, puede usar los archivos de audio de muestra generados para probarlo antes de implementarlo.

La calidad de la voz depende de muchos factores, como:

  • El tamaño del conjunto de entrenamiento.
  • La calidad de la grabación.
  • La precisión del archivo de transcripción.
  • La correspondencia de la voz grabada en los datos de entrenamiento con la personalidad de la voz diseñada para el caso de uso previsto.

Seleccione DefaultTests en Pruebas para escuchar los archivos de audio de ejemplo. Los ejemplos de prueba predeterminados incluyen 100 archivos de audio de ejemplo generados automáticamente durante el entrenamiento para ayudarle a probar el modelo. Además de estos 100 archivos de audio proporcionados de manera predeterminada, sus propias expresiones de script de prueba también se agregan al conjunto de DefaultTests. Esta suma es como máximo de 100 expresiones. No se le cobrará por las pruebas con DefaultTests.

Recorte de pantalla de la selección de DefaultTests en periodo de prueba.

Si quiere cargar su propio script de prueba para probar mejor el modelo, seleccione Agregar scripts de prueba para cargarlo.

Recorte de pantalla de la adición de scripts de prueba del modelo.

Antes de cargar el script de prueba, compruebe los requisitos del script de prueba. Se le cobrará por las pruebas adicionales con la síntesis por lotes en función del número de caracteres facturables. Consulte Precios de Voz de Azure AI.

En Agregar scripts de prueba, seleccione Buscar un archivo para seleccionar su propio script y luego Agregar para cargarlo.

Recorte de pantalla de la carga de scripts de prueba del modelo.

Requisitos del script de prueba

El script de prueba debe ser un archivo .txt de menos de 1 MB. Entre los formatos de codificación compatibles se incluyen ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE o UTF-16-BE.

A diferencia de los archivos de transcripción de entrenamiento, el script de prueba debería excluir el id. de la expresión, que es el nombre de archivo de cada expresión. De lo contrario, estos identificadores se pronunciarán.

Este es un conjunto de expresiones de ejemplo en un archivo .txt:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Cada párrafo de la expresión genera un audio independiente. Si desea combinar todas las frases en un solo audio, únalas todas en un párrafo.

Nota

Los archivos de audio generados son una combinación de los scripts de prueba automáticos y los personalizados.

Actualización de la versión del motor del modelo de voz

Los motores de texto a voz de Azure se actualizan de vez en cuando para capturar el modelo de lenguaje más reciente que define la pronunciación del lenguaje. Después de entrenar la voz, puede aplicarla al nuevo modelo de lenguaje mediante una actualización a la versión más reciente del motor.

  1. Cuando haya un nuevo motor disponible, se le pedirá que actualice el modelo de voz neuronal.

    Recorte de pantalla de la visualización del mensaje de actualización del motor.

  2. Vaya a la página de detalles del modelo y siga las instrucciones en pantalla para instalar el motor más reciente.

    Recorte de pantalla de las siguientes instrucciones en pantalla para instalar el nuevo motor.

    Como alternativa, seleccione Instalar el motor más reciente más adelante para actualizar el modelo a la versión más reciente del motor.

    Recorte de pantalla de la selección del botón Instalar el motor más reciente para actualizar el motor.

    No se le cobrará por actualizar el motor. También se mantendrán las versiones anteriores.

  3. Puede comprobar todas las versiones del motor del modelo en la lista Versión del motor, o quitar una si ya no la necesita.

    Recorte de la lista desplegable Versión del motor.

    La versión actualizada se establecerá automáticamente como predeterminada. No obstante, puede cambiar la versión predeterminada seleccionando una versión en la lista desplegable y luego Establecer como predeterminada.

    Recorte de pantalla que muestra cómo establecer una versión como predeterminada.

Si quiere probar cada versión del motor de su modelo de voz, puede seleccionar una versión de la lista, después seleccione DefaultTests en Pruebas para escuchar los archivos de audio de muestra. Si quiere cargar sus propios scripts de prueba para seguir probando la versión actual de su motor, asegúrese primero de que la versión está establecida de forma predeterminada y después siga los pasos que se indican en Pruebe su modelo de voz.

Al actualizar el motor, se crea una nueva versión del modelo sin coste adicional. Después de actualizar la versión del motor para el modelo de voz, debe implementar la nueva versión para crear un nuevo punto de conexión. Solo es posible implementar la versión predeterminada.

Recorte de pantalla que muestra cómo volver a implementar una nueva versión del modelo de voz.

Después de crear un nuevo punto de conexión, debe transferir el tráfico al nuevo punto de conexión del producto.

Para obtener más información sobre las funcionalidades y los límites de esta característica, y el procedimiento recomendado para mejorar la calidad del modelo, consulte Características y limitaciones para usar voz personalizada.

Copia del modelo de voz en otro proyecto

Puede copiar el modelo de voz en otro proyecto de la misma región u otra región. Por ejemplo, un modelo de voz neuronal que se entrenó en una región puede copiarse en un proyecto de otra región.

Nota

El ajuste de voz profesional solo está disponible actualmente en algunas regiones. Puede copiar un modelo de voz neuronal de esas regiones a otras regiones. Para obtener más información, consulte las regiones de voz personalizada.

Para copiar el modelo de voz personalizado en otro proyecto:

  1. En la pestaña Entrenar modelo, seleccione un modelo de voz que quiera copiar y, a continuación, seleccione Copiar a proyecto.

    Recorte de pantalla de la opción de copiar en el proyecto.

  2. Seleccione la Suscripción, Región, Recurso de voz y Proyecto donde quiere copiar el modelo. Debe tener un recurso de voz y un proyecto en la región de destino; de lo contrario, debe crearlos antes.

    Recorte de pantalla del cuadro de diálogo de copiar modelo de voz.

  3. Seleccione Enviar para copiar el modelo.

  4. Seleccione Ver modelo bajo el mensaje de notificación para la copia correcta.

Vaya al proyecto donde ha copiado el modelo para implementar la copia del modelo.

Pasos siguientes

En este artículo, aprenderá a ajustar una voz profesional a través de la API de voz personalizada.

Importante

El ajuste de voz profesional solo está disponible actualmente en algunas regiones. Después de entrenar el modelo de voz en una región admitida, puede copiarlo en un recurso de AI Foundry en otra región según sea necesario. Para más información, consulte las notas al pie de página de la tabla del servicio de Voz.

La duración del entrenamiento varía en función de la cantidad de datos que use. Se tarda aproximadamente 40 horas de computación en promedio en ajustar una voz profesional. Los usuarios que tengan una suscripción estándar (S0) pueden entrenar cuatro voces simultáneamente. Si alcanza el límite, espere hasta que al menos uno de los modelos de voz finalice el aprendizaje e inténtelo de nuevo.

Nota

Aunque el número total de horas necesarias por método de entrenamiento varía, se aplica el mismo precio unitario a cada uno. Para obtener más información, vea los detalles de precios de entrenamiento neuronal personalizado.

Elección de un método de entrenamiento

Después de validar los archivos de datos, úselos para compilar el modelo de voz personalizado. Al crear una voz personalizada, puede elegir entrenarla con uno de los métodos siguientes:

  • Neuronal: cree una voz en el mismo idioma de sus datos de entrenamiento.

  • Neuronal: multilingüe: cree una voz que hable un idioma diferente al de sus datos de entrenamiento. Comience con 300 expresiones. Por ejemplo, con los datos de entrenamiento fr-FR, puede crear una voz que hable en-US.

    El idioma de los datos de entrenamiento y el de destino deben ser uno de los idiomas compatibles con el entrenamiento de voz multilingüe. No es necesario preparar datos de entrenamiento en el idioma de destino, pero el script de prueba sí que debe estar escrito en el idioma de destino.

  • Neuronal: varios estilos: cree una voz personalizada cuya habla incorpore varios estilos y emociones, sin agregar nuevos datos de entrenamiento. Las voces de varios estilos son útiles para personajes de videojuegos, bots de chat de conversación, audiolibros, lectores de contenido y mucho más.

    Para crear una voz de varios estilos, debe preparar un conjunto de datos de entrenamiento generales, al menos 300 expresiones. Seleccione uno o varios de los estilos de habla de destino preestablecidos. También puede crear múltiples estilos personalizados proporcionando ejemplos de estilo, de al menos 100 expresiones por estilo, como datos de entrenamiento adicionales para la misma voz. Los estilos preestablecidos admitidos varían según los distintos idiomas. Consulte Estilos preestablecidos disponibles en diferentes idiomas.

    • Neural: voz de alta definición (versión preliminar):cree una voz de alta definición en el mismo idioma de los datos de entrenamiento. Las voces neuronales HD de Azure, basadas en LLM, están optimizadas para conversaciones dinámicas. Obtenga más información sobre las voces neuronales de HD aquí.

El idioma de los datos de entrenamiento debe ser uno de los idiomas que se admiten para la voz personalizada, el lenguaje cruzado o el entrenamiento de voz de varios estilos o HD.

Creación de un modelo de voz

Para crear una voz neuronal, use la operación Models_Create de la API de voz personalizada. Construya el cuerpo de la solicitud según las instrucciones siguientes:

  • Establezca la propiedad projectId obligatoria. Consulte Creación de un proyecto.
  • Establezca la propiedad consentId obligatoria. Consulte Agregar consentimiento de actor de voz.
  • Establezca la propiedad trainingSetId obligatoria. Consulte Creación de un conjunto de entrenamiento.
  • Establezca la propiedad kind de receta necesaria en Default para el entrenamiento de voz neuronal. El tipo de receta indica el método de entrenamiento y no se puede cambiar más adelante. Para usar otro método de entrenamiento, consulte Neural - cross lingual or Neural - multi style or Neural - HD Voice (versión preliminar). Consulte Formación bilingüe para obtener más información sobre la formación bilingüe y las diferencias entre configuraciones regionales.
  • Establezca la propiedad voiceName obligatoria. Elija un nombre con cuidado. El nombre de voz se usa en la solicitud de síntesis de voz por el SDK y la entrada SSML. Solo se permiten letras, números y algunos signos de puntuación. Use nombres diferentes para los modelos de voz neuronal diferentes.
  • Opcionalmente, establezca la propiedad description para la descripción de voz. La descripción de voz se puede cambiar más adelante.

Haz una solicitud HTTP PUT usando el URI como se muestra en el siguiente ejemplo de Models_Create.

  • Reemplace YourResourceKey por su clave de recurso de Voz.
  • Reemplace YourResourceRegion por la región del recurso de Voz.
  • Reemplace JessicaModelId por un identificador de modelo de su elección. El identificador que distingue mayúsculas de minúsculas se usará en el URI del modelo y no se puede cambiar más adelante.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V10.0"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Formación bilingüe

Si selecciona el tipo de formación neuronal, puede entrenar una voz para hablar en varios idiomas. Las configuraciones regionales zh-CN, zh-HK y zh-TW admiten la formación bilingüe para que la voz hable tanto en chino como en inglés. En función de los datos de entrenamiento, la voz sintetizada puede hablar inglés con un acento nativo inglés o inglés con el mismo acento que los datos de formación.

Nota

Para habilitar una voz en la configuración regional zh-CN para hablar inglés con el mismo acento que los datos de ejemplo, debe cargar los datos en inglés en un conjunto de entrenamiento contextual, o seleccionar Chinese (Mandarin, Simplified), English bilingual al crear un proyecto o especificar la configuración regional zh-CN (English bilingual) para los datos del conjunto de entrenamiento a través de la API de REST.

En el conjunto de entrenamiento contextual, incluya al menos 100 oraciones o 10 minutos de contenido en inglés y no supere la cantidad de contenido chino.

En la siguiente tabla se muestran las diferencias entre las configuraciones regionales:

Configuración regional de Speech Studio Configuración regional de la API de REST Soporte bilingüe
Chinese (Mandarin, Simplified) zh-CN Si los datos de ejemplo incluyen el inglés, la voz sintetizada habla inglés con un acento nativo en inglés, en lugar del mismo acento que los datos de muestra, independientemente de la cantidad de datos en inglés.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Si desea que la voz sintetizada hable inglés con el mismo acento que los datos de ejemplo, se recomienda incluir más del 10 % de los datos en inglés en el conjunto de entrenamiento. De lo contrario, es posible que el acento de habla inglesa no sea ideal.
Chinese (Cantonese, Simplified) zh-HK Si desea entrenar una voz sintetizada capaz de hablar inglés con el mismo acento que los datos de ejemplo, asegúrese de proporcionar más del 10 % de datos en inglés en el conjunto de entrenamiento. De lo contrario, el valor predeterminado es un acento nativo inglés. El umbral del 10 % se calcula en función de los datos aceptados después de la carga correcta, no los datos antes de cargarlos. Si algunos datos cargados en inglés se rechazan debido a defectos y no cumplen el umbral del 10 %, la voz sintetizada tiene como valor predeterminado un acento nativo inglés.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Si desea entrenar una voz sintetizada capaz de hablar inglés con el mismo acento que los datos de ejemplo, asegúrese de proporcionar más del 10 % de datos en inglés en el conjunto de entrenamiento. De lo contrario, el valor predeterminado es un acento nativo inglés. El umbral del 10 % se calcula en función de los datos aceptados después de la carga correcta, no los datos antes de cargarlos. Si algunos datos cargados en inglés se rechazan debido a defectos y no cumplen el umbral del 10 %, la voz sintetizada tiene como valor predeterminado un acento nativo inglés.

Estilos preestablecidos disponibles en distintos idiomas

En la tabla siguiente se resumen los distintos estilos preestablecidos según los distintos idiomas.

Estilo del habla Idioma (local)
enfadado Inglés (Estados Unidos) (en-US)
Japonés (Japón) (ja-JP) 1
Chino (mandarín, simplificado) (zh-CN) 1
tranquilo Chino (mandarín, simplificado) (zh-CN) 1
chat Chino (mandarín, simplificado) (zh-CN) 1
alegre Inglés (Estados Unidos) (en-US)
Japonés (Japón) (ja-JP) 1
Chino (mandarín, simplificado) (zh-CN) 1
descontento Chino (mandarín, simplificado) (zh-CN) 1
emocionado Inglés (Estados Unidos) (en-US)
temeroso Chino (mandarín, simplificado) (zh-CN) 1
amigable Inglés (Estados Unidos) (en-US)
esperanzado Inglés (Estados Unidos) (en-US)
triste Inglés (Estados Unidos) (en-US)
Japonés (Japón) (ja-JP) 1
Chino (mandarín, simplificado) (zh-CN) 1
gritando Inglés (Estados Unidos) (en-US)
serio Chino (mandarín, simplificado) (zh-CN) 1
aterrado Inglés (Estados Unidos) (en-US)
antipático Inglés (Estados Unidos) (en-US)
susurrando Inglés (Estados Unidos) (en-US)

1 El estilo de voz neuronal está disponible en versión preliminar pública. Los estilos en versión preliminar pública solo están disponibles en estas regiones de servicio: Este de EE. UU., Oeste de Europa y Sudeste de Asia.


Obtención del estado del entrenamiento

Para obtener el estado de entrenamiento de un modelo de voz, use la operación Models_Get de la API de voz personalizada. Construya el URI de solicitud según las instrucciones siguientes:

Haga una solicitud HTTP GET con el URI, tal como se muestra en el siguiente ejemplo Models_Get.

  • Reemplace YourResourceKey por su clave de recurso de Voz.
  • Reemplace YourResourceRegion por la región del recurso de Voz.
  • Reemplace JessicaModelId si especificó un identificador de modelo diferente en el paso anterior.
curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Debe recibir un cuerpo de respuesta en el siguiente formato.

Nota

La receta kind y otras propiedades dependen de cómo entrene la voz. En este ejemplo, el tipo de receta es Default para el entrenamiento de voz neuronal.

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Es posible que tenga que esperar varios minutos antes de que se complete el entrenamiento. Finalmente, el estado cambiará a Succeeded o Failed.

Pasos siguientes