Voz neuronal personalizada Básico (versión preliminar)

Artículo
09/15/2024

Voz de Azure AI proporciona dos tipos de proyecto de Voz neuronal personalizada (CNV): CNV Lite y CNV Professional.

Voz neuronal personalizada (CNV) Profesional permite cargar los datos de entrenamiento recopilados a través de estudios de grabación profesionales y crear una voz de mayor calidad casi indistinguible de sus muestras humanas. El acceso CNV Profesional está limitado en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.
Voz neuronal personalizada (CNV) Lite es un tipo de proyecto en versión preliminar pública. Puede realizar una demostración y evaluar Voz neuronal personalizada antes de invertir en grabaciones profesionales para crear una voz de mayor calidad. No se requiere ninguna aplicación con fines de demostración y evaluación. Sin embargo, Microsoft restringe y selecciona los ejemplos de grabación y las pruebas para su uso con CNV Lite. Debe solicitar acceso completo a CNV Professional para implementar y usar el modelo CNV Lite para fines empresariales. En ese caso, solicite acceso en el formulario de ingesta.

Con un proyecto de CNV Lite, se registra la voz en línea mediante la lectura de entre 20 y 50 scripts predefinidos proporcionados por Microsoft. Después de grabar al menos 20 muestras, puede empezar a entrenar un modelo. Una vez que el modelo se entrena correctamente, puede revisarlo y consultar 20 ejemplos de salida generados con otro conjunto de scripts predefinidos.

Consulte los idiomas admitidos para la voz neuronal personalizada.

Comparación de tipos de proyecto

En la tabla siguiente se resumen las principales diferencias entre los tipos de proyecto CNV Lite y CNV Profesional.

Items	Lite (versión preliminar)	Pro
Escenarios de destino	Demostración o evaluación	Escenarios profesionales como voces de marca y caracteres para bots de chat o lectura de contenido de audio.
Datos de aprendizaje.	Registro en línea mediante Speech Studio	Traiga sus propios datos. Se recomienda grabar en un estudio profesional.
Scripts para grabación	Se proporciona en Speech Studio	Use sus propios scripts que coincidan con el escenario de caso de uso. Microsoft proporciona scripts de ejemplo como referencia.
Tamaño de datos requerido	De 20 a 50 expresiones	De 300 a 2000 expresiones
Tiempo de entrenamiento	Menos de una hora de proceso	Aproximadamente entre 20 y 40 horas de proceso
Calidad de voz	Calidad moderada	Calidad alta
Disponibilidad	Cualquier persona puede grabar ejemplos en línea y entrenar un modelo con fines de demostración y evaluación. Si desea implementar el modelo CNV Lite para su uso empresarial, es necesario tener acceso completo a Voz neuronal personalizada.	La carga de datos no está restringida, pero solo puede entrenar e implementar un modelo de CNV Profesional después de que se apruebe el acceso. El acceso CNV Profesional está limitado en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.
Precios	Los precios por unidad se aplican igualmente a los proyectos de CNV Lite y CNV Profesional. Consulte aquí los detalles de precios.	Los precios por unidad se aplican igualmente a los proyectos de CNV Lite y CNV Profesional. Consulte aquí los detalles de precios.

Creación de un proyecto de Voz neuronal personalizada Lite

Para crear un proyecto de Voz neuronal personalizada Lite, siga estos pasos:

Inicie sesión en Speech Studio.
Seleccione la suscripción y el recurso de voz con los que quiere trabajar.
Seleccione Voz personalizada>Crear un proyecto.
Seleccione Voz neuronal personalizada Lite>siguiente. Para crear un proyecto profesional de voz neuronal personalizada en su lugar, consulte Creación de un proyecto para la voz neuronal personalizada.
Siga las instrucciones del asistente para crear el proyecto.

Importante

El proyecto CNV Lite expira después de 90 días a menos que se envíe la declaración verbal grabada por el actor de voz.
Seleccione el nuevo proyecto por el nombre o elija Ir al proyecto. Verá estos elementos de menú en el panel izquierdo: Registrar y compilar, Revisar modelo e Implementar modelo.

Registro y compilación de un modelo CNV Lite

Grabe al menos 20 muestras de voz (hasta 50) con scripts proporcionados en línea. Las muestras de voz grabadas aquí se usan para crear una versión sintética de su voz.

Nota:

El entrenamiento de voz neuronal personalizada actualmente solo está disponible en algunas regiones. Consulte las notas al pie en la tabla de regiones para obtener más información.

Aquí tiene algunos consejos para ayudarle a grabar sus muestras de voz:

Use un buen micrófono. Aumente la claridad de las muestras mediante un micrófono de alta calidad. Hable sobre 8 pulgadas lejos del micrófono para evitar ruidos de boca.
Evite el ruido de fondo. Grabe en una sala silenciosa, sin ruido de fondo ni eco.
Relájese y hable de forma natural. Déjese expresar emociones mientras lee las oraciones.
Grabar en una toma. Para mantener un nivel de energía coherente, grabe todas las oraciones en una sesión.
Pronuncie cada palabra correctamente y hable claramente.

Para registrar y compilar un modelo CNV Lite, siga estos pasos:

Seleccione Voz personalizada >El nombre del proyecto> Grabar y compilar.
Seleccione Comenzar.
Lea detenidamente los términos de uso del talento de voz. Active la casilla para aceptar las condiciones de uso.
Seleccione Accept (Aceptar)
Presione el icono del micrófono para iniciar la comprobación de ruido. Esta comprobación de ruido tarda solo unos segundos y no tiene que hablar durante ella.
Si se detectó ruido, puede seleccionar Comprobar de nuevo para repetir la comprobación de ruido. Si no se detectó ruido, puede seleccionar Listo para continuar con el paso siguiente.
Revise las sugerencias de grabación y selecciónela. Para obtener los mejores resultados, muévase a un área silenciosa, sin ruido de fondo antes de grabar las muestras de voz.
Presione el icono del micrófono para iniciar la grabación.
Presione el icono de detención para detener la grabación.
Revisar las métricas de calidad. Después de grabar cada muestra, compruebe su métrica de calidad antes de continuar con la siguiente.
Grabe más ejemplos. Aunque puede crear un modelo con solo 20 muestras, se recomienda grabar hasta 50 para obtener una mejor calidad.
Seleccione Entrenar modelo para iniciar el proceso de entrenamiento.

El proceso de entrenamiento tarda aproximadamente una hora de proceso. Puede comprobar el progreso del proceso de entrenamiento en la página Revisar modelo.

Revisar modelo

Para revisar el modelo CNV Lite y escuchar su propia voz sintética, siga estos pasos:

Seleccione Voz personalizada >El nombre del proyecto> Revisar modelo. Aquí puede revisar el nombre del modelo de voz, el lenguaje del modelo, el tamaño de los datos de ejemplo y el progreso del entrenamiento. El nombre de voz se compone de la palabra "Neural" anexada al nombre del proyecto.
Seleccione el nombre del modelo de voz para revisar los detalles del modelo y escuchar los resultados de texto a voz de ejemplo.
Seleccione el icono de reproducción para oír que la voz hable cada script.

Enviar declaración verbal

Se requiere una declaración verbal grabada por el actor de voz para poder implementar el modelo para su uso empresarial.

Para enviar la declaración verbal del actor de voz, siga estos pasos:

Seleccione Voz personalizada >El nombre del proyecto> Implementar modelo>Administrar el talento de voz.
Seleccione el modelo.
Escriba el nombre del actor de voz y el nombre de la compañía.
Lea y registre la instrucción. Seleccione el icono del micrófono para iniciar la grabación. Seleccione el icono de detención para detener la grabación.
Seleccione Enviar para enviar la instrucción.
Compruebe el estado de procesamiento en la tabla de scripts en la parte inferior del panel. Una vez que el estado es Correcto, puede implementar el modelo.

Implementación de un modelo

Para implementar el modelo de voz y usarlo en las aplicaciones, debe obtener el acceso completo a Voz neuronal personalizada. Solicitar acceso en el formulario de ingesta. En un plazo de aproximadamente 10 días laborables, recibirá un correo electrónico con el estado de aprobación. También se requiere una declaración verbal grabada por el actor de voz para poder implementar el modelo para su uso empresarial.

Para implementar un modelo CNV Lite, siga estos pasos:

Seleccione Voz personalizada> El nombre del proyecto >Implementar modelo>implementación del modelo.
Seleccione un nombre de modelo de voz y, a continuación, seleccione Siguiente.
Ingrese un nombre y una descripción para el punto de conexión y luego seleccione Siguiente.
Active la casilla para aceptar los términos de uso y, a continuación, seleccione Siguiente.
Seleccione Implementar para implementar el modelo.

Desde aquí, puede usar el modelo de voz CNV Lite de forma similar a como usaría un modelo de voz CNV Profesional. Por ejemplo, puede suspender o reanudar un punto de conexión después de su creación para limitar el gasto y conservar los recursos que no están en uso. También puede acceder a la voz en la herramienta Creación de contenido de audio en Speech Studio.

Compartir a través de