Síntesis de voz con la herramienta Creación de contenido de audio

Artículo
01/18/2024

Puede usar la herramienta Creación de contenido de audio en Speech Studio para la síntesis de texto a voz sin escribir código. Puede usar el audio de salida tal como está o como punto de partida para una mayor personalización.

Cree contenido de audio muy natural para varios escenarios, como audiolibros, retransmisión de noticias, narraciones en vídeo y bots de chat. Con Creación de contenido de audio, podrá ajustar las voces de texto a voz de forma eficaz y diseñar experiencias de audio personalizadas.

La herramienta se basa en el lenguaje de marcado de síntesis de voz (SSML). Le permitirá ajustar los atributos de salida de texto a voz en tiempo real o la síntesis de lotes como, por ejemplo, caracteres de voz, estilos de voz, velocidad de habla, pronunciación y prosodia.

Enfoque sin código: es posible usar la herramienta Creación de contenido de audio para la síntesis de texto a voz sin escribir código. El audio de salida puede ser el resultado final que desea. Por ejemplo, puede usar el audio de salida para un podcast o una narración de vídeo.
Apto para desarrolladores: puede escuchar el audio de salida y ajustar el SSML para mejorar la síntesis de voz. A continuación, puede usar el SDK de voz o la CLI de voz para integrar el SSML en las aplicaciones. Por ejemplo, puede usar el SSML para crear un bot de chat.

Tiene fácil acceso a una amplia gama de idiomas y voces. Estas voces incluyen voces neuronales precompiladas de última generación y voces neuronales personalizadas, si ha creado alguna.

Para más información, consulte el vídeo del tutorial de Creación de contenido de audio en YouTube.

Introducción

La herramienta Creación de contenido de audio de Speech Studio es gratuita, pero pagará por el uso del servicio de Voz. Para trabajar con la herramienta, debe iniciar sesión con una cuenta de Azure y crear un recurso de Voz. Para cada cuenta de Azure, tiene cuotas de voz mensuales gratuitas, que incluyen medio millón de caracteres para voces neuronales predefinidas (denominadas Neuronal en la página de precios). Por lo general, la cantidad asignada mensualmente es suficiente para un pequeño equipo de creación de contenido de alrededor de 3 a 5 personas.

En las siguientes secciones se explica cómo crear una cuenta de Azure y obtener un recurso de Voz.

Paso 1: Creación de una cuenta de Azure

Para trabajar con Creación de contenido de audio, debe tener una cuenta de Microsoft y una cuenta de Azure.

Azure Portal es el lugar centralizado para que administre su cuenta de Azure. Puede crear el recurso de Voz, administrar el acceso al producto y supervisar todo, desde aplicaciones web sencillas hasta implementaciones complejas en la nube.

Paso 2: Creación de un recurso de Voz

Después de registrarse para obtener la cuenta de Azure, debe crear un recurso de Voz en su cuenta de Azure para acceder a los servicios de voz. Cree un recurso de voz en Azure Portal. Para más información, consulte Crear un recurso multiservicio.

La implementación del recurso de voz nuevo puede tardar unos instantes. Una vez completada la implementación, puede comenzar a usar la herramienta Creación de contenido de audio.

Nota

Si tiene previsto usar voces neuronales, asegúrese de crear el recurso en una región que admita este tipo de voces.

Después de obtener la cuenta de Azure y el recurso de Voz, inicie sesión en Speech Studio y, después, seleccione Creación de contenido de audio.
Seleccione la suscripción de Azure y el recurso de Voz con el que desea trabajar y, a continuación, seleccione Use resource (Usar recurso).

La próxima vez que inicie sesión en Creación de contenido de audio, se le vinculará directamente a los archivos de audio de trabajo en el recurso de Voz actual. Puede comprobar los detalles y el estado de las suscripciones de Azure en Azure Portal.

Si no tiene un recurso de Voz disponible y es el propietario o administrador de una suscripción de Azure, también puede crear un nuevo recurso de Voz en Speech Studio; para ello, seleccione Crear un nuevo recurso.

Si tiene un rol de usuario para una determinada suscripción de Azure, podría no tener permisos para crear un nuevo recurso de Voz. Para obtener acceso, póngase en contacto con el administrador.

Para cambiar el recurso de Voz en cualquier momento, seleccione Configuración en la parte superior de la página.

Para cambiar de directorio, seleccione Configuración o vaya al perfil.

Usar la herramienta

En el diagrama siguiente se muestra el proceso para ajustar de forma precisa las salidas de texto a voz.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Cada paso del diagrama anterior se describe aquí:

Elija el recurso de Voz con el que desea trabajar.
Creación de un archivo de ajuste de audio con texto sin formato o scripts SSML. Escriba o cargue el contenido en Creación de contenido de audio.
Elija la voz y el lenguaje del contenido del script. Creación de contenido de audio incluye todas las voces de texto a voz precompiladas. Puede usar voces neuronales predefinidas o una voz neural personalizada.

Nota:

El acceso controlado está disponible para Voz neuronal personalizada, por lo que puede crear voces de alta definición similares a la voz natural. Para más información, consulte el proceso de control de acceso.
Seleccione el contenido que desea obtener en vista previa y, luego, seleccione Reproducir (icono de triángulo) para obtener una vista previa de la salida de síntesis predeterminada.

Si realiza algún cambio en el texto, seleccione el icono Detener y, luego, seleccione Reproducir de nuevo para volver a generar el audio con scripts modificados.

Mejore la salida mediante el ajuste de la pronunciación, las interrupciones, el tono, la velocidad, la entonación, el estilo de voz, etc. Para obtener una lista completa de opciones, consulte Lenguaje de marcado de síntesis de voz.

Para obtener más información sobre cómo ajustar de forma precisa la salida de voz, vea el video Cómo convertir texto a voz mediante voces de Microsoft Azure AI.
Guarde y exporte el audio optimizado.

Cuando guarde la pista de ajuste en el sistema, podrá seguir trabajando e iterar en la salida. Cuando esté satisfecho con el resultado, puede crear una tarea de creación de audio con la característica de exportación. Puede observar el estado de la tarea de exportación y descargar la salida para usarla con sus aplicaciones y productos.

Creación de un archivo de ajuste de audio

Puede obtener el contenido en la herramienta Creación de contenido de audio de dos maneras:

Opción 1
1. Haga clic en Nuevo>Archivo de texto para crear un nuevo archivo de ajuste de audio.
2. Escriba o pegue el contenido en la ventana de edición. El número permitido de caracteres para cada archivo es de 20 000 o menos. Si el script contiene más de 20 000 caracteres, puede usar la opción 2 para dividir automáticamente el contenido en varios archivos.
3. Seleccione Guardar.

Opción 2

Seleccione Cargar>Archivo de texto para importar uno o varios archivos de texto. Se admiten el texto sin formato y SSML.

Si el archivo de script tiene más de 20 000 caracteres, divida el contenido por párrafos, por caracteres o por expresiones regulares.

Al cargar los archivos de texto, asegúrese de que cumplen estos requisitos:

Propiedad	Descripción
Formato de archivo	Texto sin formato (.txt)* Texto en SSML (.txt)** No se admiten los archivos ZIP.
Formato de codificación	UTF-8
Nombre de archivo	Cada archivo debe tener un nombre único. No se admiten los archivos duplicados.
Longitud del texto	El límite de caracteres es 20 000. Si los archivos superan el límite, puede dividirlos según las instrucciones de la herramienta.
Restricciones de SSML	Cada archivo SSML solo puede contener un único fragmento de SSML.

* Ejemplo de texto sin formato:

Welcome to use Audio Content Creation to customize audio output for your products.

** Ejemplo de texto en SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Exportación de audio ajustado

Una vez que haya revisado la salida de audio y esté satisfecho con la optimización y el ajuste, podrá exportar el audio.

Seleccione Exportar para crear una tarea de creación de audio.

Se recomienda exportar a la biblioteca de audio para almacenar y buscar fácilmente la salida de audio en la nube. Lo podrá integrar mejor con las aplicaciones mediante Azure Blob Storage. También puede descargar directamente el audio al disco local.

Elija el formato de salida para el audio ajustado. Los formatos de audio y las frecuencias de muestreo admitidos se enumeran en la tabla siguiente:

Formato	Frecuencia de muestreo de 8 kHz	Frecuencia de muestreo de 16 kHz	Frecuencia de muestreo de 24 kHz	Frecuencia de muestreo de 48 kHz
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/D	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Para ver el estado de la tarea, seleccione la pestaña Lista de tareas.

Si se produce un error en la tarea, consulte la página de información detallada para obtener un informe completo.
Una vez completada la tarea, el audio está disponible para su descarga en el panel Biblioteca de audio.
Seleccione el archivo que quiere descargar y seleccione Descargar.

Ahora está listo para usar el audio ajustado personalizado en sus aplicaciones o productos.

Configuración de BYOS y el acceso de lectura público anónimo a blobs

Si pierde el permiso de acceso a Bring Your Own Storage (BYOS), no podrá ver, crear, editar ni eliminar archivos. Para reanudar el acceso, deberá quitar el almacenamiento actual y volver a configurar BYOS en Azure Portal. Para más información sobre cómo configurar BYOS, consulte Montaje de Azure Storage como recurso compartido local en App Service.

Después de configurar el permiso de BYOS, deberá configurar el acceso de lectura público anónimo para contenedores y blobs relacionados. De lo contrario, los datos de blob no estarán disponibles para el acceso público y el archivo de léxico en el blob será inaccesible. De forma predeterminada, la configuración de acceso público de un contenedor está deshabilitada. Para conceder a los usuarios anónimos acceso de lectura a un contenedor y sus blobs, establezca primero Permitir el acceso público de blobs en Habilitado para permitir el acceso público para la cuenta de almacenamiento y, a continuación, establezca el nivel de acceso público (denominado acc-public-files) del contenedor (acceso de lectura anónimo solo para blobs). Para obtener más información sobre cómo configurar el acceso de lectura público anónimo, consulte Configuración del acceso de lectura público anónimo a contenedores y blobs.

Incorporación o eliminación de usuarios de Creación de contenido de audio

Si más de un usuario desea usar Creación de contenido de audio, puede concederles acceso de usuario a la suscripción de Azure y al recurso de voz. Si agrega usuarios a una suscripción de Azure, pueden acceder a todos los recursos de esa suscripción. Pero si agrega usuarios solo a un recurso de Voz, solo tendrán acceso a dicho recurso y no a otros recursos de esta suscripción de Azure. Los usuarios con acceso al recurso Voz pueden utilizar la herramienta Creación de contenido de audio.

Los usuarios a los que concede acceso necesitan configurar una cuenta de Microsoft. Si no tienen una cuenta Microsoft, pueden crear una en tan solo unos minutos. Pueden usar su correo electrónico existente y vincularlo a una cuenta de Microsoft, o pueden crear y usar una dirección de correo electrónico de Outlook como una cuenta de Microsoft.

Incorporación de usuarios a un recurso de Voz

Para agregar usuarios a un recurso de Voz para que puedan usar Creación de contenido de audio, haga lo siguiente:

En Azure Portal, seleccione Todos los servicios.
A continuación, seleccione los servicios de Azure AI y navegue hasta el recurso de Voz específico.

Nota:

También puede configurar Azure RBAC para grupos de recursos completos, suscripciones o grupos de administración. Para ello, seleccione el nivel de ámbito que quiera y navegue hasta el elemento deseado (por ejemplo, seleccione Grupos de recursos y, a continuación, haga clic en el grupo de recursos que quiera).
Seleccione Control de acceso (IAM) en el panel de navegación izquierdo.
Seleccione Agregar ->Agregar asignación de roles.
En la pestaña Rol de la siguiente pantalla, seleccione el rol que desea agregar. (en este caso, Propietario).
En la pestaña Miembros, escriba la dirección de correo electrónico del usuario y seleccione el nombre de usuario en el directorio. La dirección de correo electrónico debe estar vinculada a una cuenta de Microsoft, en la que Microsoft Entra ID confíe. Los usuarios pueden registrar fácilmente una cuenta de Microsoft utilizando una dirección de correo electrónico personal.
En la pestaña Revisión y asignación, seleccione Revisión y asignación para asignar el rol.

Esto es lo que sucederá a continuación:

Se envía automáticamente una invitación por correo electrónico a los usuarios. Pueden aceptarla seleccionando Aceptar invitación>Accept to join Azure (Aceptar para unirse a Azure) en su correo electrónico. Se les redirigirá a Azure Portal. No tienen que realizar ninguna otra acción en Azure Portal. Transcurridos unos instantes, a los usuarios se les asigna el rol en el ámbito del recurso de Voz, lo que les proporciona acceso a este recurso de Voz. Si los usuarios no reciben el correo electrónico de invitación, puede buscar sus cuentas en Asignaciones de roles e ir a sus perfiles. Busque Identidad>Invitación aceptada y seleccione (administrar) para volver a enviar la invitación por correo electrónico. También puede copiar el vínculo de invitación y enviárselo.

Los usuarios ahora visitan o actualizan la página del producto Creación de contenido de audio e inician sesión con sus cuentas de Microsoft. Seleccionan el bloque Creación de contenido de audio entre todos los productos de voz. Eligen el recurso de Voz en la ventana emergente o en la configuración de la esquina superior derecha.

Si no pueden encontrar el recurso de Voz disponible, pueden comprobar que están en el directorio correcto. Para ello, seleccionan el perfil de cuenta en la esquina superior derecha y, luego, seleccionan Cambiar junto a Directorio actual. Si hay más de un directorio disponible, significa que tienen acceso a varios directorios. Pueden cambiar a directorios diferentes e ir a Configuración para ver si el recurso de Voz correcto está disponible.

Los usuarios que están en el mismo recurso de Voz verán el trabajo de los demás en la herramienta Creación de contenido de audio. Si desea que cada usuario individual tenga un área de trabajo única y privada en Creación de contenido de audio, cree un nuevo recurso de Voz para cada usuario y conceda a cada usuario el acceso exclusivo al recurso de voz.

Eliminación de usuarios de un recurso de Voz

Busque los servicios de Azure AI en Azure Portal y seleccione el recurso de Voz del que desea eliminar usuarios.
Seleccione Control de acceso (IAM) y, luego, elija la pestaña Asignaciones de roles para ver todas las asignaciones de roles para este recurso de Voz.
Seleccione los usuarios que quiera quitar, elija Quitar y, luego, seleccione Aceptar.

Permitir a los usuarios conceder acceso a otros

Si desea permitir que un usuario conceda acceso a otros usuarios, debe asignarles el rol de propietario del recurso de Voz y establecer el usuario como lector de directorios de Azure.

Agregue al usuario como propietario del recurso de Voz. Para más información, consulte Incorporación de usuarios a un recurso de voz.
En Azure Portal, seleccione el menú contraído ubicado en la esquina superior izquierda, elija Microsoft Entra ID y, luego, seleccione Usuarios.
Busque la cuenta de Microsoft del usuario, vaya a su página de detalles y seleccione Roles asignados.
Haga clic en Agregar asignaciones>Lectores de directorios. Si el botón Agregar asignaciones no está disponible, significa que no tiene acceso. Solo el administrador global de este directorio puede agregar asignaciones a los usuarios.

Síntesis de voz con la herramienta Creación de contenido de audio

Introducción

Paso 1: Creación de una cuenta de Azure

Paso 2: Creación de un recurso de Voz

Usar la herramienta

Creación de un archivo de ajuste de audio

Exportación de audio ajustado

Configuración de BYOS y el acceso de lectura público anónimo a blobs

Incorporación o eliminación de usuarios de Creación de contenido de audio

Incorporación de usuarios a un recurso de Voz

Eliminación de usuarios de un recurso de Voz

Permitir a los usuarios conceder acceso a otros

Pasos siguientes

Recursos adicionales

Síntesis de voz con la herramienta Creación de contenido de audio

Introducción

Paso 1: Creación de una cuenta de Azure

Paso 2: Creación de un recurso de Voz

Paso 3: Inicio de sesión en Creación de contenido de audio con la cuenta de Azure y el recurso de voz

Usar la herramienta

Creación de un archivo de ajuste de audio

Exportación de audio ajustado

Configuración de BYOS y el acceso de lectura público anónimo a blobs

Incorporación o eliminación de usuarios de Creación de contenido de audio

Incorporación de usuarios a un recurso de Voz

Eliminación de usuarios de un recurso de Voz

Permitir a los usuarios conceder acceso a otros

Pasos siguientes

Recursos adicionales