Contenedores de texto a voz con Docker

Artículo
01/22/2024

Este contenedor neuronal convierte el texto a voz con un sonido natural mediante la tecnología de red neuronal profunda, lo que permite obtener una voz sintetizada más natural. En este artículo, aprenderá a descargar, instalar y ejecutar un contenedor de texto a voz.

Para obtener más información sobre los requisitos previos, validar que el contenedor se esté ejecutando, ejecutar varios contenedores en el mismo host y ejecutar contenedores desconectados, consulte Instalación y ejecución de contenedores de Voz con Docker.

Imágenes del contenedor

La imagen de contenedor neuronal de texto a voz para todas las versiones y configuraciones regionales compatibles se puede encontrar en el sindicato de Microsoft Container Registry (MCR). Reside en el repositorio azure-cognitive-services/speechservices/ y se denomina neural-text-to-speech.

El nombre completo de la imagen de contenedor es mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech. Anexa una versión específica o :latest para obtener la versión más reciente.

Versión	Path
Más reciente	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest` La etiqueta `latest` extrae la configuración regional `en-US` y la voz `en-us-arianeural`.
3.1.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:3.1.0-amd64-en-us-arianeural`

Todas las etiquetas, salvo latest, tienen el formato siguiente y distinguen mayúsculas de minúsculas:

<major>.<minor>.<patch>-<platform>-<voice>-<preview>

Las etiquetas también están disponibles en formato JSON para tu comodidad. El cuerpo incluye la ruta de acceso del contenedor y la lista de etiquetas. Las etiquetas no están ordenadas por versión, pero "latest" siempre se incluye al final de la lista, como se muestra en este fragmento de código:

{
  "name": "azure-cognitive-services/speechservices/neural-text-to-speech",
  "tags": [
    <--redacted for brevity-->
    "3.1.0-amd64-en-us-arianeural",
    "3.1.0-amd64-en-us-guyneural",
    "3.1.0-amd64-en-us-jennymultilingualneural",
    "3.1.0-amd64-en-us-jennyneural",
    "3.1.0-amd64-en-us-michelleneural",
    "3.1.0-amd64-es-es-alvaroneural",
    "3.1.0-amd64-es-es-elviraneural",
    "3.1.0-amd64-es-mx-candelaneural",
    "3.1.0-amd64-es-mx-dalianeural",
    "3.1.0-amd64-es-mx-jorgeneural",
    <--redacted for brevity-->
    "latest"
  ]
}

Importante

El 31 de agosto de 2021 se retiraron las voces de síntesis de voz estándar y el contenedor de texto a voz estándar. En su lugar, debe usar las voces neuronales con el contenedor texto a voz neuronal, versión 3.0 o superior.

A partir del 29 de febrero de 2024, las versiones 2.19 y anteriores del contenedor de texto a voz y de texto neural a voz no serán compatibles. Para más información sobre cómo actualizar cualquier aplicación, consulte Migración de la voz estándar a la voz neuronal pregenerada.

Obtención de la imagen de contenedor con el comando docker pull

Son necesarios los requisitos previos, incluido el hardware necesario. Consulte también la asignación recomendada de recursos para cada contenedor de voz.

Use el comando docker pull para descargar una imagen de contenedor de Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest

Importante

La etiqueta latest extrae la configuración regional en-US y la voz en-us-arianeural. Para obtener configuraciones regionales y voces adicionales, consulte imágenes de contenedor de texto a voz.

Ejecute el contenedor con docker run

Utilice el comando docker run para ejecutar el contenedor.

Texto a voz neuronal
Texto a voz neuronal desconectado

En la tabla siguiente se representan los diversos parámetros de docker run y las descripciones correspondientes:

Parámetro	Descripción
`{ENDPOINT_URI}`	El punto de conexión es necesario para la medición y la facturación. Para más información, consulte los argumentos de facturación.
`{API_KEY}`	Se necesita la clave de API. Para más información, consulta los argumentos de facturación.

Al ejecutar el contenedor de texto a voz, configure el puerto, la memoria y la CPU según los requisitos y recomendaciones del contenedor de texto a voz.

Este es un ejemplo del comando docker run con valores de marcador de posición. Debes especificar los valores ENDPOINT_URI y API_KEY:

docker run --rm -it -p 5000:5000 --memory 12g --cpus 6 \
mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Este comando:

Ejecuta un contenedor de texto a voz neuronal desde la imagen de contenedor.
Asigna 6 núcleos de CPU y 12 GB de memoria.
Expone el puerto TCP 5000 y asigna un seudo-TTY para el contenedor.
Una vez que se produce la salida, quita automáticamente el contenedor. La imagen del contenedor sigue estando disponible en el equipo host.

Para ejecutar contenedores desconectados (no conectados a Internet), debe enviar este formulario de solicitud y esperar la aprobación. Para más información sobre cómo aplicar y comprar un plan de compromiso para usar contenedores en entornos desconectados, consulte Uso de contenedores en entornos desconectados en la documentación de servicios de Azure AI.

Si se le ha aprobado para ejecutar el contenedor desconectado de Internet, use el ejemplo siguiente que muestra el formato del comando docker run que se va a usar, con los valores del marcador de posición. Reemplace estos valores por los suyos.

El parámetro DownloadLicense=True en el comando docker run descargará un archivo de licencia que permitirá que el contenedor de Docker se ejecute sin estar conectado a Internet. También contiene una fecha de expiración, tras la cual el archivo de licencia no es válido para ejecutar el contenedor. Los archivos de licencia solo se pueden usar con el contenedor adecuado para el que se ha recibido aprobación. Por ejemplo, no se pueden usar archivos de licencia para un contenedor speech-to-text con un contenedor neural-text-to-speech.

Marcador de posición	Descripción
`{IMAGE}`	Imagen de contenedor que desea usar. Por ejemplo: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{LICENSE_MOUNT}`	La ruta de acceso donde se descarga y monta la licencia. Por ejemplo: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	Punto de conexión para autenticar la solicitud de servicio. Puede encontrarla en la página Clave y punto de conexión del recurso en Azure Portal. Por ejemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	La clave del recurso de Voz. Puede encontrarla en la página Clave y punto de conexión del recurso en Azure Portal.
`{CONTAINER_LICENSE_DIRECTORY}`	Ubicación de la carpeta de licencias en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Una vez descargado el archivo de licencia, el contenedor se puede ejecutar en un entorno desconectado. En el ejemplo siguiente se muestra el formato del comando docker run que se va a usar, con valores de marcador de posición. Reemplace estos valores por los suyos.

Cada vez que se ejecute el contenedor, es preciso montar el archivo de licencia en el contenedor y la ubicación de la carpeta de licencias en el sistema de archivos local del contenedor debe especificarse con Mounts:License=. También se debe especificar un montaje de salida para que se puedan escribir registros de uso de facturación.

Marcador de posición	Value	Formato o ejemplo
`{IMAGE}`	Imagen de contenedor que desea usar. Por ejemplo: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{MEMORY_SIZE}`	Tamaño adecuado de la memoria que se asignará al contenedor. Por ejemplo: `4g`
`{NUMBER_CPUS}`	Número apropiado de procesadores que se asignan a un contenedor. Por ejemplo: `4`
`{LICENSE_MOUNT}`	La ruta de acceso donde se encuentra y se monta la licencia. Por ejemplo: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	La ruta de acceso de salida para el registro. Por ejemplo: `/host/output:/path/to/output/directory` Para más información, consulte los registros de uso en la documentación de servicios de Azure AI.
`{CONTAINER_LICENSE_DIRECTORY}`	Ubicación de la carpeta de licencias en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Ubicación de la carpeta de salida en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

El contenedor de Voz proporciona un directorio predeterminado para escribir el archivo de licencia y el registro de facturación en tiempo de ejecución. Los directorios predeterminados son /license y /output, respectivamente.

Cuando monte estos directorios en el contenedor con el comando docker run -v, asegúrese de que la propiedad del directorio de la máquina local está establecido en user:group nonroot:nonroot antes de ejecutar el contenedor.

Este es un comando de muestra para establecer la propiedad de un archivo o directorio.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Para obtener más información sobre docker run con los contenedores de Voz, consulte Instalación y ejecución de contenedores de Voz con Docker.

Uso del contenedor

Los contenedores de voz proporcionan las API de punto de conexión de consulta basadas en websocket a las que se accede a través del SDK de voz y la CLI de voz. De forma predeterminada, el SDK de Voz y la CLI de Voz usan el servicio de Voz público. Para usar el contenedor, deberá cambiar el método de inicialización.

Importante

Cuando uses el servicio de voz con contenedores, asegúrate de usar la autenticación de host. Si configuras la clave y la región, las solicitudes irán al servicio de voz público. Es posible que los resultados del servicio de voz no sean los esperados. Se producirá un error en las solicitudes de contenedores desconectados.