Contenitori di sintesi vocale con Docker

Articolo
01/23/2024

Il contenitore di sintesi vocale neurale converte il testo in sintesi vocale naturale usando una tecnologia di rete neurale profonda, che consente una sintesi vocale più naturale. In questo articolo si apprenderà come scaricare, installare ed eseguire un contenitore Sintesi vocale.

Per altre informazioni sui prerequisiti, convalidare l'esecuzione di un contenitore, l'esecuzione di più contenitori nello stesso host e l'esecuzione di contenitori disconnessi, vedere Installare ed eseguire contenitori voce con Docker.

Immagini del contenitore

L'immagine del contenitore di sintesi vocale neurale per tutte le versioni e le impostazioni locali supportate è disponibile nel syndicate di Registro Contenitori Microsoft. Si trova all'interno del azure-cognitive-services/speechservices/ repository ed è denominato neural-text-to-speech.

Il nome completo dell'immagine del contenitore è , mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech. Aggiungere una versione specifica o accodare :latest per ottenere la versione più recente.

Versione	Percorso
Più recente	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest` Il `latest` tag esegue il pull delle impostazioni locali e `en-us-arianeural` della `en-US` voce.
3.1.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:3.1.0-amd64-en-us-arianeural`

Tutti i tag, ad eccezione di latest, sono nel formato seguente e fanno distinzione tra maiuscole e minuscole:

<major>.<minor>.<patch>-<platform>-<voice>-<preview>

I tag sono disponibili anche in formato JSON per praticità. Il corpo include il percorso del contenitore e l'elenco di tag. I tag non vengono ordinati in base alla versione, ma "latest" vengono sempre inclusi alla fine dell'elenco, come illustrato in questo frammento di codice:

{
  "name": "azure-cognitive-services/speechservices/neural-text-to-speech",
  "tags": [
    <--redacted for brevity-->
    "3.1.0-amd64-en-us-arianeural",
    "3.1.0-amd64-en-us-guyneural",
    "3.1.0-amd64-en-us-jennymultilingualneural",
    "3.1.0-amd64-en-us-jennyneural",
    "3.1.0-amd64-en-us-michelleneural",
    "3.1.0-amd64-es-es-alvaroneural",
    "3.1.0-amd64-es-es-elviraneural",
    "3.1.0-amd64-es-mx-candelaneural",
    "3.1.0-amd64-es-mx-dalianeural",
    "3.1.0-amd64-es-mx-jorgeneural",
    <--redacted for brevity-->
    "latest"
  ]
}

Importante

Il 31 agosto 2021 sono stati ritirati le voci di sintesi vocale standard e il testo standard. È consigliabile usare le voci neurali con il contenitore neurale da testo a voce versione 3.0 e successive.

A partire dal 29 febbraio 2024, il testo per la sintesi vocale e il testo neurale nelle versioni 2.19 e precedenti non sono supportati. Per altre informazioni sull'aggiornamento dell'applicazione, vedere Eseguire la migrazione dalla voce standard alla voce neurale predefinita.

Ottenere l'immagine del contenitore con docker pull

Sono necessari i prerequisiti, incluso l'hardware richiesto. Vedere anche l'allocazione consigliata di risorse per ogni contenitore voce.

Usare il comando docker pull per scaricare un'immagine del contenitore da Registro Contenitori Microsoft:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest

Importante

Il latest tag esegue il pull delle impostazioni locali e en-us-arianeural della en-US voce. Per altre impostazioni locali e voci, vedere Sintesi vocale.

Eseguire il contenitore con docker run

Usare il comando docker run per eseguire il contenitore.

Sintesi vocale neurale
Sintesi vocale neurale disconnessa

La tabella seguente rappresenta i vari docker run parametri e le relative descrizioni corrispondenti:

Parametro	Descrizione
`{ENDPOINT_URI}`	L'endpoint è necessario per la misurazione e la fatturazione. Per altre informazioni, vedere Argomenti di fatturazione.
`{API_KEY}`	La chiave API è obbligatoria. Per altre informazioni, vedere Argomenti di fatturazione.

Quando si esegue il testo nel contenitore di riconoscimento vocale, configurare la porta, la memoria e la CPU in base ai requisiti e alle raccomandazioni del contenitore voce.

Ecco un comando di esempio docker run con valori segnaposto. È necessario specificare i ENDPOINT_URI valori e API_KEY :

docker run --rm -it -p 5000:5000 --memory 12g --cpus 6 \
mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Questo comando:

Esegue un testo neurale nel contenitore di riconoscimento vocale dall'immagine del contenitore.
Alloca 6 core CPU e 12 GB di memoria.
Espone la porta TCP 5000 e alloca un pseudo terminale TTY per il contenitore.
Rimuove automaticamente il contenitore dopo la chiusura. L'immagine del contenitore rimane disponibile nel computer host.

Per eseguire contenitori disconnessi (non connessi a Internet), è necessario inviare il modulo di richiesta e attendere l'approvazione. Per altre informazioni sull'applicazione e l'acquisto di un piano di impegno per l'uso di contenitori in ambienti disconnessi, vedere Usare i contenitori in ambienti disconnessi nella documentazione dei servizi di intelligenza artificiale di Azure.

Se si è approvati per eseguire il contenitore disconnesso da Internet, nell'esempio seguente viene illustrata la formattazione del docker run comando da usare, con valori segnaposto. Sostituire questi valori segnaposto con i propri valori.

Il DownloadLicense=True parametro nel docker run comando scarica un file di licenza per consentire l'esecuzione del contenitore Docker quando non è connesso a Internet. Contiene anche una data di scadenza, dopo la quale il file di licenza non è valido per eseguire il contenitore. È possibile usare un file di licenza solo con il contenitore appropriato per cui si è approvati. Ad esempio, non è possibile usare un file di licenza per un speech-to-text contenitore con un neural-text-to-speech contenitore.

Segnaposto	Descrizione
`{IMAGE}`	Immagine del contenitore da usare. Ad esempio: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{LICENSE_MOUNT}`	Percorso in cui viene scaricata e montata la licenza. Ad esempio: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	Endpoint per l'autenticazione della richiesta di servizio. È possibile trovarla nella pagina Chiave ed endpoint della risorsa, nella portale di Azure. Ad esempio: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Chiave per la risorsa Voce. È possibile trovarla nella pagina Chiave ed endpoint della risorsa, nella portale di Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Percorso della cartella di licenza nel file system locale del contenitore. Ad esempio: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Dopo aver scaricato il file di licenza, è possibile eseguire il contenitore in un ambiente disconnesso. Nell'esempio seguente viene illustrata la formattazione del docker run comando usato, con valori segnaposto. Sostituire questi valori segnaposto con i propri valori.

Ovunque venga eseguito il contenitore, il file di licenza deve essere montato nel contenitore e il percorso della cartella di licenza nel file system locale del contenitore deve essere specificato con Mounts:License=. È necessario specificare anche un montaggio di output in modo che sia possibile scrivere i record di utilizzo della fatturazione.

Segnaposto	Valore	Formato o esempio
`{IMAGE}`	Immagine del contenitore da usare. Ad esempio: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{MEMORY_SIZE}`	Dimensioni appropriate della memoria da allocare per il contenitore. Ad esempio: `4g`
`{NUMBER_CPUS}`	Numero appropriato di CPU da allocare per il contenitore. Ad esempio: `4`
`{LICENSE_MOUNT}`	Percorso in cui si trova e montata la licenza. Ad esempio: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	Percorso di output per la registrazione. Ad esempio: `/host/output:/path/to/output/directory` Per altre informazioni, vedere i record di utilizzo nella documentazione dei servizi di intelligenza artificiale di Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Percorso della cartella di licenza nel file system locale del contenitore. Ad esempio: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Percorso della cartella di output nel file system locale del contenitore. Ad esempio: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

I contenitori voce forniscono una directory predefinita per la scrittura del file di licenza e del log di fatturazione in fase di esecuzione. Le directory predefinite sono rispettivamente /license e /output.

Quando si montano queste directory nel contenitore con il docker run -v comando , assicurarsi che la directory del computer locale sia impostata su user:group nonroot:nonroot prima di eseguire il contenitore.

Ecco un comando di esempio per impostare la proprietà di file/directory.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Per altre informazioni sui docker run contenitori voce, vedere Installare ed eseguire contenitori voce con Docker.

Usare il contenitore

I contenitori voce forniscono API endpoint di query basate su Websocket a cui si accede tramite Speech SDK e l'interfaccia della riga di comando di Voce. Per impostazione predefinita, Speech SDK e l'interfaccia della riga di comando di Voce usano il servizio Voce pubblico. Per usare il contenitore, è necessario modificare il metodo di inizializzazione.

Importante

Quando si usa il servizio Voce con contenitori, assicurarsi di usare l'autenticazione host. Se si configura la chiave e l'area, le richieste verranno inviate al servizio Voce pubblico. I risultati del servizio Voce potrebbero non essere quello previsto. Le richieste provenienti da contenitori disconnessi avranno esito negativo.