Text till tal-containrar med Docker

Artikel
09/17/2024

Containern neural text till tal konverterar text till naturligt klingande tal med hjälp av djup neural nätverksteknik, vilket möjliggör mer naturligt syntetiserat tal. I den här artikeln får du lära dig hur du laddar ned, installerar och kör en text-till-tal-container.

Mer information om förutsättningar, verifiering av att en container körs, körning av flera containrar på samma värd och körning av frånkopplade containrar finns i Installera och köra Speech-containrar med Docker.

Containeravbildningar

Den neurala text till talcontaineravbildningen för alla versioner och nationella inställningar som stöds finns i MCR-syndikatet (Microsoft Container Registry). Den finns på lagringsplatsen azure-cognitive-services/speechservices/ och heter neural-text-to-speech.

Det fullständigt kvalificerade containeravbildningsnamnet är , mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech. Lägg antingen till en viss version eller lägg till :latest för att hämta den senaste versionen.

Version	Sökväg
Senast	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest` Taggen `latest` hämtar `en-US` nationella inställningar och `en-us-arianeural` röst.
3.5.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:3.5.0-amd64-en-us-arianeural`

Alla taggar, förutom latest, är i följande format och är skiftlägeskänsliga:

<major>.<minor>.<patch>-<platform>-<voice>-<preview>

Taggarna är också tillgängliga i JSON-format för din bekvämlighet. Brödtexten innehåller containersökvägen och listan med taggar. Taggarna sorteras inte efter version, men "latest" ingår alltid i slutet av listan enligt följande kodfragment:

{
  "name": "azure-cognitive-services/speechservices/neural-text-to-speech",
  "tags": [
    <--redacted for brevity-->
    "3.5.0-amd64-uk-ua-ostapneural",
    "3.5.0-amd64-zh-cn-xiaochenneural-preview",
    "3.5.0-amd64-zh-cn-xiaohanneural",
    "3.5.0-amd64-zh-cn-xiaomoneural",
    "3.5.0-amd64-zh-cn-xiaoqiuneural-preview",
    "3.5.0-amd64-zh-cn-xiaoruineural",
    "3.5.0-amd64-zh-cn-xiaoshuangneural-preview",
    "3.5.0-amd64-zh-cn-xiaoxiaoneural",
    "3.5.0-amd64-zh-cn-xiaoyanneural-preview",
    "3.5.0-amd64-zh-cn-xiaoyouneural",
    "3.5.0-amd64-zh-cn-yunxineural",
    "3.5.0-amd64-zh-cn-yunyangneural",
    "3.5.0-amd64-zh-cn-yunyeneural",
    "latest"
  ]
}

Viktigt!

Den 31 augusti 2021 drog vi tillbaka standardtalsyntesrösterna och standardtexten till talcontainern . Du bör använda neurala röster med containerversionen 3.0 för neural text till tal i stället.

Från och med den 29 februari 2024 stöds inte text till tal och neural text till talcontainerversion 2.19 och tidigare. Mer information om hur du uppdaterar programmet finns i Migrera från standardröst till fördefinierad neural röst.

Hämta containeravbildningen med docker pull

Du behöver kraven, inklusive nödvändig maskinvara. Se även den rekommenderade allokeringen av resurser för varje Speech-container.

Använd docker pull-kommandot för att ladda ned en containeravbildning från Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest

Viktigt!

Taggen latest hämtar en-US nationella inställningar och en-us-arianeural röst. Ytterligare språk och röster finns i text till talcontaineravbildningar.

Kör containern med docker-körning

Använd kommandot docker run för att köra containern.

Neural text till tal
Frånkopplad neural text till tal

Följande tabell representerar de olika docker run parametrarna och deras motsvarande beskrivningar:

Parameter	Description
`{ENDPOINT_URI}`	Slutpunkten krävs för mätning och fakturering. Mer information finns i faktureringsargument.
`{API_KEY}`	API-nyckeln krävs. Mer information finns i faktureringsargument.

När du kör text-till-tal-containern konfigurerar du porten, minnet och PROCESSORn enligt kraven och rekommendationerna för text-till-talcontainern.

Här är ett exempelkommando docker run med platshållarvärden. Du måste ange ENDPOINT_URI värdena och API_KEY :

docker run --rm -it -p 5000:5000 --memory 12g --cpus 6 \
mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Det här kommandot:

Kör en neural text till talcontainer från containeravbildningen.
Allokerar 6 CPU-kärnor och 12 GB minne.
Exponerar TCP-port 5000 och allokerar en pseudo-TTY för containern.
Tar automatiskt bort containern när den har avslutats. Containeravbildningen är fortfarande tillgänglig på värddatorn.

Om du vill köra frånkopplade containrar (inte anslutna till Internet) måste du skicka det här begärandeformuläret och vänta på godkännande. Mer information om hur du tillämpar och köper en åtagandeplan för att använda containrar i frånkopplade miljöer finns i Använda containrar i frånkopplade miljöer i Dokumentationen om Azure AI-tjänster.

Om du är godkänd för att köra containern frånkopplad från Internet visar följande exempel formateringen av kommandot som docker run ska användas, med platshållarvärden. Ersätt dessa platshållarvärden med dina egna värden.

Parametern DownloadLicense=True i kommandot docker run laddar ned en licensfil så att Docker-containern kan köras när den inte är ansluten till Internet. Den innehåller också ett förfallodatum, varefter licensfilen är ogiltig för att köra containern. Du kan bara använda en licensfil med lämplig container som du är godkänd för. Du kan till exempel inte använda en licensfil för en speech-to-text container med en neural-text-to-speech container.

Platshållare	beskrivning
`{IMAGE}`	Den containeravbildning som du vill använda. Till exempel: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{LICENSE_MOUNT}`	Sökvägen där licensen laddas ned och monteras. Till exempel: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	Slutpunkten för att autentisera din tjänstbegäran. Du hittar den på resursens nyckel- och slutpunktssida på Azure Portal. Till exempel: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Nyckeln för din Speech-resurs. Du hittar den på resursens nyckel- och slutpunktssida på Azure Portal.
`{CONTAINER_LICENSE_DIRECTORY}`	Plats för licensmappen i containerns lokala filsystem. Till exempel: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

När licensfilen har laddats ned kan du köra containern i en frånkopplad miljö. I följande exempel visas formateringen för det docker run kommando som du använder, med platshållarvärden. Ersätt dessa platshållarvärden med dina egna värden.

Oavsett var containern körs måste licensfilen monteras på containern och platsen för licensmappen i containerns lokala filsystem måste anges med Mounts:License=. En utdatamontering måste också anges så att faktureringsanvändningsposter kan skrivas.

Platshållare	Värde	Format eller exempel
`{IMAGE}`	Den containeravbildning som du vill använda. Till exempel: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{MEMORY_SIZE}`	Lämplig storlek på minne som ska allokeras för containern. Till exempel: `4g`
`{NUMBER_CPUS}`	Lämpligt antal processorer som ska allokeras för din container. Till exempel: `4`
`{LICENSE_MOUNT}`	Sökvägen där licensen finns och monteras. Till exempel: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	Utdatasökvägen för loggning. Till exempel: `/host/output:/path/to/output/directory` Mer information finns i användningsposter i dokumentationen för Azure AI-tjänster.
`{CONTAINER_LICENSE_DIRECTORY}`	Plats för licensmappen i containerns lokala filsystem. Till exempel: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Plats för utdatamappen i containerns lokala filsystem. Till exempel: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Talcontainrar tillhandahåller en standardkatalog för att skriva licensfilen och faktureringsloggen vid körning. Standardkatalogerna är /license respektive /output.

När du monterar dessa kataloger i containern med docker run -v kommandot kontrollerar du att den lokala datorkatalogen är inställd på user:group nonroot:nonroot ägarskap innan du kör containern.

Här är ett exempelkommando för att ange fil-/katalogägarskap.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Mer information om docker run med Speech-containrar finns i Installera och köra Speech-containrar med Docker.

Använda containern

Talcontainrar tillhandahåller websocketbaserade frågeslutpunkts-API:er som nås via Speech SDK och Speech CLI. Som standard använder Speech SDK och Speech CLI den offentliga Speech-tjänsten. Om du vill använda containern måste du ändra initieringsmetoden.

Viktigt!

När du använder Speech-tjänsten med containrar måste du använda värdautentisering. Om du konfigurerar nyckeln och regionen går begäranden till den offentliga Speech-tjänsten. Resultat från Speech-tjänsten kanske inte är vad du förväntar dig. Begäranden från frånkopplade containrar misslyckas.