Anpassat tal till textcontainrar med Docker

Artikel
01/22/2024

Den anpassade tal till textcontainern transkriberar tal- eller batchljudinspelningar i realtid med mellanliggande resultat. Du kan använda en anpassad modell som du skapade i den anpassade talportalen. I den här artikeln får du lära dig hur du laddar ned, installerar och kör en anpassad tal till textcontainer.

Mer information om förutsättningar, verifiering av att en container körs, körning av flera containrar på samma värd och körning av frånkopplade containrar finns i Installera och köra Speech-containrar med Docker.

Containeravbildningar

Den anpassade tal till textcontaineravbildningen för alla versioner och nationella inställningar som stöds finns i MCR-syndikatet (Microsoft Container Registry). Den finns på lagringsplatsen azure-cognitive-services/speechservices/ och heter custom-speech-to-text.

Det fullständigt kvalificerade containeravbildningsnamnet är , mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Lägg antingen till en viss version eller lägg till :latest för att hämta den senaste versionen.

Version	Sökväg
Senast	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

Alla taggar, förutom latest, är i följande format och är skiftlägeskänsliga:

<major>.<minor>.<patch>-<platform>-<prerelease>

Kommentar

Och localevoice för anpassade tal till textcontainrar bestäms av den anpassade modellen som matas in av containern.

Taggarna är också tillgängliga i JSON-format för din bekvämlighet. Brödtexten innehåller containersökvägen och listan med taggar. Taggarna sorteras inte efter version, men "latest" ingår alltid i slutet av listan enligt följande kodfragment:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

Hämta containeravbildningen med docker pull

Du behöver kraven, inklusive nödvändig maskinvara. Se även den rekommenderade allokeringen av resurser för varje Speech-container.

Använd docker pull-kommandot för att ladda ned en containeravbildning från Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Kommentar

Och localevoice för anpassade Speech-containrar bestäms av den anpassade modellen som matas in av containern.

Hämta modell-ID:t

Innan du kan köra containern måste du känna till modell-ID:t för din anpassade modell eller ett basmodell-ID. När du kör containern anger du ett av modell-ID:na som ska laddas ned och användas.

Anpassat modell-ID
Basmodell-ID

Den anpassade modellen måste tränas med hjälp av Speech Studio. Information om hur du hämtar modell-ID finns i livscykeln för anpassad talmodell.

Screenshot that shows the custom speech training page.

Hämta modell-ID :t som ska användas som argument till parametern ModelId för docker run kommandot.

Screenshot that shows custom speech model details.

Du kan hämta tillgänglig basmodellinformation med hjälp av alternativet BaseModelLocale={LOCALE}. Det här alternativet ger dig en lista över tillgängliga basmodeller på det nationella språket under ditt faktureringskonto.

Om du vill hämta basmodell-ID:t använder docker run du kommandot . Till exempel:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Det här kommandot kontrollerar containeravbildningen och returnerar de tillgängliga basmodellerna för målspråket.

Kommentar

Även om du använder docker run kommandot startas inte containern för tjänsten.

Utdata ger dig en lista över basmodeller med informationsspråk, modell-ID och skapandedatumtid. Till exempel:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Nedladdning av visningsmodell

Innan du kör containern kan du välja att hämta tillgänglig information om visningsmodeller och välja att ladda ned dessa modeller till din tal till textcontainer för att få mycket bättre slutliga visningsutdata. Nedladdning av visningsmodell är tillgänglig med containern custom-speech-to-text version 3.1.0 och senare.

Kommentar

Även om du använder docker run kommandot startas inte containern för tjänsten.

Du kan fråga eller ladda ned någon eller alla dessa typer av visningsmodeller: Rescoring (Rescore), Interctuation (Punct), resegmentation (Resegment) och wfstitn (Wfstitn). Annars kan du använda FullDisplay alternativet (med eller utan andra typer) för att fråga eller ladda ned alla typer av visningsmodeller.

BaseModelLocale Ange för att fråga den senaste tillgängliga visningsmodellen på målspråket. Om du inkluderar flera visningsmodelltyper returnerar kommandot de senaste tillgängliga visningsmodellerna för varje typ. Till exempel:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

DisplayLocale Ange för att ladda ned den senaste tillgängliga visningsmodellen på målspråket. När du anger DisplayLocalemåste du också ange FullDisplay eller en blankstegsavgränsad delmängd av visningsmodeller. Kommandot laddar ned den senaste tillgängliga visningsmodellen för varje angiven typ. Till exempel:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Ange en modell-ID-parameter för att ladda ned en specifik visningsmodell: Rescoring (RescoreId), Interctuation (PunctId), resegmentation (ResegmentId) eller wfstitn (WfstitnId). Det här liknar hur du laddar ned en basmodell via parametern ModelId . Om du till exempel vill ladda ned en omskolningsvisningsmodell kan du använda följande kommando med parametern RescoreId :

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Kommentar

Om du anger fler än en fråge- eller nedladdningsparameter prioriteras kommandot i den här ordningen: BaseModelLocale, modell-ID och sedan DisplayLocale (gäller endast för visningsmodeller).

Kör containern med docker-körning

Använd kommandot docker run för att köra containern för tjänsten.

Anpassat tal till text
Frånkopplat anpassat tal till text

Följande tabell representerar de olika docker run parametrarna och deras motsvarande beskrivningar:

Parameter	Description
`{VOLUME_MOUNT}`	Värddatorns volymmontering, som Docker använder för att bevara den anpassade modellen. Ett exempel är `c:\CustomSpeech` var `c:\` enheten finns på värddatorn.
`{MODEL_ID}`	Det anpassade tal- eller basmodell-ID:t. Mer information finns i Hämta modell-ID.
`{ENDPOINT_URI}`	Slutpunkten krävs för mätning och fakturering. Mer information finns i faktureringsargument.
`{API_KEY}`	API-nyckeln krävs. Mer information finns i faktureringsargument.

När du kör den anpassade tal-till-text-containern konfigurerar du porten, minnet och PROCESSORn enligt kraven och rekommendationerna för den anpassade tal-till-textcontainern.

Här är ett exempelkommando docker run med platshållarvärden. Du måste ange VOLUME_MOUNTvärdena , MODEL_ID, ENDPOINT_URIoch API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Det här kommandot:

Kör en anpassad tal-till-text-container från containeravbildningen.
Allokerar 4 CPU-kärnor och 8 GB minne.
Läser in den anpassade tal-till-text-modellen från volyminmatningsmonteringen, till exempel C:\CustomSpeech.
Exponerar TCP-port 5000 och allokerar en pseudo-TTY för containern.
Laddar ned modellen med tanke ModelId på (om den inte hittas på volymmonteringen).
Om den anpassade modellen tidigare laddades ModelId ned ignoreras den.
Tar automatiskt bort containern när den har avslutats. Containeravbildningen är fortfarande tillgänglig på värddatorn.

Mer information om docker run med Speech-containrar finns i Installera och köra Speech-containrar med Docker.

Om du vill köra frånkopplade containrar (inte anslutna till Internet) måste du skicka det här begärandeformuläret och vänta på godkännande. Mer information om hur du tillämpar och köper en åtagandeplan för att använda containrar i frånkopplade miljöer finns i Använda containrar i frånkopplade miljöer i Dokumentationen om Azure AI-tjänster.

Om du har godkänts för att köra containern frånkopplad från Internet visar följande exempel formateringen av kommandot som docker run ska användas, med platshållarvärden. Ersätt dessa platshållarvärden med dina egna värden.

För att förbereda och konfigurera en frånkopplad anpassad tal till textcontainer behöver du två separata talresurser:

En vanlig Azure AI Speech-resurs som antingen är konfigurerad för att använda prisnivån "S0 – Standard" eller en prisplan för "Tal till text (anpassad)". Detta används för att träna, ladda ned och konfigurera dina anpassade talmodeller för användning i containern.
En Azure AI Speech-resurs som är konfigurerad för att använda prisplanen "DC0-åtagande (frånkopplad)." Detta används för att ladda ned den frånkopplade containerlicensfilen som krävs för att köra containern i frånkopplat läge.

Följ de här stegen för att ladda ned och köra containern i frånkopplade miljöer.

Ladda ned en modell för den frånkopplade containern. I det här steget använder du en vanlig Azure AI Speech-resurs som antingen är konfigurerad för att använda prisnivån "S0 – Standard" eller en prisplan för "Tal till text (anpassad)".
Ladda ned den frånkopplade containerlicensen. I det här steget använder du en Azure AI Speech-resurs som är konfigurerad för att använda prisplanen "DC0-åtagande (frånkopplad)."
Kör den frånkopplade containern för tjänsten. I det här steget använder du en Azure AI Speech-resurs som är konfigurerad för att använda prisplanen "DC0-åtagande (frånkopplad)."

Ladda ned en modell för den frånkopplade containern

I det här steget använder du en vanlig Azure AI Speech-resurs som antingen är konfigurerad för att använda prisnivån "S0 – Standard" eller en prisplan för "Tal till text (anpassad)".

Följande tabell representerar de olika docker run parametrarna och deras motsvarande beskrivningar:

Parameter	Description
`{VOLUME_MOUNT}`	Värddatorns volymmontering, som Docker använder för att bevara den anpassade modellen. Ett exempel är `c:\CustomSpeech` var `c:\` enheten finns på värddatorn.
`{MODEL_ID}`	Det anpassade tal- eller basmodell-ID:t. Mer information finns i Hämta modell-ID.
`{ENDPOINT_URI}`	Slutpunkten krävs för mätning och fakturering. Mer information finns i faktureringsargument.
`{API_KEY}`	API-nyckeln krävs. Mer information finns i faktureringsargument.

När du kör den anpassade tal-till-text-containern konfigurerar du porten, minnet och PROCESSORn enligt kraven och rekommendationerna för den anpassade tal-till-textcontainern.

Här är ett exempelkommando docker run med platshållarvärden. Du måste ange VOLUME_MOUNTvärdena , MODEL_ID, ENDPOINT_URIoch API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Det här kommandot:

Kör en anpassad tal-till-text-container från containeravbildningen.
Allokerar 4 CPU-kärnor och 8 GB minne.
Läser in den anpassade tal-till-text-modellen från volyminmatningsmonteringen, till exempel C:\CustomSpeech.
Exponerar TCP-port 5000 och allokerar en pseudo-TTY för containern.
Laddar ned modellen med tanke ModelId på (om den inte hittas på volymmonteringen).
Om den anpassade modellen tidigare laddades ModelId ned ignoreras den.
Tar automatiskt bort containern när den har avslutats. Containeravbildningen är fortfarande tillgänglig på värddatorn.

Mer information om docker run med Speech-containrar finns i Installera och köra Speech-containrar med Docker.

Ladda ned den frånkopplade containerlicensen

Därefter laddar du ned den frånkopplade licensfilen. Parametern DownloadLicense=True i kommandot docker run laddar ned en licensfil som gör att Docker-containern kan köras när den inte är ansluten till Internet. Den innehåller också ett förfallodatum, varefter licensfilen är ogiltig för att köra containern.

Du kan bara använda en licensfil med lämplig container och modell som du har godkänts för. Du kan till exempel inte använda en licensfil för en speech-to-text container med en neural-text-to-speech container.

Platshållare	beskrivning
`{IMAGE}`	Den containeravbildning som du vill använda. Till exempel: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Sökvägen där licensen laddas ned och monteras. Till exempel: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Sökvägen där modellen finns. Till exempel: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Slutpunkten för att autentisera din tjänstbegäran. Du hittar den på resursens nyckel- och slutpunktssida i Azure-portalen. Till exempel: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Nyckeln för din Speech-resurs. Du hittar den på resursens nyckel- och slutpunktssida i Azure-portalen.
`{CONTAINER_LICENSE_DIRECTORY}`	Plats för licensmappen i containerns lokala filsystem. Till exempel: `/path/to/license/directory`

I det här steget använder du en Azure AI Speech-resurs som är konfigurerad för att använda prisplanen "DC0-åtagande (frånkopplad)."

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Kör den frånkopplade containern

När licensfilen har laddats ned kan du köra containern i en frånkopplad miljö. I följande exempel visas formateringen för det docker run kommando som du använder, med platshållarvärden. Ersätt dessa platshållarvärden med dina egna värden.

Oavsett var containern körs måste licensfilen monteras på containern och platsen för licensmappen i containerns lokala filsystem måste anges med Mounts:License=. En utdatamontering måste också anges så att faktureringsanvändningsposter kan skrivas.

Platshållare	beskrivning
`{IMAGE}`	Den containeravbildning som du vill använda. Till exempel: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	Lämplig storlek på minne som ska allokeras för containern. Till exempel: `4g`
`{NUMBER_CPUS}`	Lämpligt antal processorer som ska allokeras för din container. Till exempel: `4`
`{LICENSE_MOUNT}`	Sökvägen där licensen laddas ned och monteras. Till exempel: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Sökvägen där modellen finns. Till exempel: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Utdatasökvägen för loggning. Till exempel: `/host/output:/path/to/output/directory` Mer information finns i användningsposter i dokumentationen för Azure AI-tjänster.
`{ENDPOINT_URI}`	Slutpunkten för att autentisera din tjänstbegäran. Du hittar den på resursens nyckel- och slutpunktssida i Azure-portalen. Till exempel: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Nyckeln för din Speech-resurs. Du hittar den på resursens nyckel- och slutpunktssida i Azure-portalen.
`{CONTAINER_LICENSE_DIRECTORY}`	Plats för licensmappen i containerns lokala filsystem. Till exempel: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Plats för utdatamappen i containerns lokala filsystem. Till exempel: `/path/to/output/directory`

I det här steget använder du en Azure AI Speech-resurs som är konfigurerad för att använda prisplanen "DC0-åtagande (frånkopplad)."

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Containern för anpassat tal till text innehåller en standardkatalog för att skriva licensfilen och faktureringsloggen vid körning. Standardkatalogerna är /license respektive /output.

När du monterar dessa kataloger i containern med docker run -v kommandot kontrollerar du att den lokala datorkatalogen är inställd på user:group nonroot:nonroot ägarskap innan du kör containern.

Nedan visas ett exempelkommando för att ange fil-/katalogägarskap.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Använda containern

Talcontainrar tillhandahåller websocketbaserade frågeslutpunkts-API:er som nås via Speech SDK och Speech CLI. Som standard använder Speech SDK och Speech CLI den offentliga Speech-tjänsten. Om du vill använda containern måste du ändra initieringsmetoden.

Viktigt!

När du använder Speech-tjänsten med containrar måste du använda värdautentisering. Om du konfigurerar nyckeln och regionen går begäranden till den offentliga Speech-tjänsten. Resultat från Speech-tjänsten kanske inte är vad du förväntar dig. Begäranden från frånkopplade containrar misslyckas.