Kontenery zamiany mowy na tekst za pomocą platformy Docker

Artykuł
09/17/2024

Kontener zamiany mowy na tekst transkrybuje mowę w czasie rzeczywistym lub wsadowe nagrania audio z wynikami pośrednimi. Z tego artykułu dowiesz się, jak pobrać, zainstalować i uruchomić kontener zamiany mowy na tekst.

Aby uzyskać więcej informacji na temat wymagań wstępnych, sprawdzania poprawności działania kontenera, uruchamiania wielu kontenerów na tym samym hoście i uruchamiania odłączonych kontenerów, zobacz Instalowanie i uruchamianie kontenerów usługi Mowa za pomocą platformy Docker.

Obrazy kontenerów

Obraz kontenera zamiany mowy na tekst dla wszystkich obsługiwanych wersji i ustawień regionalnych można znaleźć w syndykacie usługi Microsoft Container Registry (MCR). Znajduje się on w azure-cognitive-services/speechservices/ repozytorium i ma nazwę speech-to-text.

W pełni kwalifikowana nazwa obrazu kontenera to mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text. Dołącz określoną wersję lub dołącz, :latest aby uzyskać najnowszą wersję.

Wersja	Ścieżka
Najnowsze	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest` Tag `latest` ściąga najnowszy obraz ustawień `en-US` regionalnych.
4.10.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.10.0-amd64-mr-in`

Wszystkie tagi, z wyjątkiem latest, mają następujący format i są uwzględniane wielkość liter:

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

Tagi są również dostępne w formacie JSON dla Wygody. Treść zawiera ścieżkę kontenera i listę tagów. Tagi nie są sortowane według wersji, ale "latest" są zawsze uwzględniane na końcu listy, jak pokazano w tym fragmencie kodu:

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    <--redacted for brevity-->    
    "4.10.0-amd64-sw-tz",
    "4.10.0-amd64-ta-in",
    "4.10.0-amd64-th-th",
    "4.10.0-amd64-tr-tr",
    "4.10.0-amd64-vi-vn",
    "4.10.0-amd64-wuu-cn",
    "4.10.0-amd64-yue-cn",
    "4.10.0-amd64-zh-cn",
    "4.10.0-amd64-zh-cn-sichuan",
    "4.10.0-amd64-zh-hk",
    "4.10.0-amd64-zh-tw",
    "4.10.0-amd64-zu-za",
    "latest"
  ]
}

Pobieranie obrazu kontenera za pomocą ściągania platformy Docker

Potrzebujesz wymagań wstępnych , w tym wymaganego sprzętu. Zobacz również zalecaną alokację zasobów dla każdego kontenera usługi Mowa.

Użyj polecenia docker pull, aby pobrać obraz kontenera z usługi Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

Ważne

Tag latest ściąga najnowszy obraz ustawień en-US regionalnych. Aby uzyskać dodatkowe wersje i ustawienia regionalne, zobacz zamiana mowy na obrazy kontenerów tekstu.

Uruchamianie kontenera za pomocą uruchamiania platformy Docker

Użyj polecenia docker run, aby uruchomić kontener.

Zamiana mowy na tekst
Rozłączona mowa do tekstu

W poniższej tabeli przedstawiono różne docker run parametry i odpowiadające im opisy:

Parametr	Opis
`{ENDPOINT_URI}`	Punkt końcowy jest wymagany do pomiaru i rozliczeń. Aby uzyskać więcej informacji, zobacz argumenty rozliczeniowe.
`{API_KEY}`	Klucz interfejsu API jest wymagany. Aby uzyskać więcej informacji, zobacz argumenty rozliczeniowe.

Po uruchomieniu kontenera zamiany mowy na tekst skonfiguruj port, pamięć i procesor CPU zgodnie z wymaganiami i zaleceniami dotyczącymi kontenera tekstu mowy.

Oto przykładowe docker run polecenie z wartościami zastępczymi. Należy określić ENDPOINT_URI wartości i API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

To polecenie:

speech-to-text Uruchamia kontener z obrazu kontenera.
Przydziela 4 rdzenie procesora CPU i 8 GB pamięci.
Uwidacznia port TCP 5000 i przydziela pseudo-TTY dla kontenera.
Automatycznie usuwa kontener po jego zakończeniu. Obraz kontenera jest nadal dostępny na komputerze hosta.

Aby uruchomić odłączone kontenery (bez połączenia z Internetem), musisz przesłać ten formularz żądania i poczekać na zatwierdzenie. Aby uzyskać więcej informacji na temat stosowania i kupowania planu zobowiązania w celu używania kontenerów w środowiskach bez połączenia, zobacz Używanie kontenerów w środowiskach bez połączenia w dokumentacji usług Azure AI.

Jeśli zatwierdzono uruchamianie kontenera odłączonego od Internetu, w poniższym przykładzie pokazano formatowanie docker run polecenia do użycia z wartościami zastępczymi. Zastąp te wartości zastępcze własnymi wartościami.

Parametr DownloadLicense=True w poleceniu docker run pobiera plik licencji, aby umożliwić uruchamianie kontenera platformy Docker, gdy nie jest połączony z Internetem. Zawiera również datę wygaśnięcia, po której plik licencji jest nieprawidłowy do uruchomienia kontenera. Plik licencji można używać tylko z odpowiednim kontenerem, dla którego został zatwierdzony. Na przykład nie można użyć pliku licencji dla speech-to-text kontenera z kontenerem neural-text-to-speech .

Symbol zastępczy	opis
`{IMAGE}`	Obraz kontenera, którego chcesz użyć. Na przykład: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`.
`{LICENSE_MOUNT}`	Ścieżka, w której jest pobierana licencja, i instalowana. Na przykład: `/host/license:/path/to/license/directory`.
`{ENDPOINT_URI}`	Punkt końcowy do uwierzytelniania żądania obsługi. Możesz go znaleźć na stronie Klucz i punkt końcowy zasobu w witrynie Azure Portal. Na przykład: `https://<your-resource-name>.cognitiveservices.azure.com`.
`{API_KEY}`	Klucz zasobu usługi Mowa. Możesz go znaleźć na stronie Klucz i punkt końcowy zasobu w witrynie Azure Portal.
`{CONTAINER_LICENSE_DIRECTORY}`	Lokalizacja folderu licencji w lokalnym systemie plików kontenera. Na przykład: `/path/to/license/directory`.

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Po pobraniu pliku licencji można uruchomić kontener w środowisku odłączonym. W poniższym przykładzie pokazano formatowanie używanego docker run polecenia z wartościami zastępczymi. Zastąp te wartości zastępcze własnymi wartościami.

Wszędzie tam, gdzie kontener jest uruchamiany, plik licencji musi być zainstalowany w kontenerze, a lokalizacja folderu licencji w lokalnym systemie plików kontenera musi być określona za pomocą Mounts:License=polecenia . Należy również określić instalację wyjściową, aby można było zapisywać rekordy użycia rozliczeń.

Symbol zastępczy	Wartość	Formatowanie lub przykład
`{IMAGE}`	Obraz kontenera, którego chcesz użyć. Na przykład: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`.
`{MEMORY_SIZE}`	Odpowiedni rozmiar pamięci do przydzielenia dla kontenera. Na przykład: `4g`.
`{NUMBER_CPUS}`	Odpowiednia liczba procesorów CPU do przydzielenia dla kontenera. Na przykład: `4`.
`{LICENSE_MOUNT}`	Ścieżka, w której znajduje się i jest instalowana licencja. Na przykład: `/host/license:/path/to/license/directory`.
`{OUTPUT_PATH}`	Ścieżka wyjściowa rejestrowania. Na przykład: `/host/output:/path/to/output/directory`. Aby uzyskać więcej informacji, zobacz rekordy użycia w dokumentacji usług Azure AI.
`{CONTAINER_LICENSE_DIRECTORY}`	Lokalizacja folderu licencji w lokalnym systemie plików kontenera. Na przykład: `/path/to/license/directory`.
`{CONTAINER_OUTPUT_DIRECTORY}`	Lokalizacja folderu wyjściowego w lokalnym systemie plików kontenera. Na przykład: `/path/to/output/directory`.

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Kontenery mowy udostępniają domyślny katalog do zapisywania pliku licencji i dziennika rozliczeniowego w czasie wykonywania. Katalogi domyślne to /license i /output odpowiednio.

Podczas instalowania tych katalogów w kontenerze docker run -v za pomocą polecenia upewnij się, że katalog lokalny jest ustawiony na własność user:group nonroot:nonroot przed uruchomieniem kontenera.

Oto przykładowe polecenie służące do ustawiania własności pliku/katalogu.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Aby uzyskać więcej informacji na temat docker run kontenerów usługi Mowa, zobacz Instalowanie i uruchamianie kontenerów usługi Mowa za pomocą platformy Docker.

Korzystanie z kontenera

Kontenery mowy udostępniają internetowe interfejsy API punktów końcowych zapytań oparte na protokole Websocket, które są dostępne za pośrednictwem zestawu SPEECH SDK i interfejsu wiersza polecenia usługi Mowa. Domyślnie zestaw SDK usługi Mowa i interfejs wiersza polecenia usługi Mowa używają publicznej usługi rozpoznawania mowy. Aby użyć kontenera, należy zmienić metodę inicjowania.

Ważne

W przypadku korzystania z usługi Mowa z kontenerami upewnij się, że używasz uwierzytelniania hosta. Jeśli skonfigurujesz klucz i region, żądania będą kierowane do publicznej usługi rozpoznawania mowy. Wyniki z usługi Mowa mogą nie być oczekiwane. Żądania od odłączonych kontenerów zakończą się niepowodzeniem.