Kontenery zamiany tekstu na mowę za pomocą platformy Docker

Artykuł
01/23/2024

Kontener zamiany tekstu neuronowego na mowę konwertuje tekst na naturalnie brzmiącą mowę przy użyciu głębokiej technologii sieci neuronowej, która umożliwia bardziej naturalną syntetyzowany mowę. Z tego artykułu dowiesz się, jak pobrać, zainstalować i uruchomić kontener zamiany tekstu na mowę.

Aby uzyskać więcej informacji na temat wymagań wstępnych, sprawdzania poprawności działania kontenera, uruchamiania wielu kontenerów na tym samym hoście i uruchamiania odłączonych kontenerów, zobacz Instalowanie i uruchamianie kontenerów usługi Mowa za pomocą platformy Docker.

Obrazy kontenerów

Obraz kontenera neuronowego zamiany tekstu na mowę dla wszystkich obsługiwanych wersji i ustawień regionalnych można znaleźć w syndykacie usługi Microsoft Container Registry (MCR). Znajduje się on w azure-cognitive-services/speechservices/ repozytorium i ma nazwę neural-text-to-speech.

W pełni kwalifikowana nazwa obrazu kontenera to mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech. Dołącz określoną wersję lub dołącz, :latest aby uzyskać najnowszą wersję.

Wersja	Ścieżka
Najnowsze	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest` Tag `latest` ściąga `en-US` ustawienia regionalne i `en-us-arianeural` głosowe.
3.1.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:3.1.0-amd64-en-us-arianeural`

Wszystkie tagi, z wyjątkiem latest, mają następujący format i są uwzględniane wielkość liter:

<major>.<minor>.<patch>-<platform>-<voice>-<preview>

Tagi są również dostępne w formacie JSON dla Wygody. Treść zawiera ścieżkę kontenera i listę tagów. Tagi nie są sortowane według wersji, ale "latest" są zawsze uwzględniane na końcu listy, jak pokazano w tym fragmencie kodu:

{
  "name": "azure-cognitive-services/speechservices/neural-text-to-speech",
  "tags": [
    <--redacted for brevity-->
    "3.1.0-amd64-en-us-arianeural",
    "3.1.0-amd64-en-us-guyneural",
    "3.1.0-amd64-en-us-jennymultilingualneural",
    "3.1.0-amd64-en-us-jennyneural",
    "3.1.0-amd64-en-us-michelleneural",
    "3.1.0-amd64-es-es-alvaroneural",
    "3.1.0-amd64-es-es-elviraneural",
    "3.1.0-amd64-es-mx-candelaneural",
    "3.1.0-amd64-es-mx-dalianeural",
    "3.1.0-amd64-es-mx-jorgeneural",
    <--redacted for brevity-->
    "latest"
  ]
}

Ważne

Wycofaliśmy standardowe głosy syntezy mowy i standardowy kontener zamiany tekstu na mowę 31 sierpnia 2021 r. Zamiast tego należy używać neuronowych głosów z kontenerem neuronowego zamiany tekstu na mowę w wersji 3.0 lub nowszej.

Od 29 lutego 2024 r. tekst na mowę i tekst neuronowy do kontenera mowy w wersji 2.19 i starszych nie są obsługiwane. Aby uzyskać więcej informacji na temat aktualizowania aplikacji, zobacz Migrowanie ze standardowego głosu do wstępnie utworzonego neuronowego głosu.

Pobieranie obrazu kontenera za pomocą ściągania platformy Docker

Potrzebujesz wymagań wstępnych , w tym wymaganego sprzętu. Zobacz również zalecaną alokację zasobów dla każdego kontenera usługi Mowa.

Użyj polecenia docker pull, aby pobrać obraz kontenera z usługi Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest

Ważne

Tag latest ściąga en-US ustawienia regionalne i en-us-arianeural głosowe. Aby uzyskać dodatkowe ustawienia regionalne i głosy, zobacz tekst obrazów kontenera mowy.

Uruchamianie kontenera za pomocą uruchamiania platformy Docker

Użyj polecenia docker run, aby uruchomić kontener.

Tekst neuronowy na mowę
Odłączony tekst neuronowy do mowy

W poniższej tabeli przedstawiono różne docker run parametry i odpowiadające im opisy:

Parametr	Opis
`{ENDPOINT_URI}`	Punkt końcowy jest wymagany do pomiaru i rozliczeń. Aby uzyskać więcej informacji, zobacz argumenty rozliczeniowe.
`{API_KEY}`	Klucz interfejsu API jest wymagany. Aby uzyskać więcej informacji, zobacz argumenty rozliczeniowe.

Po uruchomieniu kontenera zamiany tekstu na mowę skonfiguruj port, pamięć i procesor CPU zgodnie z wymaganiami i zaleceniami dotyczącymi kontenera mowy.

Oto przykładowe docker run polecenie z wartościami zastępczymi. Należy określić ENDPOINT_URI wartości i API_KEY :

docker run --rm -it -p 5000:5000 --memory 12g --cpus 6 \
mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

To polecenie:

Uruchamia neuronowy tekst do kontenera mowy z obrazu kontenera.
Przydziela 6 rdzeni procesora CPU i 12 GB pamięci.
Uwidacznia port TCP 5000 i przydziela pseudo-TTY dla kontenera.
Automatycznie usuwa kontener po jego zakończeniu. Obraz kontenera jest nadal dostępny na komputerze hosta.

Aby uruchomić odłączone kontenery (bez połączenia z Internetem), musisz przesłać ten formularz żądania i poczekać na zatwierdzenie. Aby uzyskać więcej informacji na temat stosowania i kupowania planu zobowiązania w celu używania kontenerów w środowiskach bez połączenia, zobacz Używanie kontenerów w środowiskach bez połączenia w dokumentacji usług Azure AI.

Jeśli zatwierdzono uruchamianie kontenera odłączonego od Internetu, w poniższym przykładzie pokazano formatowanie docker run polecenia do użycia z wartościami zastępczymi. Zastąp te wartości zastępcze własnymi wartościami.

Parametr DownloadLicense=True w poleceniu docker run pobiera plik licencji, aby umożliwić uruchamianie kontenera platformy Docker, gdy nie jest połączony z Internetem. Zawiera również datę wygaśnięcia, po której plik licencji jest nieprawidłowy do uruchomienia kontenera. Plik licencji można używać tylko z odpowiednim kontenerem, dla którego został zatwierdzony. Na przykład nie można użyć pliku licencji dla speech-to-text kontenera z kontenerem neural-text-to-speech .

Symbol zastępczy	opis
`{IMAGE}`	Obraz kontenera, którego chcesz użyć. Na przykład: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`.
`{LICENSE_MOUNT}`	Ścieżka, w której jest pobierana licencja, i instalowana. Na przykład: `/host/license:/path/to/license/directory`.
`{ENDPOINT_URI}`	Punkt końcowy do uwierzytelniania żądania obsługi. Możesz go znaleźć na stronie Klucz i punkt końcowy zasobu w witrynie Azure Portal. Na przykład: `https://<your-resource-name>.cognitiveservices.azure.com`.
`{API_KEY}`	Klucz zasobu usługi Mowa. Możesz go znaleźć na stronie Klucz i punkt końcowy zasobu w witrynie Azure Portal.
`{CONTAINER_LICENSE_DIRECTORY}`	Lokalizacja folderu licencji w lokalnym systemie plików kontenera. Na przykład: `/path/to/license/directory`.

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Po pobraniu pliku licencji można uruchomić kontener w środowisku odłączonym. W poniższym przykładzie pokazano formatowanie używanego docker run polecenia z wartościami zastępczymi. Zastąp te wartości zastępcze własnymi wartościami.

Wszędzie tam, gdzie kontener jest uruchamiany, plik licencji musi być zainstalowany w kontenerze, a lokalizacja folderu licencji w lokalnym systemie plików kontenera musi być określona za pomocą Mounts:License=polecenia . Należy również określić instalację wyjściową, aby można było zapisywać rekordy użycia rozliczeń.

Symbol zastępczy	Wartość	Formatowanie lub przykład
`{IMAGE}`	Obraz kontenera, którego chcesz użyć. Na przykład: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`.
`{MEMORY_SIZE}`	Odpowiedni rozmiar pamięci do przydzielenia dla kontenera. Na przykład: `4g`.
`{NUMBER_CPUS}`	Odpowiednia liczba procesorów CPU do przydzielenia dla kontenera. Na przykład: `4`.
`{LICENSE_MOUNT}`	Ścieżka, w której znajduje się i jest instalowana licencja. Na przykład: `/host/license:/path/to/license/directory`.
`{OUTPUT_PATH}`	Ścieżka wyjściowa rejestrowania. Na przykład: `/host/output:/path/to/output/directory`. Aby uzyskać więcej informacji, zobacz rekordy użycia w dokumentacji usług Azure AI.
`{CONTAINER_LICENSE_DIRECTORY}`	Lokalizacja folderu licencji w lokalnym systemie plików kontenera. Na przykład: `/path/to/license/directory`.
`{CONTAINER_OUTPUT_DIRECTORY}`	Lokalizacja folderu wyjściowego w lokalnym systemie plików kontenera. Na przykład: `/path/to/output/directory`.

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Kontenery mowy udostępniają domyślny katalog do zapisywania pliku licencji i dziennika rozliczeniowego w czasie wykonywania. Katalogi domyślne to /license i /output odpowiednio.

Podczas instalowania tych katalogów w kontenerze docker run -v za pomocą polecenia upewnij się, że katalog lokalny jest ustawiony na własność user:group nonroot:nonroot przed uruchomieniem kontenera.

Oto przykładowe polecenie służące do ustawiania własności pliku/katalogu.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Aby uzyskać więcej informacji na temat docker run kontenerów usługi Mowa, zobacz Instalowanie i uruchamianie kontenerów usługi Mowa za pomocą platformy Docker.

Korzystanie z kontenera

Kontenery mowy udostępniają internetowe interfejsy API punktów końcowych zapytań oparte na protokole Websocket, które są dostępne za pośrednictwem zestawu SPEECH SDK i interfejsu wiersza polecenia usługi Mowa. Domyślnie zestaw SDK usługi Mowa i interfejs wiersza polecenia usługi Mowa używają publicznej usługi rozpoznawania mowy. Aby użyć kontenera, należy zmienić metodę inicjowania.

Ważne

W przypadku korzystania z usługi Mowa z kontenerami upewnij się, że używasz uwierzytelniania hosta. Jeśli skonfigurujesz klucz i region, żądania będą kierowane do publicznej usługi rozpoznawania mowy. Wyniki z usługi Mowa mogą nie być oczekiwane. Żądania od odłączonych kontenerów zakończą się niepowodzeniem.