Udostępnij za pośrednictwem


Kontenery zamiany mowy na tekst za pomocą platformy Docker

Kontener zamiany mowy na tekst transkrybuje mowę w czasie rzeczywistym lub wsadowe nagrania audio z wynikami pośrednimi. Z tego artykułu dowiesz się, jak pobrać, zainstalować i uruchomić kontener zamiany mowy na tekst.

Aby uzyskać więcej informacji na temat wymagań wstępnych, sprawdzania poprawności działania kontenera, uruchamiania wielu kontenerów na tym samym hoście i uruchamiania odłączonych kontenerów, zobacz Instalowanie i uruchamianie kontenerów usługi Mowa za pomocą platformy Docker.

Obrazy kontenerów

Obraz kontenera zamiany mowy na tekst dla wszystkich obsługiwanych wersji i ustawień regionalnych można znaleźć w syndykacie usługi Microsoft Container Registry (MCR). Znajduje się on w azure-cognitive-services/speechservices/ repozytorium i ma nazwę speech-to-text.

Zrzut ekranu przedstawiający okno dialogowe łączników wyszukiwania i wyzwalaczy.

W pełni kwalifikowana nazwa obrazu kontenera to mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text. Dołącz określoną wersję lub dołącz, :latest aby uzyskać najnowszą wersję.

Wersja Ścieżka
Najnowsze mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

Tag latest ściąga najnowszy obraz ustawień en-US regionalnych.
4.10.0 mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.10.0-amd64-mr-in

Wszystkie tagi, z wyjątkiem latest, mają następujący format i są uwzględniane wielkość liter:

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

Tagi są również dostępne w formacie JSON dla Wygody. Treść zawiera ścieżkę kontenera i listę tagów. Tagi nie są sortowane według wersji, ale "latest" są zawsze uwzględniane na końcu listy, jak pokazano w tym fragmencie kodu:

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    <--redacted for brevity-->    
    "4.10.0-amd64-sw-tz",
    "4.10.0-amd64-ta-in",
    "4.10.0-amd64-th-th",
    "4.10.0-amd64-tr-tr",
    "4.10.0-amd64-vi-vn",
    "4.10.0-amd64-wuu-cn",
    "4.10.0-amd64-yue-cn",
    "4.10.0-amd64-zh-cn",
    "4.10.0-amd64-zh-cn-sichuan",
    "4.10.0-amd64-zh-hk",
    "4.10.0-amd64-zh-tw",
    "4.10.0-amd64-zu-za",
    "latest"
  ]
}

Pobieranie obrazu kontenera za pomocą ściągania platformy Docker

Potrzebujesz wymagań wstępnych , w tym wymaganego sprzętu. Zobacz również zalecaną alokację zasobów dla każdego kontenera usługi Mowa.

Użyj polecenia docker pull, aby pobrać obraz kontenera z usługi Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

Ważne

Tag latest ściąga najnowszy obraz ustawień en-US regionalnych. Aby uzyskać dodatkowe wersje i ustawienia regionalne, zobacz zamiana mowy na obrazy kontenerów tekstu.

Uruchamianie kontenera za pomocą uruchamiania platformy Docker

Użyj polecenia docker run, aby uruchomić kontener.

W poniższej tabeli przedstawiono różne docker run parametry i odpowiadające im opisy:

Parametr Opis
{ENDPOINT_URI} Punkt końcowy jest wymagany do pomiaru i rozliczeń. Aby uzyskać więcej informacji, zobacz argumenty rozliczeniowe.
{API_KEY} Klucz interfejsu API jest wymagany. Aby uzyskać więcej informacji, zobacz argumenty rozliczeniowe.

Po uruchomieniu kontenera zamiany mowy na tekst skonfiguruj port, pamięć i procesor CPU zgodnie z wymaganiami i zaleceniami dotyczącymi kontenera tekstu mowy.

Oto przykładowe docker run polecenie z wartościami zastępczymi. Należy określić ENDPOINT_URI wartości i API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

To polecenie:

  • speech-to-text Uruchamia kontener z obrazu kontenera.
  • Przydziela 4 rdzenie procesora CPU i 8 GB pamięci.
  • Uwidacznia port TCP 5000 i przydziela pseudo-TTY dla kontenera.
  • Automatycznie usuwa kontener po jego zakończeniu. Obraz kontenera jest nadal dostępny na komputerze hosta.

Aby uzyskać więcej informacji na temat docker run kontenerów usługi Mowa, zobacz Instalowanie i uruchamianie kontenerów usługi Mowa za pomocą platformy Docker.

Korzystanie z kontenera

Kontenery mowy udostępniają internetowe interfejsy API punktów końcowych zapytań oparte na protokole Websocket, które są dostępne za pośrednictwem zestawu SPEECH SDK i interfejsu wiersza polecenia usługi Mowa. Domyślnie zestaw SDK usługi Mowa i interfejs wiersza polecenia usługi Mowa używają publicznej usługi rozpoznawania mowy. Aby użyć kontenera, należy zmienić metodę inicjowania.

Ważne

W przypadku korzystania z usługi Mowa z kontenerami upewnij się, że używasz uwierzytelniania hosta. Jeśli skonfigurujesz klucz i region, żądania będą kierowane do publicznej usługi rozpoznawania mowy. Wyniki z usługi Mowa mogą nie być oczekiwane. Żądania od odłączonych kontenerów zakończą się niepowodzeniem.

Zamiast używać tej konfiguracji inicjowania chmury platformy Azure:

var config = SpeechConfig.FromSubscription(...);

Użyj tej konfiguracji z hostem kontenera:

var config = SpeechConfig.FromHost(
    new Uri("ws://localhost:5000"));

Zamiast używać tej konfiguracji inicjowania chmury platformy Azure:

auto speechConfig = SpeechConfig::FromSubscription(...);

Użyj tej konfiguracji z hostem kontenera:

auto speechConfig = SpeechConfig::FromHost("ws://localhost:5000");

Zamiast używać tej konfiguracji inicjowania chmury platformy Azure:

speechConfig, err := speech.NewSpeechConfigFromSubscription(...)

Użyj tej konfiguracji z hostem kontenera:

speechConfig, err := speech.NewSpeechConfigFromHost("ws://localhost:5000")

Zamiast używać tej konfiguracji inicjowania chmury platformy Azure:

SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);

Użyj tej konfiguracji z hostem kontenera:

SpeechConfig speechConfig = SpeechConfig.fromHost("ws://localhost:5000");

Zamiast używać tej konfiguracji inicjowania chmury platformy Azure:

const speechConfig = sdk.SpeechConfig.fromSubscription(...);

Użyj tej konfiguracji z hostem kontenera:

const speechConfig = sdk.SpeechConfig.fromHost("ws://localhost:5000");

Zamiast używać tej konfiguracji inicjowania chmury platformy Azure:

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];

Użyj tej konfiguracji z hostem kontenera:

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"ws://localhost:5000"];

Zamiast używać tej konfiguracji inicjowania chmury platformy Azure:

let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");

Użyj tej konfiguracji z hostem kontenera:

let speechConfig = SPXSpeechConfiguration(host: "ws://localhost:5000");

Zamiast używać tej konfiguracji inicjowania chmury platformy Azure:

speech_config = speechsdk.SpeechConfig(
    subscription=speech_key, region=service_region)

Użyj tej konfiguracji z punktem końcowym kontenera:

speech_config = speechsdk.SpeechConfig(
    host="ws://localhost:5000")

Jeśli używasz interfejsu wiersza polecenia usługi Mowa w kontenerze, dołącz --host ws://localhost:5000/ opcję . Należy również określić --key none , aby upewnić się, że interfejs wiersza polecenia nie próbuje użyć klucza mowy do uwierzytelniania. Aby uzyskać informacje o sposobie konfigurowania interfejsu wiersza polecenia usługi Mowa, zobacz Rozpoczynanie pracy z interfejsem wiersza polecenia usługi Azure AI Speech.

Wypróbuj mowę do tekstu — szybki start przy użyciu uwierzytelniania hosta zamiast klucza i regionu.

Następne kroki