Szybki start: rozpoczynanie pracy z interfejsem wiersza polecenia usługi Azure AI Speech

Artykuł
09/24/2024

Z tego artykułu dowiesz się, jak używać interfejsu wiersza polecenia usługi Mowa azure AI (nazywanego również spX) do uzyskiwania dostępu do usług rozpoznawania mowy, takich jak zamiana mowy na tekst, zamiana tekstu na mowę i tłumaczenie mowy bez konieczności pisania kodu. Interfejs wiersza polecenia usługi Mowa jest gotowy do produkcji i umożliwia automatyzowanie prostych przepływów pracy w usłudze Mowa przy użyciu .bat skryptów powłoki lub .

W tym artykule założono, że masz wiedzę na temat okna wiersza polecenia, terminalu lub programu PowerShell.

Uwaga

W programie PowerShell token zatrzymania analizowania (--%) powinien być zgodny z instrukcjami spx. Na przykład uruchom polecenie spx --% config @region , aby wyświetlić bieżącą wartość konfiguracji regionu.

Pobierz i zainstaluj

Wykonaj następujące kroki, aby zainstalować interfejs wiersza polecenia usługi Mowa w systemie Windows:

Zainstaluj platformę Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2019. Zainstalowanie go po raz pierwszy może wymagać ponownego uruchomienia.
Zainstaluj program .NET 6.
Zainstaluj interfejs wiersza polecenia usługi Mowa za pomocą interfejsu wiersza polecenia platformy .NET, wprowadzając następujące polecenie:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Aby zaktualizować interfejs wiersza polecenia usługi Mowa, wprowadź następujące polecenie:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Wprowadź spx lub spx help , aby wyświetlić pomoc dotyczącą interfejsu wiersza polecenia usługi Mowa.

Ograniczenia czcionek

W systemie Windows interfejs wiersza polecenia usługi Mowa może wyświetlać tylko czcionki dostępne dla wiersza polecenia na komputerze lokalnym. Terminal Windows obsługuje wszystkie czcionki, które interfejs wiersza polecenia usługi Mowa tworzy interaktywnie.

W przypadku danych wyjściowych do pliku edytor tekstów, taki jak Notatnik lub przeglądarka internetowa, na przykład Microsoft Edge, może również wyświetlać wszystkie czcionki.

Następujące dystrybucje systemu Linux są obsługiwane w przypadku architektur x64 korzystających z interfejsu wiersza polecenia usługi Mowa:

Ubuntu 20.04/22.04/24.04
Debian 11/12

Uwaga

Zestaw SPEECH SDK (a nie interfejs wiersza polecenia usługi Mowa) obsługuje dodatkowe architektury. Aby uzyskać więcej informacji, zobacz About the Speech SDK (Informacje o zestawie SDK usługi Mowa).

Wykonaj następujące kroki, aby zainstalować interfejs wiersza polecenia usługi Mowa w systemie Linux na procesorze x64:

Zainstaluj platformę .NET 6.
Zainstaluj interfejs wiersza polecenia usługi Mowa za pomocą interfejsu wiersza polecenia platformy .NET, wprowadzając następujące polecenie:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Aby zaktualizować interfejs wiersza polecenia usługi Mowa, wprowadź następujące polecenie:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```
Zainstaluj usługę GStreamer pod kątem obsługi skompresowanego dźwięku.

Wprowadź polecenie , spx aby wyświetlić pomoc dotyczącą interfejsu wiersza polecenia usługi Mowa.

Wykonaj następujące kroki, aby zainstalować interfejs wiersza polecenia usługi Mowa w systemie macOS 10.14 lub nowszym:

Zainstaluj program .NET 6.
Zainstaluj interfejs wiersza polecenia usługi Mowa za pomocą interfejsu wiersza polecenia platformy .NET, wprowadzając następujące polecenie:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Aby zaktualizować interfejs wiersza polecenia usługi Mowa, wprowadź następujące polecenie:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Wprowadź spx lub spx help , aby wyświetlić pomoc dotyczącą interfejsu wiersza polecenia usługi Mowa.

Poniższy przykład ściąga publiczny obraz kontenera z usługi Docker Hub. Zalecamy najpierw uwierzytelnienie przy użyciu konta usługi Docker Hub (docker login) zamiast tworzenia anonimowego żądania ściągnięcia. Aby zwiększyć niezawodność podczas korzystania z zawartości publicznej, zaimportuj obraz i zarządzaj nim w prywatnym rejestrze kontenerów platformy Azure. Dowiedz się więcej o pracy z obrazami publicznymi.

Wykonaj następujące kroki, aby zainstalować interfejs wiersza polecenia usługi Mowa w kontenerze platformy Docker:

Zainstaluj program Docker Desktop dla swojej platformy, jeśli nie został jeszcze zainstalowany.
W nowym wierszu polecenia lub terminalu wprowadź następujące polecenie:
```
docker pull msftspeech/spx
```

Wprowadź to polecenie, aby wyświetlić informacje pomocy dotyczące interfejsu wiersza polecenia usługi Mowa:

docker run -it --rm msftspeech/spx help

Instalowanie katalogu w kontenerze

Narzędzie interfejsu wiersza polecenia usługi Mowa zapisuje ustawienia konfiguracji jako pliki. Ładuje te pliki podczas wykonywania dowolnego polecenia (z wyjątkiem poleceń pomocy).

Jeśli używasz interfejsu wiersza polecenia usługi Mowa w kontenerze platformy Docker, musisz zainstalować katalog lokalny z kontenera, aby narzędzie może:

Zapisz lub znajdź ustawienia konfiguracji.
Odczyt lub zapis wszystkich plików, których wymaga polecenie, takich jak pliki audio mowy.

W systemie Windows wprowadź to polecenie, aby utworzyć katalog lokalny, którego interfejs wiersza polecenia usługi Mowa może używać z poziomu kontenera:

mkdir c:\spx-data

W systemie Linux lub macOS wprowadź to polecenie w terminalu, aby utworzyć katalog i wyświetlić jego ścieżkę bezwzględną:

mkdir ~/spx-data
cd ~/spx-data
pwd

Ścieżka bezwzględna będzie używana podczas wywoływania interfejsu wiersza polecenia usługi Mowa.

Uruchamianie interfejsu wiersza polecenia usługi Mowa w kontenerze

W tej dokumentacji przedstawiono polecenie interfejsu wiersza polecenia spx usługi Mowa używane w instalacjach innych niż platformy Docker. Podczas wywoływania spx polecenia w kontenerze platformy Docker musisz zainstalować katalog w kontenerze w systemie plików, w którym interfejs wiersza polecenia usługi Mowa może przechowywać wartości konfiguracji i odczytywać i zapisywać pliki.

W systemie Windows polecenia zaczynają się w następujący sposób:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

W systemie Linux lub macOS polecenia wyglądają jak w poniższym przykładzie. Zastąp ABSOLUTE_PATH ciąg ścieżką bezwzględną dla zainstalowanego katalogu. Polecenie pwd zwróciło tę ścieżkę w poprzedniej sekcji. Jeśli uruchomisz to polecenie przed ustawieniem klucza i regionu, zostanie wyświetlony błąd z komunikatem o ustawieniu klucza i regionu.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Aby użyć spx polecenia zainstalowanego w kontenerze, zawsze wprowadź pełne polecenie, jak pokazano w poprzednim przykładzie, a następnie parametry żądania. Na przykład w systemie Windows to polecenie ustawia klucz:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Aby uzyskać bardziej rozszerzoną interakcję z narzędziem wiersza polecenia, możesz uruchomić kontener za pomocą interaktywnej powłoki powłoki Bash, dodając entrypoint parametr. W systemie Windows wprowadź następujące polecenie, aby uruchomić kontener, który uwidacznia interaktywny interfejs wiersza polecenia, w którym można wprowadzić wiele spx poleceń:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Możesz połączyć to z identyfikatorem AZ Login i mieć przewodnik SPX Init, tworząc klucze mowy i wybierając pasujący region danych bez konieczności korzystania z witryny Azure Portal. Klucze będą automatycznie przechowywane do późniejszego użycia.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Aby rozpocząć, potrzebujesz klucza zasobu usługi Mowa i identyfikatora regionu (na przykład eastus, westus). Utwórz zasób usługi Mowa w witrynie Azure Portal. Aby uzyskać więcej informacji, zobacz Create an Azure AI services resource (Tworzenie zasobu usług Azure AI).

Aby skonfigurować klucz zasobu i identyfikator regionu, uruchom następujące polecenia:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Klucz i region są przechowywane dla przyszłych poleceń interfejsu wiersza polecenia usługi Mowa. Aby wyświetlić bieżącą konfigurację, uruchom następujące polecenia:

spx config @key
spx config @region

W razie potrzeby dołącz opcję usunięcia żadnej przechowywanej clear wartości:

spx config @key --clear
spx config @region --clear

Aby rozpocząć, potrzebujesz klucza zasobu usługi Mowa i identyfikatora regionu (na przykład eastus, westus). Utwórz zasób usługi Mowa w witrynie Azure Portal.

Aby skonfigurować klucz zasobu usługi Mowa i identyfikator regionu, uruchom następujące polecenia w programie PowerShell:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

Klucz i region są przechowywane dla przyszłych poleceń SPX. Aby wyświetlić bieżącą konfigurację, uruchom następujące polecenia:

spx --% config @key
spx --% config @region

W razie potrzeby dołącz opcję usunięcia żadnej przechowywanej clear wartości:

spx --% config @key --clear
spx --% config @region --clear

Podstawowy sposób użycia

Ważne

Jeśli używasz interfejsu wiersza polecenia usługi Mowa w kontenerze, dołącz --host opcję . Należy również określić --key none , aby upewnić się, że interfejs wiersza polecenia nie próbuje użyć klucza mowy do uwierzytelniania. Na przykład uruchom polecenie spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav , aby rozpoznać mowę z pliku audio w kontenerze zamiany mowy na tekst.

W tej sekcji przedstawiono kilka podstawowych poleceń SPX, które są często przydatne podczas testowania i eksperymentowania po raz pierwszy. Uruchom następujące polecenie, aby wyświetlić pomoc w narzędziu:

spx

Tematy pomocy można wyszukiwać według słowa kluczowego. Aby na przykład wyświetlić listę przykładów użycia interfejsu wiersza polecenia usługi Mowa, uruchom następujące polecenie:

spx help find --topics "examples"

Aby wyświetlić opcje polecenia recognize , uruchom następujące polecenie:

spx help recognize

Więcej poleceń pomocy znajduje się w danych wyjściowych konsoli. Możesz wprowadzić te polecenia, aby uzyskać szczegółową pomoc dotyczącą poleceń podrzędnych.

Zamiana mowy na tekst (rozpoznawanie mowy)

Uwaga

Nie można użyć mikrofonu komputera podczas uruchamiania interfejsu wiersza polecenia usługi Mowa w kontenerze platformy Docker. Można jednak odczytywać i zapisywać pliki audio w lokalnym katalogu zainstalowanym.

Aby przekonwertować mowę na tekst (rozpoznawanie mowy) przy użyciu domyślnego mikrofonu systemu, uruchom następujące polecenie:

spx recognize --microphone

Po uruchomieniu polecenia program SPX rozpoczyna nasłuchiwanie dźwięku na bieżącym aktywnym urządzeniu wejściowym. Zatrzymuje nasłuchiwanie po wybraniu Enter. Dźwięk mówiony jest następnie rozpoznawany i konwertowany na tekst w danych wyjściowych konsoli.

Za pomocą interfejsu wiersza polecenia usługi Mowa można również rozpoznawać mowę z pliku audio. Uruchom następujące polecenie:

spx recognize --file /path/to/file.wav

Napiwek

Jeśli utkniesz lub chcesz dowiedzieć się więcej o opcjach rozpoznawania interfejsu wiersza polecenia usługi Mowa, możesz uruchomić polecenie spx help recognize.

Zamiana tekstu na mowę (synteza mowy)

Następujące polecenie przyjmuje tekst jako dane wejściowe, a następnie zwraca syntetyzowany mowę do bieżącego aktywnego urządzenia wyjściowego (na przykład głośników komputerowych).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Możesz również zapisać syntetyzowane dane wyjściowe do pliku. W tym przykładzie utwórzmy plik o nazwie my-sample.wav w katalogu, w którym uruchamiasz polecenie.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Te przykłady zakładają, że testujesz w języku angielskim. Jednak usługa mowa obsługuje syntezę mowy w wielu językach. Możesz ściągnąć pełną listę głosów, uruchamiając następujące polecenie lub odwiedzając stronę pomocy technicznej języka.

spx synthesize --voices

Oto polecenie służące do używania jednego z odnalezionych głosów.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Napiwek

Jeśli utkniesz lub chcesz dowiedzieć się więcej o opcjach rozpoznawania interfejsu wiersza polecenia usługi Mowa, możesz uruchomić polecenie spx help synthesize.

Tłumaczenie mowy na tekst

Za pomocą interfejsu wiersza polecenia usługi Mowa możesz również wykonać zamianę mowy na tłumaczenie tekstu. Uruchom następujące polecenie, aby przechwycić dźwięk z domyślnego mikrofonu i wyświetlić tłumaczenie jako tekst. Pamiętaj, że musisz podać source język i target za translate pomocą polecenia .

spx translate --microphone --source en-US --target ru-RU

W przypadku tłumaczenia na wiele języków należy oddzielić kody języków średnikami (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

Jeśli chcesz zapisać dane wyjściowe tłumaczenia, użyj flagi --output . W tym przykładzie odczytujesz również z pliku.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Napiwek

Jeśli utkniesz lub chcesz dowiedzieć się więcej o opcjach rozpoznawania interfejsu wiersza polecenia usługi Mowa, możesz uruchomić polecenie spx help translate.

Udostępnij za pośrednictwem

Szybki start: rozpoczynanie pracy z interfejsem wiersza polecenia usługi Azure AI Speech

Pobierz i zainstaluj

Ograniczenia czcionek

Instalowanie katalogu w kontenerze

Uruchamianie interfejsu wiersza polecenia usługi Mowa w kontenerze

Tworzenie konfiguracji zasobu

Podstawowy sposób użycia

Zamiana mowy na tekst (rozpoznawanie mowy)

Zamiana tekstu na mowę (synteza mowy)

Tłumaczenie mowy na tekst

Następne kroki

Opinia

Dodatkowe zasoby