Szybki start: rozpoczynanie pracy z interfejsem wiersza polecenia usługi Azure AI Speech

Z tego artykułu dowiesz się, jak używać interfejsu wiersza polecenia usługi Mowa azure AI (nazywanego również spX) do uzyskiwania dostępu do usług rozpoznawania mowy, takich jak zamiana mowy na tekst, zamiana tekstu na mowę i tłumaczenie mowy bez konieczności pisania kodu. Interfejs wiersza polecenia usługi Mowa jest gotowy do produkcji i umożliwia automatyzowanie prostych przepływów pracy w usłudze Mowa przy użyciu .bat skryptów powłoki lub .

W tym artykule założono, że masz wiedzę na temat okna wiersza polecenia, terminalu lub programu PowerShell.

Uwaga

W programie PowerShell token zatrzymania analizowania (--%) powinien być zgodny z instrukcjami spx. Na przykład uruchom polecenie spx --% config @region , aby wyświetlić bieżącą wartość konfiguracji regionu.

Pobierz i zainstaluj

Wykonaj następujące kroki, aby zainstalować interfejs wiersza polecenia usługi Mowa w systemie Windows:

  1. Zainstaluj platformę Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2019. Zainstalowanie go po raz pierwszy może wymagać ponownego uruchomienia.

  2. Zainstaluj program .NET 6.

  3. Zainstaluj interfejs wiersza polecenia usługi Mowa za pomocą interfejsu wiersza polecenia platformy .NET, wprowadzając następujące polecenie:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Aby zaktualizować interfejs wiersza polecenia usługi Mowa, wprowadź następujące polecenie:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Wprowadź spx lub spx help , aby wyświetlić pomoc dotyczącą interfejsu wiersza polecenia usługi Mowa.

Ograniczenia czcionek

W systemie Windows interfejs wiersza polecenia usługi Mowa może wyświetlać tylko czcionki dostępne dla wiersza polecenia na komputerze lokalnym. Terminal Windows obsługuje wszystkie czcionki, które interfejs wiersza polecenia usługi Mowa tworzy interaktywnie.

W przypadku danych wyjściowych do pliku edytor tekstów, taki jak Notatnik lub przeglądarka internetowa, na przykład Microsoft Edge, może również wyświetlać wszystkie czcionki.

Tworzenie konfiguracji zasobu

Aby rozpocząć, potrzebujesz klucza zasobu usługi Mowa i identyfikatora regionu (na przykład eastus, westus). Utwórz zasób usługi Mowa w witrynie Azure Portal. Aby uzyskać więcej informacji, zobacz Tworzenie zasobu z wieloma usługami.

Aby skonfigurować klucz zasobu i identyfikator regionu, uruchom następujące polecenia:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Klucz i region są przechowywane dla przyszłych poleceń interfejsu wiersza polecenia usługi Mowa. Aby wyświetlić bieżącą konfigurację, uruchom następujące polecenia:

spx config @key
spx config @region

W razie potrzeby dołącz opcję usunięcia żadnej przechowywanej clear wartości:

spx config @key --clear
spx config @region --clear

Podstawowy sposób użycia

Ważne

Jeśli używasz interfejsu wiersza polecenia usługi Mowa w kontenerze, dołącz --host opcję . Należy również określić --key none , aby upewnić się, że interfejs wiersza polecenia nie próbuje użyć klucza mowy do uwierzytelniania. Na przykład uruchom polecenie spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav , aby rozpoznać mowę z pliku audio w kontenerze zamiany mowy na tekst.

W tej sekcji przedstawiono kilka podstawowych poleceń SPX, które są często przydatne podczas testowania i eksperymentowania po raz pierwszy. Uruchom następujące polecenie, aby wyświetlić pomoc w narzędziu:

spx

Tematy pomocy można wyszukiwać według słowa kluczowego. Aby na przykład wyświetlić listę przykładów użycia interfejsu wiersza polecenia usługi Mowa, uruchom następujące polecenie:

spx help find --topics "examples"

Aby wyświetlić opcje polecenia recognize , uruchom następujące polecenie:

spx help recognize

Więcej poleceń pomocy znajduje się w danych wyjściowych konsoli. Możesz wprowadzić te polecenia, aby uzyskać szczegółową pomoc dotyczącą poleceń podrzędnych.

Zamiana mowy na tekst (rozpoznawanie mowy)

Uwaga

Nie można użyć mikrofonu komputera podczas uruchamiania interfejsu wiersza polecenia usługi Mowa w kontenerze platformy Docker. Można jednak odczytywać i zapisywać pliki audio w lokalnym katalogu zainstalowanym.

Aby przekonwertować mowę na tekst (rozpoznawanie mowy) przy użyciu domyślnego mikrofonu systemu, uruchom następujące polecenie:

spx recognize --microphone

Po uruchomieniu polecenia program SPX rozpoczyna nasłuchiwanie dźwięku na bieżącym aktywnym urządzeniu wejściowym. Zatrzymuje nasłuchiwanie po wybraniu klawisza Enter. Dźwięk mówiony jest następnie rozpoznawany i konwertowany na tekst w danych wyjściowych konsoli.

Za pomocą interfejsu wiersza polecenia usługi Mowa można również rozpoznawać mowę z pliku audio. Uruchom następujące polecenie:

spx recognize --file /path/to/file.wav

Napiwek

Jeśli utkniesz lub chcesz dowiedzieć się więcej o opcjach rozpoznawania interfejsu wiersza polecenia usługi Mowa, możesz uruchomić polecenie spx help recognize.

Zamiana tekstu na mowę (synteza mowy)

Następujące polecenie przyjmuje tekst jako dane wejściowe, a następnie zwraca syntetyzowany mowę do bieżącego aktywnego urządzenia wyjściowego (na przykład głośników komputerowych).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Możesz również zapisać syntetyzowane dane wyjściowe do pliku. W tym przykładzie utwórzmy plik o nazwie my-sample.wav w katalogu, w którym uruchamiasz polecenie.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Te przykłady zakładają, że testujesz w języku angielskim. Jednak usługa mowa obsługuje syntezę mowy w wielu językach. Możesz ściągnąć pełną listę głosów, uruchamiając następujące polecenie lub odwiedzając stronę pomocy technicznej języka.

spx synthesize --voices

Oto polecenie służące do używania jednego z odnalezionych głosów.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Napiwek

Jeśli utkniesz lub chcesz dowiedzieć się więcej o opcjach rozpoznawania interfejsu wiersza polecenia usługi Mowa, możesz uruchomić polecenie spx help synthesize.

Tłumaczenie mowy na tekst

Za pomocą interfejsu wiersza polecenia usługi Mowa możesz również wykonać zamianę mowy na tłumaczenie tekstu. Uruchom następujące polecenie, aby przechwycić dźwięk z domyślnego mikrofonu i wyświetlić tłumaczenie jako tekst. Pamiętaj, że musisz podać source język i target za translate pomocą polecenia .

spx translate --microphone --source en-US --target ru-RU

W przypadku tłumaczenia na wiele języków należy oddzielić kody języków średnikami (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Jeśli chcesz zapisać dane wyjściowe tłumaczenia, użyj flagi --output . W tym przykładzie odczytujesz również z pliku.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Napiwek

Jeśli utkniesz lub chcesz dowiedzieć się więcej o opcjach rozpoznawania interfejsu wiersza polecenia usługi Mowa, możesz uruchomić polecenie spx help translate.

Następne kroki