Rychlý start: Začínáme s Azure AI Speech CLI

Článek
01/23/2024

V tomto článku se dozvíte, jak používat Rozhraní příkazového řádku Azure AI Speech (označované také jako SPX) pro přístup ke službám Speech, jako je převod řeči na text, převod textu na řeč a překlad řeči, aniž byste museli psát žádný kód. Rozhraní příkazového řádku služby Speech je připravené pro produkční prostředí a můžete ho použít k automatizaci jednoduchých pracovních postupů ve službě Speech pomocí .bat skriptů prostředí.

Tento článek předpokládá, že máte funkční znalosti o okně příkazového řádku, terminálu nebo PowerShellu.

Poznámka:

V PowerShellu by měl následovat spxtoken stop-parsing (--%) . Spuštěním spusťte spx --% config @region například zobrazení aktuální hodnoty konfigurace oblasti.

Stažení a instalace

Pokud chcete nainstalovat Rozhraní příkazového řádku služby Speech ve Windows, postupujte takto:

Nainstalujte Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2019 pro vaši platformu. První instalace může vyžadovat restartování.
Nainstalujte .NET 6.
Pomocí rozhraní příkazového řádku .NET CLI nainstalujte rozhraní příkazového řádku služby Speech zadáním následujícího příkazu:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Pokud chcete aktualizovat rozhraní příkazového řádku služby Speech, zadejte tento příkaz:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Zadejte nebo spx help zobrazte spx nápovědu k rozhraní příkazového řádku služby Speech.

Omezení písma

V systému Windows může rozhraní příkazového řádku služby Speech zobrazit pouze písma, která jsou k dispozici na příkazovém řádku na místním počítači. Terminál Windows podporuje všechna písma, která rozhraní příkazového řádku služby Speech vytváří interaktivně.

Při výstupu do souboru může textový editor, jako je Poznámkový blok, nebo webový prohlížeč, jako je Microsoft Edge, zobrazit také všechna písma.

Upozornění

Tento článek odkazuje na CentOS, linuxovou distribuci, která se blíží stavu Konec životnosti (EOL). Zvažte své použití a plánování odpovídajícím způsobem. Další informace najdete v doprovodných materiálech CentOS End Of Life.

Následující linuxové distribuce jsou podporované pro architektury x64, které používají rozhraní příkazového řádku služby Speech:

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

Poznámka:

Sada Speech SDK (nikoli Rozhraní příkazového řádku služby Speech) podporuje další architektury. Další informace najdete v tématu o sadě Speech SDK.

Pokud chcete nainstalovat Rozhraní příkazového řádku služby Speech v Linuxu na procesor x64, postupujte takto:

Nainstalujte .NET 6.
Pomocí rozhraní příkazového řádku .NET CLI nainstalujte rozhraní příkazového řádku služby Speech zadáním následujícího příkazu:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Pokud chcete aktualizovat rozhraní příkazového řádku služby Speech, zadejte tento příkaz:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```
V RHEL/CentOS Linuxu nakonfigurujte OpenSSL pro Linux.
Na Ubuntu 20.04 Linux nainstalujte GStreamer.

Zadáním spx zobrazíte nápovědu k rozhraní příkazového řádku služby Speech.

Pokud chcete nainstalovat Rozhraní příkazového řádku služby Speech v macOS 10.14 nebo novějším, postupujte takto:

Nainstalujte .NET 6.
Pomocí rozhraní příkazového řádku .NET CLI nainstalujte rozhraní příkazového řádku služby Speech zadáním následujícího příkazu:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Pokud chcete aktualizovat rozhraní příkazového řádku služby Speech, zadejte tento příkaz:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Zadejte nebo spx help zobrazte spx nápovědu k rozhraní příkazového řádku služby Speech.

Následující příklad načítá image veřejného kontejneru z Docker Hubu. Doporučujeme, abyste se nejdřív ověřili pomocí svého účtu Docker Hubu (docker login) místo vytvoření anonymní žádosti o přijetí změn. Pokud chcete zvýšit spolehlivost při používání veřejného obsahu, naimportujte a spravujte image v privátním registru kontejnerů Azure. Přečtěte si další informace o práci s veřejnými imagemi.

Pokud chcete nainstalovat Rozhraní příkazového řádku služby Speech v kontejneru Dockeru, postupujte takto:

Pokud ještě není nainstalovaný, nainstalujte Docker Desktop pro vaši platformu.
Do nového příkazového řádku nebo terminálu zadejte tento příkaz:
```
docker pull msftspeech/spx
```

Zadáním tohoto příkazu zobrazíte informace nápovědy pro rozhraní příkazového řádku služby Speech:

docker run -it --rm msftspeech/spx help

Připojení adresáře v kontejneru

Nástroj Speech CLI ukládá konfigurační nastavení jako soubory. Tyto soubory se načte, když provádíte libovolný příkaz (kromě příkazů nápovědy).

Pokud používáte Rozhraní příkazového řádku služby Speech v kontejneru Dockeru, musíte z kontejneru připojit místní adresář, aby nástroj mohl:

Uložte nebo vyhledejte nastavení konfigurace.
Čtěte nebo zapisujte všechny soubory, které příkaz vyžaduje, například zvukové soubory řeči.

Ve Windows zadejte tento příkaz a vytvořte místní adresář, který může rozhraní příkazového řádku služby Speech používat v rámci kontejneru:

mkdir c:\spx-data

V Linuxu nebo macOS zadejte tento příkaz do terminálu, abyste vytvořili adresář a zobrazili jeho absolutní cestu:

mkdir ~/spx-data
cd ~/spx-data
pwd

Při volání rozhraní příkazového řádku služby Speech použijete absolutní cestu.

Spuštění rozhraní příkazového řádku služby Speech v kontejneru

Tato dokumentace ukazuje příkaz Rozhraní příkazového řádku spx služby Speech používaný v instalacích mimo Docker. Při volání spx příkazu v kontejneru Dockeru musíte připojit adresář v kontejneru do systému souborů, kde rozhraní příkazového řádku služby Speech může ukládat a vyhledávat konfigurační hodnoty a číst a zapisovat soubory.

Ve Windows se příkazy spustí takto:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

Příkazy v Linuxu nebo macOS vypadají jako v následující ukázce. Nahraďte ABSOLUTE_PATH absolutní cestou pro připojený adresář. Příkaz pwd vrátil tuto cestu v předchozí části. Pokud tento příkaz spustíte před nastavením klíče a oblasti, zobrazí se chyba s informacemi o nastavení klíče a oblasti.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Pokud chcete použít spx příkaz nainstalovaný v kontejneru, zadejte vždy úplný příkaz, jak je znázorněno v předchozí ukázce, následované parametry vašeho požadavku. Například ve Windows tento příkaz nastaví váš klíč:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Pokud chcete rozšířit interakci s nástrojem příkazového řádku, můžete spustit kontejner s interaktivním prostředím Bash přidáním parametru entrypoint . Zadáním tohoto příkazu ve Windows spusťte kontejner, který zveřejňuje interaktivní rozhraní příkazového řádku, kde můžete zadat více spx příkazů:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Můžete to zkombinovat s AZ Login a nechat inicializaci SPX provést vytvořením hlasových klíčů a výběrem odpovídající oblasti dat, aniž byste museli používat Azure Portal. Klíče se automaticky uloží pro pozdější použití.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Abyste mohli začít, potřebujete klíč prostředku služby Speech a identifikátor oblasti (například eastus, westus). Na webu Azure Portal vytvořte prostředek služby Speech. Další informace najdete v tématu Vytvoření prostředku s více službami.

Pokud chcete nakonfigurovat identifikátor klíče prostředku a oblasti, spusťte následující příkazy:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Klíč a oblast se ukládají pro budoucí příkazy rozhraní příkazového řádku služby Speech. Pokud chcete zobrazit aktuální konfiguraci, spusťte následující příkazy:

spx config @key
spx config @region

Podle potřeby zahrňte možnost odebrat buď uloženou clear hodnotu:

spx config @key --clear
spx config @region --clear

Pokud chcete nakonfigurovat identifikátor prostředku a oblasti služby Speech, spusťte v PowerShellu následující příkazy:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

Klíč a oblast se ukládají pro budoucí příkazy SPX. Pokud chcete zobrazit aktuální konfiguraci, spusťte následující příkazy:

spx --% config @key
spx --% config @region

Podle potřeby zahrňte možnost odebrat buď uloženou clear hodnotu:

spx --% config @key --clear
spx --% config @region --clear

Základní použití

Důležité

Pokud používáte Rozhraní příkazového řádku služby Speech v kontejneru, uveďte tuto --host možnost. Musíte také zadat --key none , abyste zajistili, že se rozhraní příkazového řádku nebude pokoušet k ověřování použít klíč služby Speech. Spusťte například rozpoznávání spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav řeči ze zvukového souboru v kontejneru řeči na text.

Tato část ukazuje několik základních příkazů SPX, které jsou často užitečné pro první testování a experimentování. Spuštěním následujícího příkazu zobrazte nápovědu v nástroji:

spx

Témata nápovědy můžete hledat podle klíčových slov. Pokud například chcete zobrazit seznam příkladů použití rozhraní příkazového řádku služby Speech, spusťte následující příkaz:

spx help find --topics "examples"

Pokud chcete zobrazit možnosti recognize příkazu, spusťte následující příkaz:

spx help recognize

Další příkazy nápovědy jsou uvedeny ve výstupu konzoly. Zadáním těchto příkazů získáte podrobnou nápovědu k dílčím příkazům.

Převod řeči na text (rozpoznávání řeči)

Poznámka:

Mikrofon počítače nemůžete použít při spuštění rozhraní příkazového řádku služby Speech v kontejneru Dockeru. Zvukové soubory ale můžete číst a ukládat do místního připojeného adresáře.

Pokud chcete převést řeč na text (rozpoznávání řeči) pomocí výchozího mikrofonu systému, spusťte následující příkaz:

spx recognize --microphone

Po spuštění příkazu začne SPX naslouchat zvuku na aktuálním aktivním vstupním zařízení. Když vyberete Enter, přestane naslouchat. Mluvený zvuk se pak rozpozná a převede na text ve výstupu konzoly.

Pomocí rozhraní příkazového řádku služby Speech můžete také rozpoznat řeč ze zvukového souboru. Spusťte následující příkaz:

spx recognize --file /path/to/file.wav

Tip

Pokud se zaseknete nebo chcete získat další informace o možnostech rozpoznávání rozhraní příkazového řádku služby Speech, můžete spustit spx help recognize.

Převod textu na řeč (syntéza řeči)

Následující příkaz přebírá jako vstup text a potom výstupem syntetizované řeči do aktuálního aktivního výstupního zařízení (například reproduktorů počítače).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Syntetizovaný výstup můžete také uložit do souboru. V tomto příkladu vytvoříme soubor s názvem my-sample.wav v adresáři, ve kterém příkaz spouštíte.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Tyto příklady předpokládají, že testujete v angličtině. Služba Speech však podporuje syntézu řeči v mnoha jazycích. Úplný seznam hlasů můžete stáhnout spuštěním následujícího příkazu nebo na stránce podpory jazyka.

spx synthesize --voices

Tady je příkaz pro použití jednoho ze zjištěných hlasů.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Tip

Pokud se zaseknete nebo chcete získat další informace o možnostech rozpoznávání rozhraní příkazového řádku služby Speech, můžete spustit spx help synthesize.

Překlad řeči na text

Pomocí rozhraní příkazového řádku služby Speech můžete také provádět překlad řeči na text. Spuštěním následujícího příkazu zachyťte zvuk z výchozího mikrofonu a výstupem překladu jako text. Mějte na paměti, že potřebujete zadat source příkaz a target jazyk translate .

spx translate --microphone --source en-US --target ru-RU

Při překladu do více jazyků oddělte kódy jazyka středníkem (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Pokud chcete uložit výstup překladu, použijte příznak --output . V tomto příkladu také čtete ze souboru.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Tip

Pokud se zaseknete nebo chcete získat další informace o možnostech rozpoznávání rozhraní příkazového řádku služby Speech, můžete spustit spx help translate.

Rychlý start: Začínáme s Azure AI Speech CLI

Stažení a instalace

Omezení písma

Připojení adresáře v kontejneru

Spuštění rozhraní příkazového řádku služby Speech v kontejneru

Vytvoření konfigurace prostředku

Základní použití

Převod řeči na text (rozpoznávání řeči)

Převod textu na řeč (syntéza řeči)

Překlad řeči na text

Další kroky

Další materiály