Rychlý start: Začínáme s Azure AI Speech CLI

V tomto článku se dozvíte, jak používat Rozhraní příkazového řádku Azure AI Speech (označované také jako SPX) pro přístup ke službám Speech, jako je převod řeči na text, převod textu na řeč a překlad řeči, aniž byste museli psát žádný kód. Rozhraní příkazového řádku služby Speech je připravené pro produkční prostředí a můžete ho použít k automatizaci jednoduchých pracovních postupů ve službě Speech pomocí .bat skriptů prostředí.

Tento článek předpokládá, že máte funkční znalosti o okně příkazového řádku, terminálu nebo PowerShellu.

Poznámka:

V PowerShellu by měl následovat spxtoken stop-parsing (--%) . Spuštěním spusťte spx --% config @region například zobrazení aktuální hodnoty konfigurace oblasti.

Stažení a instalace

Pokud chcete nainstalovat Rozhraní příkazového řádku služby Speech ve Windows, postupujte takto:

  1. Nainstalujte Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2019 pro vaši platformu. První instalace může vyžadovat restartování.

  2. Nainstalujte .NET 6.

  3. Pomocí rozhraní příkazového řádku .NET CLI nainstalujte rozhraní příkazového řádku služby Speech zadáním následujícího příkazu:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Pokud chcete aktualizovat rozhraní příkazového řádku služby Speech, zadejte tento příkaz:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Zadejte nebo spx help zobrazte spx nápovědu k rozhraní příkazového řádku služby Speech.

Omezení písma

V systému Windows může rozhraní příkazového řádku služby Speech zobrazit pouze písma, která jsou k dispozici na příkazovém řádku na místním počítači. Terminál Windows podporuje všechna písma, která rozhraní příkazového řádku služby Speech vytváří interaktivně.

Při výstupu do souboru může textový editor, jako je Poznámkový blok, nebo webový prohlížeč, jako je Microsoft Edge, zobrazit také všechna písma.

Vytvoření konfigurace prostředku

Abyste mohli začít, potřebujete klíč prostředku služby Speech a identifikátor oblasti (například eastus, westus). Na webu Azure Portal vytvořte prostředek služby Speech. Další informace najdete v tématu Vytvoření prostředku s více službami.

Pokud chcete nakonfigurovat identifikátor klíče prostředku a oblasti, spusťte následující příkazy:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Klíč a oblast se ukládají pro budoucí příkazy rozhraní příkazového řádku služby Speech. Pokud chcete zobrazit aktuální konfiguraci, spusťte následující příkazy:

spx config @key
spx config @region

Podle potřeby zahrňte možnost odebrat buď uloženou clear hodnotu:

spx config @key --clear
spx config @region --clear

Základní použití

Důležité

Pokud používáte Rozhraní příkazového řádku služby Speech v kontejneru, uveďte tuto --host možnost. Musíte také zadat --key none , abyste zajistili, že se rozhraní příkazového řádku nebude pokoušet k ověřování použít klíč služby Speech. Spusťte například rozpoznávání spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav řeči ze zvukového souboru v kontejneru řeči na text.

Tato část ukazuje několik základních příkazů SPX, které jsou často užitečné pro první testování a experimentování. Spuštěním následujícího příkazu zobrazte nápovědu v nástroji:

spx

Témata nápovědy můžete hledat podle klíčových slov. Pokud například chcete zobrazit seznam příkladů použití rozhraní příkazového řádku služby Speech, spusťte následující příkaz:

spx help find --topics "examples"

Pokud chcete zobrazit možnosti recognize příkazu, spusťte následující příkaz:

spx help recognize

Další příkazy nápovědy jsou uvedeny ve výstupu konzoly. Zadáním těchto příkazů získáte podrobnou nápovědu k dílčím příkazům.

Převod řeči na text (rozpoznávání řeči)

Poznámka:

Mikrofon počítače nemůžete použít při spuštění rozhraní příkazového řádku služby Speech v kontejneru Dockeru. Zvukové soubory ale můžete číst a ukládat do místního připojeného adresáře.

Pokud chcete převést řeč na text (rozpoznávání řeči) pomocí výchozího mikrofonu systému, spusťte následující příkaz:

spx recognize --microphone

Po spuštění příkazu začne SPX naslouchat zvuku na aktuálním aktivním vstupním zařízení. Když vyberete Enter, přestane naslouchat. Mluvený zvuk se pak rozpozná a převede na text ve výstupu konzoly.

Pomocí rozhraní příkazového řádku služby Speech můžete také rozpoznat řeč ze zvukového souboru. Spusťte následující příkaz:

spx recognize --file /path/to/file.wav

Tip

Pokud se zaseknete nebo chcete získat další informace o možnostech rozpoznávání rozhraní příkazového řádku služby Speech, můžete spustit spx help recognize.

Převod textu na řeč (syntéza řeči)

Následující příkaz přebírá jako vstup text a potom výstupem syntetizované řeči do aktuálního aktivního výstupního zařízení (například reproduktorů počítače).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Syntetizovaný výstup můžete také uložit do souboru. V tomto příkladu vytvoříme soubor s názvem my-sample.wav v adresáři, ve kterém příkaz spouštíte.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Tyto příklady předpokládají, že testujete v angličtině. Služba Speech však podporuje syntézu řeči v mnoha jazycích. Úplný seznam hlasů můžete stáhnout spuštěním následujícího příkazu nebo na stránce podpory jazyka.

spx synthesize --voices

Tady je příkaz pro použití jednoho ze zjištěných hlasů.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Tip

Pokud se zaseknete nebo chcete získat další informace o možnostech rozpoznávání rozhraní příkazového řádku služby Speech, můžete spustit spx help synthesize.

Překlad řeči na text

Pomocí rozhraní příkazového řádku služby Speech můžete také provádět překlad řeči na text. Spuštěním následujícího příkazu zachyťte zvuk z výchozího mikrofonu a výstupem překladu jako text. Mějte na paměti, že potřebujete zadat source příkaz a target jazyk translate .

spx translate --microphone --source en-US --target ru-RU

Při překladu do více jazyků oddělte kódy jazyka středníkem (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Pokud chcete uložit výstup překladu, použijte příznak --output . V tomto příkladu také čtete ze souboru.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Tip

Pokud se zaseknete nebo chcete získat další informace o možnostech rozpoznávání rozhraní příkazového řádku služby Speech, můžete spustit spx help translate.

Další kroky