Condividi tramite


Avvio rapido: Introduzione all'interfaccia della riga di comando di Voce di Azure AI

In questo articolo si apprende come usare l'interfaccia della riga di comando di Voce di Azure AI per accedere a servizi Voce quali riconoscimento vocale, sintesi vocale e traduzione vocale, senza dover scrivere codice. L'interfaccia della riga di comando per Voce è pronta per la produzione ed è possibile usarla per automatizzare flussi di lavoro semplici nel servizio Voce, usando .bat o script della shell.

Questo articolo presuppone che si abbia una conoscenza operativa della finestra del prompt dei comandi, del terminale o di PowerShell.

Nota

In PowerShell, il token stop-parsing (--%) deve seguire spx. Ad esempio, eseguire spx --% config @region per visualizzare il valore di configurazione dell'area corrente.

Scaricare e installare

Per installare l’interfaccia della riga di comando di Voce su Windows, seguire questa procedura:

  1. Installare Microsoft Visual C++ Redistributable per Visual Studio 2019 per la piattaforma in uso. La prima installazione potrebbe richiedere un riavvio.

  2. Installare .NET 6.

  3. Installare l'interfaccia della riga di comando di Voce tramite l'interfaccia della riga di comando di .NET immettendo questo comando:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Per aggiornare l'interfaccia della riga di comando di Voce, immettere questo comando:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Immettere spx o spx help per visualizzare la guida dell'interfaccia della riga di comando di Voce.

Limitazioni dei tipi di carattere

In Windows, l'interfaccia della riga di comando di Voce può visualizzare solo i tipi di carattere disponibili per il prompt dei comandi nel computer locale. Il terminale Windows supporta tutti i tipi di carattere prodotti dall'interfaccia della riga di comando di Voce in modo interattivo.

Se l'output viene restituito in un file, è possibile che anche un editor di testo come Blocco note o un Web browser come Microsoft Edge visualizzi tutti i tipi di carattere.

Creare una configurazione delle risorse

Per iniziare, sono necessari una chiave e un identificatore di area della risorsa di Voce (ad esempio, eastus, westus). Creare una risorsa di Voce nel portale di Azure. Per altre informazioni, vedere Creare una risorsa di Servizi di Azure AI.

Per configurare la chiave e l'identificatore di area della risorsa Voce, eseguire i comandi seguenti:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

La chiave e l'area vengono archiviate per i comandi futuri dell'interfaccia della riga di comando di Voce. Per visualizzare la configurazione corrente, eseguire i comandi seguenti:

spx config @key
spx config @region

Se necessario, includere l'opzione clear per rimuovere i valori archiviati:

spx config @key --clear
spx config @region --clear

Utilizzo di base

Importante

Quando si usa l'interfaccia della riga di comando di Voce in un contenitore, includere l'opzione --host. Occorre anche specificare --key none per assicurarsi che l'interfaccia della riga di comando non tenti di usare una chiave di Voce per l'autenticazione. Ad esempio, eseguire spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav per riconoscere il parlato da un file audio in un contenitore di riconoscimento vocale.

Questa sezione illustra alcuni comandi SPX di base spesso utili per eseguire i primi test e la prima sperimentazione. Eseguire il comando seguente per visualizzare la Guida in-tool:

spx

È possibile cercare gli argomenti della Guida per parola chiave. Ad esempio, per visualizzare un elenco di esempi di utilizzo dell'interfaccia della riga di comando di Voce, eseguire il comando seguente:

spx help find --topics "examples"

Per visualizzare le opzioni per il comando recognize, eseguire il comando seguente:

spx help recognize

Nell'output della console sono elencati altri comandi della Guida. È possibile immettere questi comandi per ottenere informazioni dettagliate della Guida sui sottocomandi.

Riconoscimento vocale

Nota

Quando si esegue l'interfaccia della riga di comando di Voce in un contenitore Docker non è possibile usare il microfono del computer. Tuttavia è possibile leggere e salvare i file audio nella directory montata locale.

Per convertire il riconoscimento vocale (conversione della voce in testo scritto) usando il microfono predefinito del sistema, eseguire il comando seguente:

spx recognize --microphone

Dopo l'esecuzione del comando, SPX inizia ad ascoltare l'audio sul dispositivo di input attivo corrente. Per interrompere l'ascolto, premere INVIO. L'audio parlato viene quindi riconosciuto e convertito in testo nell'output della console.

Con l'interfaccia della riga di comando di Voce è anche possibile riconoscere la voce da un file audio. Esegui questo comando:

spx recognize --file /path/to/file.wav

Suggerimento

In caso di difficoltà o per saperne di più sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Voce, è possibile eseguire spx help recognize.

Sintesi vocale

Il comando seguente accetta il testo immesso come input e restituisce la voce sintetizzata al dispositivo di output attivo corrente (ad esempio, gli altoparlanti del computer).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Si può anche salvare l'output sintetizzato in un file. In questo esempio viene creato un file denominato my-sample.wav nella directory in cui si esegue il comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Questi esempi presuppongono che si stia testando in lingua inglese. Tuttavia, il servizio Voce supporta la sintesi vocale in molte lingue. È possibile ottenere un elenco completo di voci eseguendo il comando seguente oppure visitando la pagina delle lingue supportate.

spx synthesize --voices

Il comando seguente consente di usare una delle voci individuate.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Suggerimento

In caso di difficoltà o per saperne di più sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Voce, è possibile eseguire spx help synthesize.

Traduzione da voce in testo scritto

L'interfaccia della riga di comando di Voce consente anche di eseguire la traduzione del testo prodotto dal riconoscimento vocale. Eseguire il comando seguente per acquisire l'audio dal microfono predefinito e restituire la traduzione come testo. Tenere presente che è necessario specificare le lingue source e target con il comando translate.

spx translate --microphone --source en-US --target ru-RU

Quando si esegue la traduzione in più lingue, separare i codici di lingua con un punto e virgola (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

Per salvare l'output della traduzione, usare il flag --output. In questo esempio viene anche eseguita la lettura da un file.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Suggerimento

In caso di difficoltà o per saperne di più sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Voce, è possibile eseguire spx help translate.

Passaggi successivi