Guida introduttiva: Introduzione all'interfaccia della riga di comando di Riconoscimento vocale di Intelligenza artificiale di Azure

Questo articolo illustra come usare l'interfaccia della riga di comando di Voce di Intelligenza artificiale di Azure (chiamata anche SPX) per accedere ai servizi Voce, ad esempio riconoscimento vocale, sintesi vocale e traduzione vocale, senza dover scrivere codice. L'interfaccia della riga di comando di Voce è pronta per la produzione ed è possibile usarla per automatizzare flussi di lavoro semplici nel servizio Voce usando .bat o script della shell.

Questo articolo presuppone che si abbia familiarità con la finestra del prompt dei comandi, il terminale o PowerShell.

Nota

In PowerShell il token di arresto dell'analisi (--%) deve seguire spx. Ad esempio, eseguire spx --% config @region per visualizzare il valore di configurazione dell'area corrente.

Scaricare e installare

Per installare l’interfaccia della riga di comando di Voce su Windows, seguire questa procedura:

  1. Installare Microsoft Visual C++ Redistributable per Visual Studio 2019 per la piattaforma. L'installazione per la prima volta potrebbe richiedere un riavvio.

  2. Installare .NET 6.

  3. Installare l'interfaccia della riga di comando di Voce tramite l'interfaccia della riga di comando di .NET immettendo questo comando:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Per aggiornare l'interfaccia della riga di comando di Voce, immettere questo comando:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Immettere spx o spx help per visualizzare la Guida per l'interfaccia della riga di comando di Voce.

Limitazioni dei tipi di carattere

In Windows l'interfaccia della riga di comando di Voce può visualizzare solo i tipi di carattere disponibili per il prompt dei comandi nel computer locale. Terminale Windows supporta tutti i tipi di carattere prodotti dall'interfaccia della riga di comando di Voce in modo interattivo.

Se l'output viene restituito in un file, è possibile che anche un editor di testo come Blocco note o un Web browser come Microsoft Edge visualizzi tutti i tipi di carattere.

Creare una configurazione delle risorse

Per iniziare, è necessario un identificatore di risorsa e area voce , ad esempio eastus, westus. Creare una risorsa Voce nel portale di Azure. Per altre informazioni, vedere Creare una risorsa multiservizio.

Per configurare la chiave di risorsa e l'identificatore dell'area, eseguire i comandi seguenti:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

La chiave e l'area vengono archiviate per i comandi futuri dell'interfaccia della riga di comando di Voce. Per visualizzare la configurazione corrente, eseguire i comandi seguenti:

spx config @key
spx config @region

Se necessario, includere l'opzione clear per rimuovere uno dei valori archiviati:

spx config @key --clear
spx config @region --clear

Utilizzo di base

Importante

Quando si usa l'interfaccia della riga di comando di Voce in un contenitore, includere l'opzione --host . È anche necessario specificare --key none per assicurarsi che l'interfaccia della riga di comando non tenti di usare una chiave di riconoscimento vocale per l'autenticazione. Ad esempio, eseguire spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav per riconoscere la voce da un file audio in un contenitore di sintesi vocale.

Questa sezione illustra alcuni comandi SPX di base spesso utili per eseguire i primi test e la prima sperimentazione. Eseguire il comando seguente per visualizzare la Guida in-tool:

spx

È possibile cercare gli argomenti della Guida per parola chiave. Ad esempio, per visualizzare un elenco di esempi di utilizzo dell'interfaccia della riga di comando di Voce, eseguire il comando seguente:

spx help find --topics "examples"

Per visualizzare le opzioni per il recognize comando, eseguire il comando seguente:

spx help recognize

Altri comandi della Guida sono elencati nell'output della console. È possibile immettere questi comandi per ottenere informazioni dettagliate sui sottocomandi.

Riconoscimento vocale

Nota

Non è possibile usare il microfono del computer quando si esegue l'interfaccia della riga di comando di Voce all'interno di un contenitore Docker. Tuttavia è possibile leggere e salvare i file audio nella directory montata locale.

Per convertire la voce in testo (riconoscimento vocale) usando il microfono predefinito del sistema, eseguire il comando seguente:

spx recognize --microphone

Dopo aver eseguito il comando, SPX inizia ad ascoltare l'audio nel dispositivo di input attivo corrente. Si interrompe l'ascolto quando si seleziona INVIO. L'audio parlato viene quindi riconosciuto e convertito in testo nell'output della console.

Con l'interfaccia della riga di comando di Voce è anche possibile riconoscere la voce da un file audio. Esegui questo comando:

spx recognize --file /path/to/file.wav

Suggerimento

Se ci si blocca o si vuole ottenere altre informazioni sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Riconoscimento vocale, è possibile eseguire spx help recognize.

Sintesi vocale

Il comando seguente accetta testo come input e quindi restituisce il parlato sintetizzato nel dispositivo di output attivo corrente,ad esempio gli altoparlanti del computer.

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

È anche possibile salvare l'output sintetizzato in un file. In questo esempio si creerà un file denominato my-sample.wav nella directory in cui si esegue il comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Questi esempi presupporre che si stia testando in inglese. Tuttavia, il servizio Voce supporta la sintesi vocale in molte lingue. È possibile trascinare un elenco completo di voci eseguendo il comando seguente o visitando la pagina del supporto linguistico.

spx synthesize --voices

Ecco un comando per l'uso di una delle voci individuate.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Suggerimento

Se ci si blocca o si vuole ottenere altre informazioni sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Riconoscimento vocale, è possibile eseguire spx help synthesize.

Traduzione vocale in testo

Con l'interfaccia della riga di comando di Voce è anche possibile eseguire la traduzione vocale. Eseguire il comando seguente per acquisire l'audio dal microfono predefinito e restituire la traduzione come testo. Tenere presente che è necessario specificare la source lingua e target con il translate comando .

spx translate --microphone --source en-US --target ru-RU

Quando si esegue la traduzione in più lingue, separare i codici di lingua con un punto e virgola (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Se si vuole salvare l'output della traduzione, usare il --output flag . In questo esempio si legge anche da un file.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Suggerimento

Se ci si blocca o si vuole ottenere altre informazioni sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Riconoscimento vocale, è possibile eseguire spx help translate.

Passaggi successivi