Guida introduttiva: Introduzione all'interfaccia della riga di comando di Riconoscimento vocale di Intelligenza artificiale di Azure

Articolo
01/23/2024

Questo articolo illustra come usare l'interfaccia della riga di comando di Voce di Intelligenza artificiale di Azure (chiamata anche SPX) per accedere ai servizi Voce, ad esempio riconoscimento vocale, sintesi vocale e traduzione vocale, senza dover scrivere codice. L'interfaccia della riga di comando di Voce è pronta per la produzione ed è possibile usarla per automatizzare flussi di lavoro semplici nel servizio Voce usando .bat o script della shell.

Questo articolo presuppone che si abbia familiarità con la finestra del prompt dei comandi, il terminale o PowerShell.

Nota

In PowerShell il token di arresto dell'analisi (--%) deve seguire spx. Ad esempio, eseguire spx --% config @region per visualizzare il valore di configurazione dell'area corrente.

Scaricare e installare

Per installare l’interfaccia della riga di comando di Voce su Windows, seguire questa procedura:

Installare Microsoft Visual C++ Redistributable per Visual Studio 2019 per la piattaforma. L'installazione per la prima volta potrebbe richiedere un riavvio.
Installare .NET 6.
Installare l'interfaccia della riga di comando di Voce tramite l'interfaccia della riga di comando di .NET immettendo questo comando:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Per aggiornare l'interfaccia della riga di comando di Voce, immettere questo comando:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Immettere spx o spx help per visualizzare la Guida per l'interfaccia della riga di comando di Voce.

Limitazioni dei tipi di carattere

In Windows l'interfaccia della riga di comando di Voce può visualizzare solo i tipi di carattere disponibili per il prompt dei comandi nel computer locale. Terminale Windows supporta tutti i tipi di carattere prodotti dall'interfaccia della riga di comando di Voce in modo interattivo.

Se l'output viene restituito in un file, è possibile che anche un editor di testo come Blocco note o un Web browser come Microsoft Edge visualizzi tutti i tipi di carattere.

Attenzione

Questo articolo fa riferimento a CentOS, una distribuzione Linux vicina allo stato end of life (EOL). Prendere in considerazione l'uso e la pianificazione di conseguenza. Per altre informazioni, vedere le linee guida per la fine della vita di CentOS.

Le distribuzioni Linux seguenti sono supportate per le architetture x64 che usano l'interfaccia della riga di comando di Voce:

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

Nota

Speech SDK (non l'interfaccia della riga di comando di Voce) supporta architetture aggiuntive. Per altre informazioni, vedere Informazioni su Speech SDK.

Per installare l’interfaccia della riga di comando di Voce su Linux su una CPU x64, seguire questa procedura:

Installare .NET 6.
Installare l'interfaccia della riga di comando di Voce tramite l'interfaccia della riga di comando di .NET immettendo questo comando:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Per aggiornare l'interfaccia della riga di comando di Voce, immettere questo comando:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```
In RHEL/CentOS Linux configurare OpenSSL per Linux.
In Ubuntu 20.04 Linux installare GStreamer.

Immettere spx per visualizzare la Guida per l'interfaccia della riga di comando di Voce.

Seguire questa procedura per installare l'interfaccia della riga di comando di Voce in macOS 10.14 o versione successiva:

Installare .NET 6.
Installare l'interfaccia della riga di comando di Voce tramite l'interfaccia della riga di comando di .NET immettendo questo comando:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Per aggiornare l'interfaccia della riga di comando di Voce, immettere questo comando:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Immettere spx o spx help per visualizzare la Guida per l'interfaccia della riga di comando di Voce.

L'esempio seguente esegue il pull di un'immagine del contenitore pubblico dall'hub Docker. È consigliabile eseguire prima l'autenticazione con l'account docker hub (docker login) anziché effettuare una richiesta pull anonima. Per migliorare l'affidabilità quando si usano contenuti pubblici, importare e gestire l'immagine in un registro azure container privato. Altre informazioni sull'uso delle immagini pubbliche.

Seguire questa procedura per installare l'interfaccia della riga di comando di Voce in un contenitore Docker:

Installare Docker Desktop per la piattaforma se non è già stato fatto.
In un nuovo prompt dei comandi o terminale immettere questo comando:
```
docker pull msftspeech/spx
```

Immettere questo comando per visualizzare le informazioni della Guida per l'interfaccia della riga di comando di Voce:

docker run -it --rm msftspeech/spx help

Montare una directory nel contenitore

Lo strumento interfaccia della riga di comando di Voce salva le impostazioni di configurazione come file. Carica questi file quando si esegue qualsiasi comando (ad eccezione dei comandi della Guida).

Quando si usa l'interfaccia della riga di comando di Voce all'interno di un contenitore Docker, è necessario montare una directory locale dal contenitore, in modo che lo strumento possa:

Archiviare o trovare le impostazioni di configurazione.
Leggere o scrivere file richiesti dal comando, ad esempio file audio di riconoscimento vocale.

In Windows immettere questo comando per creare una directory locale che l'interfaccia della riga di comando di Voce può usare dall'interno del contenitore:

mkdir c:\spx-data

In Linux o macOS immettere questo comando in un terminale per creare una directory e visualizzarne il percorso assoluto:

mkdir ~/spx-data
cd ~/spx-data
pwd

Si userà il percorso assoluto quando si chiama l'interfaccia della riga di comando di Voce.

Eseguire l'interfaccia della riga di comando di Voce nel contenitore

Questa documentazione mostra il comando spx dell'interfaccia della riga di comando di Voce usato nelle installazioni non Docker. Quando si chiama il spx comando in un contenitore Docker, è necessario montare una directory nel contenitore nel file system in cui l'interfaccia della riga di comando di Voce può archiviare e trovare i valori di configurazione e leggere e scrivere file.

In Windows i comandi iniziano come segue:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

In Linux o macOS i comandi sono simili all'esempio seguente. Sostituire ABSOLUTE_PATH con il percorso assoluto della directory montata. Il pwd comando ha restituito questo percorso nella sezione precedente. Se si esegue questo comando prima di impostare la chiave e l'area, verrà visualizzato un errore che indica di impostare la chiave e l'area.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Per usare il spx comando installato in un contenitore, immettere sempre il comando completo, come illustrato nell'esempio precedente, seguito dai parametri della richiesta. Ad esempio, in Windows questo comando configura la chiave:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Per un'interazione più estesa con lo strumento da riga di comando, è possibile avviare un contenitore con una shell Bash interattiva aggiungendo un entrypoint parametro. In Windows immettere questo comando per avviare un contenitore che espone un'interfaccia della riga di comando interattiva in cui è possibile immettere più spx comandi:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

È possibile combinare questa opzione con AZ Login e avere SPX Init guida alla creazione delle chiavi vocali e alla selezione di un'area dati corrispondente senza dover usare il portale di Azure. Le chiavi verranno archiviate automaticamente per un uso successivo.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Per iniziare, è necessario un identificatore di risorsa e area voce , ad esempio eastus, westus. Creare una risorsa Voce nel portale di Azure. Per altre informazioni, vedere Creare una risorsa multiservizio.

Per configurare la chiave di risorsa e l'identificatore dell'area, eseguire i comandi seguenti:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

La chiave e l'area vengono archiviate per i comandi futuri dell'interfaccia della riga di comando di Voce. Per visualizzare la configurazione corrente, eseguire i comandi seguenti:

spx config @key
spx config @region

Se necessario, includere l'opzione clear per rimuovere uno dei valori archiviati:

spx config @key --clear
spx config @region --clear

Per configurare la chiave della risorsa Voce e l'identificatore dell'area, eseguire i comandi seguenti in PowerShell:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

La chiave e l'area vengono archiviate per i comandi SPX futuri. Per visualizzare la configurazione corrente, eseguire i comandi seguenti:

spx --% config @key
spx --% config @region

Se necessario, includere l'opzione clear per rimuovere uno dei valori archiviati:

spx --% config @key --clear
spx --% config @region --clear

Utilizzo di base

Importante

Quando si usa l'interfaccia della riga di comando di Voce in un contenitore, includere l'opzione --host . È anche necessario specificare --key none per assicurarsi che l'interfaccia della riga di comando non tenti di usare una chiave di riconoscimento vocale per l'autenticazione. Ad esempio, eseguire spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav per riconoscere la voce da un file audio in un contenitore di sintesi vocale.

Questa sezione illustra alcuni comandi SPX di base spesso utili per eseguire i primi test e la prima sperimentazione. Eseguire il comando seguente per visualizzare la Guida in-tool:

spx

È possibile cercare gli argomenti della Guida per parola chiave. Ad esempio, per visualizzare un elenco di esempi di utilizzo dell'interfaccia della riga di comando di Voce, eseguire il comando seguente:

spx help find --topics "examples"

Per visualizzare le opzioni per il recognize comando, eseguire il comando seguente:

spx help recognize

Altri comandi della Guida sono elencati nell'output della console. È possibile immettere questi comandi per ottenere informazioni dettagliate sui sottocomandi.

Riconoscimento vocale

Nota

Non è possibile usare il microfono del computer quando si esegue l'interfaccia della riga di comando di Voce all'interno di un contenitore Docker. Tuttavia è possibile leggere e salvare i file audio nella directory montata locale.

Per convertire la voce in testo (riconoscimento vocale) usando il microfono predefinito del sistema, eseguire il comando seguente:

spx recognize --microphone

Dopo aver eseguito il comando, SPX inizia ad ascoltare l'audio nel dispositivo di input attivo corrente. Si interrompe l'ascolto quando si seleziona INVIO. L'audio parlato viene quindi riconosciuto e convertito in testo nell'output della console.

Con l'interfaccia della riga di comando di Voce è anche possibile riconoscere la voce da un file audio. Esegui questo comando:

spx recognize --file /path/to/file.wav

Suggerimento

Se ci si blocca o si vuole ottenere altre informazioni sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Riconoscimento vocale, è possibile eseguire spx help recognize.

Sintesi vocale

Il comando seguente accetta testo come input e quindi restituisce il parlato sintetizzato nel dispositivo di output attivo corrente,ad esempio gli altoparlanti del computer.

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

È anche possibile salvare l'output sintetizzato in un file. In questo esempio si creerà un file denominato my-sample.wav nella directory in cui si esegue il comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Questi esempi presupporre che si stia testando in inglese. Tuttavia, il servizio Voce supporta la sintesi vocale in molte lingue. È possibile trascinare un elenco completo di voci eseguendo il comando seguente o visitando la pagina del supporto linguistico.

spx synthesize --voices

Ecco un comando per l'uso di una delle voci individuate.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Suggerimento

Se ci si blocca o si vuole ottenere altre informazioni sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Riconoscimento vocale, è possibile eseguire spx help synthesize.

Traduzione vocale in testo

Con l'interfaccia della riga di comando di Voce è anche possibile eseguire la traduzione vocale. Eseguire il comando seguente per acquisire l'audio dal microfono predefinito e restituire la traduzione come testo. Tenere presente che è necessario specificare la source lingua e target con il translate comando .

spx translate --microphone --source en-US --target ru-RU

Quando si esegue la traduzione in più lingue, separare i codici di lingua con un punto e virgola (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Se si vuole salvare l'output della traduzione, usare il --output flag . In questo esempio si legge anche da un file.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Suggerimento

Se ci si blocca o si vuole ottenere altre informazioni sulle opzioni di riconoscimento dell'interfaccia della riga di comando di Riconoscimento vocale, è possibile eseguire spx help translate.

Guida introduttiva: Introduzione all'interfaccia della riga di comando di Riconoscimento vocale di Intelligenza artificiale di Azure

Scaricare e installare

Limitazioni dei tipi di carattere

Montare una directory nel contenitore

Eseguire l'interfaccia della riga di comando di Voce nel contenitore

Creare una configurazione delle risorse

Utilizzo di base

Riconoscimento vocale

Sintesi vocale

Traduzione vocale in testo

Passaggi successivi

Risorse aggiuntive