Guida introduttiva: Creare didascalie con il riconoscimento vocale
Documentazione di riferimento | Pacchetto (NuGet) | Ulteriori esempi in GitHub
In questa guida introduttiva eseguirai un'app console per creare didascalie con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure AI Speech Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Una sottoscrizione di Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Voce nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Speech SDK è disponibile come pacchetto NuGet e implementa .NET Standard 2.0. Speech SDK verrà installato più avanti in questa guida, ma prima di tutto controlla la guida all'installazione dell'SDK per altri requisiti.
Devi installare anche GStreamer per l'audio di input compresso.
Impostare le variabili di ambiente
È necessario autenticare l'applicazione per accedere ai Servizi di Azure AI. Questo articolo illustra come usare le variabili di ambiente per archiviare le credenziali. È quindi possibile accedere alle variabili di ambiente dal codice per autenticare l'applicazione. Per l'ambiente di produzione, usare un modo più sicuro per archiviare e accedere alle credenziali.
Importante
Si consiglia l'autenticazione di Microsoft Entra ID insieme alle identità gestite per le risorse di Azure al fine di evitare di archiviare le credenziali con le applicazioni eseguite nel cloud.
Se si usa una chiave API, archiviarla in modo sicuro in un'altra posizione, ad esempio in Azure Key Vault. Non includere la chiave API direttamente nel codice e non esporla mai pubblicamente.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autenticare le richieste a Servizi di Azure AI.
Per impostare le variabili di ambiente per la chiave e l'area della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.
- Per impostare la variabile di ambiente
SPEECH_KEY
, sostituire chiave-utente con una delle chiavi della risorsa. - Per impostare la variabile di ambiente
SPEECH_REGION
, sostituire area-utente con una delle aree della risorsa.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Nota
Se è sufficiente accedere alla variabile di ambiente nella console corrente, è possibile impostare la variabile di ambiente con set
anziché setx
.
Dopo l'aggiunta delle variabili di ambiente potrebbe essere necessario riavviare eventuali programmi che devono leggere la variabile di ambiente, inclusa la finestra della console. Se ad esempio si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.
Creare didascalie dal parlato
Segui questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
- Copia i file di esempio scenarios/csharp/dotnetcore/captioning/ da GitHub. Se hai Git installato, apri un prompt dei comandi ed esegui il comando
git clone
per scaricare il repository degli esempi di Speech SDK.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
- Aprire un prompt dei comandi e passare alla directory del progetto.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
- Compilare il progetto con l’interfaccia della riga di comando .NET.
dotnet build
- Eseguire l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedi utilizzo e argomenti. Ecco un esempio:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Importante
Assicurati che i percorsi specificati da
--input
e--output
siano validi. In caso contrario, è necessario modificarli.Assicurati di impostare le variabili di ambiente
SPEECH_KEY
eSPEECH_REGION
come descritto in precedenza. In caso contrario, utilizza gli argomenti--key
e--region
.
Controllare i risultati
Quando usi l'opzione realTime
nell'esempio precedente, i risultati parziali degli eventi Recognizing
vengono inclusi nell'output. In questo esempio, solo l'evento Recognized
finale include le virgole. Le virgole non sono le uniche differenze tra gli eventi Recognizing
e Recognized
. Per altre informazioni, vedi Ottenere risultati parziali.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando usi l'opzione --offline
, i risultati sono stabili dall'evento Recognized
finale. I risultati parziali non sono inclusi nell'output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Il formato di output TimeSpan SRT (SubRip Text) è hh:mm:ss,fff
. Per altre informazioni, vedi Formato di output delle didascalie.
Utilizzo e argomenti
Sintassi: captioning --input <input file>
Le opzioni di connessione includono:
--key
: la chiave della risorsa Voce. Esegue l'override della variabile di ambiente SPEECH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--key
.--region REGION
: l’area della risorsa Voce. Esegue l'override della variabile di ambiente SPEECH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--region
. Esempi:westus
,northeurope
Importante
Se si usa una chiave API, archiviarla in modo sicuro in un'altra posizione, ad esempio in Azure Key Vault. Non includere la chiave API direttamente nel codice e non esporla mai pubblicamente.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autenticare le richieste a Servizi di Azure AI.
Le opzioni di input includono:
--input FILE
: input audio dal file. L'input predefinito è il microfono.--format FORMAT
: usa il formato audio compresso. Valido solo con--file
. I valori validi sonoalaw
,any
,flac
,mp3
,mulaw
eogg_opus
. Il valore predefinito èany
. Per usare un filewav
, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installa GStreamer e vedi Come usare l'audio di input compresso.
Le opzioni di lingua includono:
--language LANG
: specifica una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata per suddividere le didascalie in righe. Il valore predefinito èen-US
.
Le opzioni di riconoscimento includono:
--offline
: restituisce risultati offline. Esegue l'override dell'oggetto--realTime
. La modalità di output predefinita è offline.--realTime
: restituisce risultati in tempo reale.
L'output in tempo reale include i risultati dell’evento Recognizing
. L'output offline predefinito è solo i risultati dell'evento Recognized
. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet
esegue l'override di questa opzione. Per altre informazioni, vedi Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
--phrases PHRASE1;PHRASE2
: puoi specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan
. Per altre informazioni, vedi Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
--help
: mostra la Guida e arresta--output FILE
: restituisce le didascalie nelfile
specificato. Questo flag è obbligatorio.--srt
: restituisce le didascalie nel formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedi Formato di output delle didascalie.--maxLineLength LENGTH
: imposta il numero massimo di caratteri per riga per una didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per il cinese).--lines LINES
: imposta il numero di righe di una didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2.--delay MILLISECONDS
: numero di MILLISECONDI di ritardo della visualizzazione di ogni didascalia per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando usi il flagrealTime
. Il valore minimo è 0,0. L'impostazione predefinita è 1000.--remainTime MILLISECONDS
: numero di MILLISECONDI che una didascalia deve rimanere sullo schermo se non viene sostituita da un'altra. Il valore minimo è 0,0. L'impostazione predefinita è 1000.--quiet
: elimina l'output della console, ad eccezione degli errori.--profanity OPTION
: valori validi: raw, remove, mask. Per altre informazioni, vedi i concetti relativi al filtro Contenuto volgare.--threshold NUMBER
: Imposta una soglia di risultati parziali stabili. Il valore predefinito è3
. Questa opzione è applicabile solo quando usi il flagrealTime
. Per altre informazioni, vedi i concetti Ottenere risultati parziali.
Pulire le risorse
Per rimuovere la risorsa Voce creata è possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure.
Documentazione di riferimento | Pacchetto (NuGet) | Ulteriori esempi in GitHub
In questa guida introduttiva eseguirai un'app console per creare didascalie con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure AI Speech Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Una sottoscrizione di Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Voce nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Speech SDK è disponibile come pacchetto NuGet e implementa .NET Standard 2.0. Speech SDK verrà installato più avanti in questa guida, ma prima di tutto controlla la guida all'installazione dell'SDK per altri requisiti
Devi installare anche GStreamer per l'audio di input compresso.
Impostare le variabili di ambiente
È necessario autenticare l'applicazione per accedere ai Servizi di Azure AI. Questo articolo illustra come usare le variabili di ambiente per archiviare le credenziali. È quindi possibile accedere alle variabili di ambiente dal codice per autenticare l'applicazione. Per l'ambiente di produzione, usare un modo più sicuro per archiviare e accedere alle credenziali.
Importante
Si consiglia l'autenticazione di Microsoft Entra ID insieme alle identità gestite per le risorse di Azure al fine di evitare di archiviare le credenziali con le applicazioni eseguite nel cloud.
Se si usa una chiave API, archiviarla in modo sicuro in un'altra posizione, ad esempio in Azure Key Vault. Non includere la chiave API direttamente nel codice e non esporla mai pubblicamente.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autenticare le richieste a Servizi di Azure AI.
Per impostare le variabili di ambiente per la chiave e l'area della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.
- Per impostare la variabile di ambiente
SPEECH_KEY
, sostituire chiave-utente con una delle chiavi della risorsa. - Per impostare la variabile di ambiente
SPEECH_REGION
, sostituire area-utente con una delle aree della risorsa.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Nota
Se è sufficiente accedere alla variabile di ambiente nella console corrente, è possibile impostare la variabile di ambiente con set
anziché setx
.
Dopo l'aggiunta delle variabili di ambiente potrebbe essere necessario riavviare eventuali programmi che devono leggere la variabile di ambiente, inclusa la finestra della console. Se ad esempio si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.
Creare didascalie dal parlato
Segui questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia con Visual Studio Community 2022 su Windows.
Scarica o copia i file di esempio scenarios/cpp/windows/captioning/ da GitHub in una directory locale.
Apri il file della soluzione
captioning.sln
in Visual Studio Community 2022.Installa Speech SDK nel progetto con l’utilità di gestione pacchetti NuGet.
Install-Package Microsoft.CognitiveServices.Speech
Apri Progetto>Proprietà>Generale. Imposta Configurazione su
All configurations
. Imposta Standard del linguaggio C++ suISO C++17 Standard (/std:c++17)
.Apri Compila>Configuration Manager.
- In un'installazione di Windows a 64 bit imposta piattaforma della soluzione Attiva su
x64
. - In un'installazione di Windows a 32 bit imposta piattaforma della soluzione Attiva su
x86
.
- In un'installazione di Windows a 64 bit imposta piattaforma della soluzione Attiva su
Apri Progetto>Proprietà>Debug. Immetti gli argomenti della riga di comando preferiti in Argomenti comando. Per le opzioni disponibili, vedi utilizzo e argomenti. Ecco un esempio:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Importante
Assicurati che i percorsi specificati da
--input
e--output
siano validi. In caso contrario, è necessario modificarli.Assicurati di impostare le variabili di ambiente
SPEECH_KEY
eSPEECH_REGION
come descritto in precedenza. In caso contrario, utilizza gli argomenti--key
e--region
.Compila ed esegui l'applicazione console.
Controllare i risultati
Quando usi l'opzione realTime
nell'esempio precedente, i risultati parziali degli eventi Recognizing
vengono inclusi nell'output. In questo esempio, solo l'evento Recognized
finale include le virgole. Le virgole non sono le uniche differenze tra gli eventi Recognizing
e Recognized
. Per altre informazioni, vedi Ottenere risultati parziali.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando usi l'opzione --offline
, i risultati sono stabili dall'evento Recognized
finale. I risultati parziali non sono inclusi nell'output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Il formato di output TimeSpan SRT (SubRip Text) è hh:mm:ss,fff
. Per altre informazioni, vedi Formato di output delle didascalie.
Utilizzo e argomenti
Sintassi: captioning --input <input file>
Le opzioni di connessione includono:
--key
: la chiave della risorsa Voce. Esegue l'override della variabile di ambiente SPEECH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--key
.--region REGION
: l’area della risorsa Voce. Esegue l'override della variabile di ambiente SPEECH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--region
. Esempi:westus
,northeurope
Importante
Se si usa una chiave API, archiviarla in modo sicuro in un'altra posizione, ad esempio in Azure Key Vault. Non includere la chiave API direttamente nel codice e non esporla mai pubblicamente.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autenticare le richieste a Servizi di Azure AI.
Le opzioni di input includono:
--input FILE
: input audio dal file. L'input predefinito è il microfono.--format FORMAT
: usa il formato audio compresso. Valido solo con--file
. I valori validi sonoalaw
,any
,flac
,mp3
,mulaw
eogg_opus
. Il valore predefinito èany
. Per usare un filewav
, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installa GStreamer e vedi Come usare l'audio di input compresso.
Le opzioni di lingua includono:
--language LANG
: specifica una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata per suddividere le didascalie in righe. Il valore predefinito èen-US
.
Le opzioni di riconoscimento includono:
--offline
: restituisce risultati offline. Esegue l'override dell'oggetto--realTime
. La modalità di output predefinita è offline.--realTime
: restituisce risultati in tempo reale.
L'output in tempo reale include i risultati dell’evento Recognizing
. L'output offline predefinito è solo i risultati dell'evento Recognized
. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet
esegue l'override di questa opzione. Per altre informazioni, vedi Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
--phrases PHRASE1;PHRASE2
: puoi specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan
. Per altre informazioni, vedi Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
--help
: mostra la Guida e arresta--output FILE
: restituisce le didascalie nelfile
specificato. Questo flag è obbligatorio.--srt
: restituisce le didascalie nel formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedi Formato di output delle didascalie.--maxLineLength LENGTH
: imposta il numero massimo di caratteri per riga per una didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per il cinese).--lines LINES
: imposta il numero di righe di una didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2.--delay MILLISECONDS
: numero di MILLISECONDI di ritardo della visualizzazione di ogni didascalia per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando usi il flagrealTime
. Il valore minimo è 0,0. L'impostazione predefinita è 1000.--remainTime MILLISECONDS
: numero di MILLISECONDI che una didascalia deve rimanere sullo schermo se non viene sostituita da un'altra. Il valore minimo è 0,0. L'impostazione predefinita è 1000.--quiet
: elimina l'output della console, ad eccezione degli errori.--profanity OPTION
: valori validi: raw, remove, mask. Per altre informazioni, vedi i concetti relativi al filtro Contenuto volgare.--threshold NUMBER
: Imposta una soglia di risultati parziali stabili. Il valore predefinito è3
. Questa opzione è applicabile solo quando usi il flagrealTime
. Per altre informazioni, vedi i concetti Ottenere risultati parziali.
Pulire le risorse
Per rimuovere la risorsa Voce creata è possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure.
Documentazione di riferimento | Pacchetto (Go) | Ulteriori esempi in GitHub
In questa guida introduttiva eseguirai un'app console per creare didascalie con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure AI Speech Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Una sottoscrizione di Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Voce nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Verifica se sono presenti passaggi di installazione specifici della piattaforma.
Devi installare anche GStreamer per l'audio di input compresso.
Creare didascalie dal parlato
Segui questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
Scarica o copia i file di esempio scenarios/go/captioning/ da GitHub in una directory locale.
Apri un prompt dei comandi nella stessa directory di
captioning.go
.Esegui i comandi seguenti per creare un file
go.mod
che si collega ai componenti di Speech SDK ospitati in GitHub.go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-go
Compila il modulo GO.
go build
Esegui l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedi utilizzo e argomenti. Ecco un esempio:
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Sostituisci
YourSubscriptionKey
con la chiave della risorsa Voce eYourServiceRegion
con l'area della risorsa Voce, comewestus
onortheurope
. Assicurati che i percorsi specificati da--input
e--output
siano validi. In caso contrario, è necessario modificare i percorsi.Importante
Al termine, ricordarsi di rimuovere la chiave dal codice e non renderlo mai pubblico. Per un ambiente di produzione usare un metodo sicuro per l'archiviazione e l'accesso alle proprie credenziali, ad esempio Azure Key Vault. Per altre informazioni, vedere l'articolo sulla sicurezza del Servizi di Azure AI.
Controllare i risultati
Il file di output con didascalie complete viene scritto in caption.output.txt
. I risultati intermedi vengono visualizzati nella console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Il formato di output TimeSpan SRT (SubRip Text) è hh:mm:ss,fff
. Per altre informazioni, vedi Formato di output delle didascalie.
Utilizzo e argomenti
Sintassi: go run captioning.go helper.go --key <key> --region <region> --input <input file>
Le opzioni di connessione includono:
--key
: la chiave della risorsa Voce.--region REGION
: l’area della risorsa Voce. Esempi:westus
,northeurope
Le opzioni di input includono:
--input FILE
: input audio dal file. L'input predefinito è il microfono.--format FORMAT
: usa il formato audio compresso. Valido solo con--file
. I valori validi sonoalaw
,any
,flac
,mp3
,mulaw
eogg_opus
. Il valore predefinito èany
. Per usare un filewav
, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installa GStreamer e vedi Come usare l'audio di input compresso.
Le opzioni di lingua includono:
--languages LANG1,LANG2
: abilita l'identificazione della lingua per le lingue specificate. Ad esempio:en-US,ja-JP
. Questa opzione è disponibile solo con gli esempi di sottotitoli in C++, C# e Python. Per altre informazioni, vedi Identificazione della lingua.
Le opzioni di riconoscimento includono:
--recognizing
: restituisce i risultati eventoRecognizing
. L'output predefinito è solo i risultati dell'eventoRecognized
. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione--quiet
esegue l'override di questa opzione. Per altre informazioni, vedi Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
--phrases PHRASE1;PHRASE2
: puoi specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan
. Per altre informazioni, vedi Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
--help
: mostra la Guida e arresta--output FILE
: restituisce le didascalie nelfile
specificato. Questo flag è obbligatorio.--srt
: restituisce le didascalie nel formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedi Formato di output delle didascalie.--quiet
: elimina l'output della console, ad eccezione degli errori.--profanity OPTION
: valori validi: raw, remove, mask. Per altre informazioni, vedi i concetti relativi al filtro Contenuto volgare.--threshold NUMBER
: Imposta una soglia di risultati parziali stabili. Il valore predefinito è3
. Per altre informazioni, vedi i concetti Ottenere risultati parziali.
Pulire le risorse
Per rimuovere la risorsa Voce creata, è possibile usare il portale di Azure o l'interfaccia della riga di comando (CLI) di Azure.
Documentazione di riferimento | Ulteriori esempi in GitHub
In questa guida introduttiva eseguirai un'app console per creare didascalie con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure AI Speech Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Una sottoscrizione di Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Voce nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Prima di poter eseguire qualsiasi operazione, è necessario installare Speech SDK. L'esempio in questa guida introduttiva funziona con Microsoft Build di OpenJDK 17
- Installa Apache Maven. Quindi eseguire
mvn -v
per confermare l'installazione corretta. - Creare un nuovo file
pom.xml
nella radice del progetto copiando quanto segue:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.40.0</version> </dependency> </dependencies> </project>
- Installa Speech SDK e le dipendenze.
mvn clean dependency:copy-dependencies
- Devi installare anche GStreamer per l'audio di input compresso.
Impostare le variabili di ambiente
È necessario autenticare l'applicazione per accedere ai Servizi di Azure AI. Questo articolo illustra come usare le variabili di ambiente per archiviare le credenziali. È quindi possibile accedere alle variabili di ambiente dal codice per autenticare l'applicazione. Per l'ambiente di produzione, usare un modo più sicuro per archiviare e accedere alle credenziali.
Importante
Si consiglia l'autenticazione di Microsoft Entra ID insieme alle identità gestite per le risorse di Azure al fine di evitare di archiviare le credenziali con le applicazioni eseguite nel cloud.
Se si usa una chiave API, archiviarla in modo sicuro in un'altra posizione, ad esempio in Azure Key Vault. Non includere la chiave API direttamente nel codice e non esporla mai pubblicamente.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autenticare le richieste a Servizi di Azure AI.
Per impostare le variabili di ambiente per la chiave e l'area della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.
- Per impostare la variabile di ambiente
SPEECH_KEY
, sostituire chiave-utente con una delle chiavi della risorsa. - Per impostare la variabile di ambiente
SPEECH_REGION
, sostituire area-utente con una delle aree della risorsa.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Nota
Se è sufficiente accedere alla variabile di ambiente nella console corrente, è possibile impostare la variabile di ambiente con set
anziché setx
.
Dopo l'aggiunta delle variabili di ambiente potrebbe essere necessario riavviare eventuali programmi che devono leggere la variabile di ambiente, inclusa la finestra della console. Se ad esempio si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.
Creare didascalie dal parlato
Segui questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
- Copia i file di esempio scenarios/java/jre/captioning/ da GitHub in una directory di progetto. Anche il file
pom.xml
creato nella configurazione dell’ambiente deve trovarsi in questa directory. - Apri un prompt dei comandi ed esegui questo comando per compilare i file di progetto.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
- Esegui l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedi utilizzo e argomenti. Ecco un esempio:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Importante
Assicurati che i percorsi specificati da
--input
e--output
siano validi. In caso contrario, è necessario modificarli.Assicurati di impostare le variabili di ambiente
SPEECH_KEY
eSPEECH_REGION
come descritto in precedenza. In caso contrario, utilizza gli argomenti--key
e--region
.
Controllare i risultati
Quando usi l'opzione realTime
nell'esempio precedente, i risultati parziali degli eventi Recognizing
vengono inclusi nell'output. In questo esempio, solo l'evento Recognized
finale include le virgole. Le virgole non sono le uniche differenze tra gli eventi Recognizing
e Recognized
. Per altre informazioni, vedi Ottenere risultati parziali.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando usi l'opzione --offline
, i risultati sono stabili dall'evento Recognized
finale. I risultati parziali non sono inclusi nell'output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Il formato di output TimeSpan SRT (SubRip Text) è hh:mm:ss,fff
. Per altre informazioni, vedi Formato di output delle didascalie.
Utilizzo e argomenti
Sintassi: java -cp ".;target\dependency\*" Captioning --input <input file>
Le opzioni di connessione includono:
--key
: la chiave della risorsa Voce. Esegue l'override della variabile di ambiente SPEECH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--key
.--region REGION
: l’area della risorsa Voce. Esegue l'override della variabile di ambiente SPEECH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--region
. Esempi:westus
,northeurope
Importante
Se si usa una chiave API, archiviarla in modo sicuro in un'altra posizione, ad esempio in Azure Key Vault. Non includere la chiave API direttamente nel codice e non esporla mai pubblicamente.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autenticare le richieste a Servizi di Azure AI.
Le opzioni di input includono:
--input FILE
: input audio dal file. L'input predefinito è il microfono.--format FORMAT
: usa il formato audio compresso. Valido solo con--file
. I valori validi sonoalaw
,any
,flac
,mp3
,mulaw
eogg_opus
. Il valore predefinito èany
. Per usare un filewav
, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installa GStreamer e vedi Come usare l'audio di input compresso.
Le opzioni di lingua includono:
--language LANG
: specifica una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata per suddividere le didascalie in righe. Il valore predefinito èen-US
.
Le opzioni di riconoscimento includono:
--offline
: restituisce risultati offline. Esegue l'override dell'oggetto--realTime
. La modalità di output predefinita è offline.--realTime
: restituisce risultati in tempo reale.
L'output in tempo reale include i risultati dell’evento Recognizing
. L'output offline predefinito è solo i risultati dell'evento Recognized
. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet
esegue l'override di questa opzione. Per altre informazioni, vedi Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
--phrases PHRASE1;PHRASE2
: puoi specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan
. Per altre informazioni, vedi Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
--help
: mostra la Guida e arresta--output FILE
: restituisce le didascalie nelfile
specificato. Questo flag è obbligatorio.--srt
: restituisce le didascalie nel formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedi Formato di output delle didascalie.--maxLineLength LENGTH
: imposta il numero massimo di caratteri per riga per una didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per il cinese).--lines LINES
: imposta il numero di righe di una didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2.--delay MILLISECONDS
: numero di MILLISECONDI di ritardo della visualizzazione di ogni didascalia per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando usi il flagrealTime
. Il valore minimo è 0,0. L'impostazione predefinita è 1000.--remainTime MILLISECONDS
: numero di MILLISECONDI che una didascalia deve rimanere sullo schermo se non viene sostituita da un'altra. Il valore minimo è 0,0. L'impostazione predefinita è 1000.--quiet
: elimina l'output della console, ad eccezione degli errori.--profanity OPTION
: valori validi: raw, remove, mask. Per altre informazioni, vedi i concetti relativi al filtro Contenuto volgare.--threshold NUMBER
: Imposta una soglia di risultati parziali stabili. Il valore predefinito è3
. Questa opzione è applicabile solo quando usi il flagrealTime
. Per altre informazioni, vedi i concetti Ottenere risultati parziali.
Pulire le risorse
Per rimuovere la risorsa Voce creata è possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure.
Documentazione di riferimento | Pacchetto (npm) | Ulteriori esempi in GitHub | Codice sorgente della libreria
In questa guida introduttiva eseguirai un'app console per creare didascalie con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure AI Speech Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Una sottoscrizione di Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Voce nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Prima di poter eseguire qualsiasi operazione, è necessario installare Speech SDK per JavaScript. Se si vuole installare solo il nome del pacchetto, eseguire npm install microsoft-cognitiveservices-speech-sdk
. Per le istruzioni sull'installazione guidata, vedi la Guida all'installazione di SDK.
Creare didascalie dal parlato
Segui questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
Copia i file di esempio scenarios/javascript/node/captioning/ da GitHub nella directory di progetto.
Apri un prompt dei comandi nella stessa directory di
Captioning.js
.Installa Speech SDK per JavaScript:
npm install microsoft-cognitiveservices-speech-sdk
Esegui l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedi utilizzo e argomenti. Ecco un esempio:
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Sostituisci
YourSubscriptionKey
con la chiave della risorsa Voce eYourServiceRegion
con l'area della risorsa Voce, comewestus
onortheurope
. Assicurati che i percorsi specificati da--input
e--output
siano validi. In caso contrario, è necessario modificarli.Nota
Il SDK per il Servizio cognitivo di Azure per la voce per JavaScript non supporta audio di input compresso. È necessario usare un file WAV come illustrato nell'esempio.
Importante
Al termine, ricordarsi di rimuovere la chiave dal codice e non renderlo mai pubblico. Per un ambiente di produzione usare un metodo sicuro per l'archiviazione e l'accesso alle proprie credenziali, ad esempio Azure Key Vault. Per altre informazioni, vedere l'articolo sulla sicurezza del Servizi di Azure AI.
Controllare i risultati
Il file di output con didascalie complete viene scritto in caption.output.txt
. I risultati intermedi vengono visualizzati nella console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Il formato di output TimeSpan SRT (SubRip Text) è hh:mm:ss,fff
. Per altre informazioni, vedi Formato di output delle didascalie.
Utilizzo e argomenti
Sintassi: node captioning.js --key <key> --region <region> --input <input file>
Le opzioni di connessione includono:
--key
: la chiave della risorsa Voce.--region REGION
: l’area della risorsa Voce. Esempi:westus
,northeurope
Le opzioni di input includono:
--input FILE
: input audio dal file. L'input predefinito è il microfono.--format FORMAT
: usa il formato audio compresso. Valido solo con--file
. I valori validi sonoalaw
,any
,flac
,mp3
,mulaw
eogg_opus
. Il valore predefinito èany
. Per usare un filewav
, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installa GStreamer e vedi Come usare l'audio di input compresso.
Le opzioni di lingua includono:
--languages LANG1,LANG2
: abilita l'identificazione della lingua per le lingue specificate. Ad esempio:en-US,ja-JP
. Questa opzione è disponibile solo con gli esempi di sottotitoli in C++, C# e Python. Per altre informazioni, vedi Identificazione della lingua.
Le opzioni di riconoscimento includono:
--recognizing
: restituisce i risultati eventoRecognizing
. L'output predefinito è solo i risultati dell'eventoRecognized
. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione--quiet
esegue l'override di questa opzione. Per altre informazioni, vedi Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
--phrases PHRASE1;PHRASE2
: puoi specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan
. Per altre informazioni, vedi Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
--help
: mostra la Guida e arresta--output FILE
: restituisce le didascalie nelfile
specificato. Questo flag è obbligatorio.--srt
: restituisce le didascalie nel formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedi Formato di output delle didascalie.--quiet
: elimina l'output della console, ad eccezione degli errori.--profanity OPTION
: valori validi: raw, remove, mask. Per altre informazioni, vedi i concetti relativi al filtro Contenuto volgare.--threshold NUMBER
: Imposta una soglia di risultati parziali stabili. Il valore predefinito è3
. Per altre informazioni, vedi i concetti Ottenere risultati parziali.
Pulire le risorse
Per rimuovere la risorsa Voce creata è possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure.
Documentazione di riferimento | Pacchetto (download) | Ulteriori esempi in GitHub
Speech SDK per Objective-C supporta il recupero dei risultati del riconoscimento vocale per le didascalie, ma non c’è ancora una guida inclusa. Seleziona un altro linguaggio di programmazione per iniziare e ottenere informazioni sui concetti oppure vedi i riferimenti e gli esempi Objective-C collegati dall'inizio dell'articolo.
Documentazione di riferimento | Pacchetto (download) | Ulteriori esempi in GitHub
Speech SDK per Swift supporta il recupero dei risultati del riconoscimento vocale per le didascalie, ma non c’è ancora una guida inclusa. Seleziona un altro linguaggio di programmazione per iniziare e ottenere informazioni sui concetti oppure vedi i riferimenti e gli esempi Swift collegati dall'inizio dell'articolo.
Documentazione di riferimento | Pacchetto (PyPi) | Ulteriori esempi in GitHub
In questa guida introduttiva eseguirai un'app console per creare didascalie con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure AI Speech Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Una sottoscrizione di Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Voce nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Speech SDK per Python è disponibile come modulo Python Package Index (PyPI). Speech SDK per Python è compatibile con Windows, Linux e macOS.
- È necessario installare Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017, 2019 e 2022 per la piattaforma. La prima installazione di questo pacchetto potrebbe richiedere un riavvio.
- In Linux è necessario usare l'architettura di destinazione x64.
- Installare una versione di Python 3.10 o successiva. Controlla prima di tutto la guida all'installazione dell'SDK per verificare eventuali altri requisiti.
- Devi installare anche GStreamer per l'audio di input compresso.
Impostare le variabili di ambiente
È necessario autenticare l'applicazione per accedere ai Servizi di Azure AI. Questo articolo illustra come usare le variabili di ambiente per archiviare le credenziali. È quindi possibile accedere alle variabili di ambiente dal codice per autenticare l'applicazione. Per l'ambiente di produzione, usare un modo più sicuro per archiviare e accedere alle credenziali.
Importante
Si consiglia l'autenticazione di Microsoft Entra ID insieme alle identità gestite per le risorse di Azure al fine di evitare di archiviare le credenziali con le applicazioni eseguite nel cloud.
Se si usa una chiave API, archiviarla in modo sicuro in un'altra posizione, ad esempio in Azure Key Vault. Non includere la chiave API direttamente nel codice e non esporla mai pubblicamente.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autenticare le richieste a Servizi di Azure AI.
Per impostare le variabili di ambiente per la chiave e l'area della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.
- Per impostare la variabile di ambiente
SPEECH_KEY
, sostituire chiave-utente con una delle chiavi della risorsa. - Per impostare la variabile di ambiente
SPEECH_REGION
, sostituire area-utente con una delle aree della risorsa.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Nota
Se è sufficiente accedere alla variabile di ambiente nella console corrente, è possibile impostare la variabile di ambiente con set
anziché setx
.
Dopo l'aggiunta delle variabili di ambiente potrebbe essere necessario riavviare eventuali programmi che devono leggere la variabile di ambiente, inclusa la finestra della console. Se ad esempio si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.
Creare didascalie dal parlato
Segui questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
- Scarica o copia i file di esempio scenarios/python/console/captioning/ da GitHub in una directory locale.
- Apri un prompt dei comandi nella stessa directory di
captioning.py
. - Esegui questo comando per installare Speech SDK:
pip install azure-cognitiveservices-speech
- Esegui l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedi utilizzo e argomenti. Ecco un esempio:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Importante
Assicurati che i percorsi specificati da
--input
e--output
siano validi. In caso contrario, è necessario modificarli.Assicurati di impostare le variabili di ambiente
SPEECH_KEY
eSPEECH_REGION
come descritto in precedenza. In caso contrario, utilizza gli argomenti--key
e--region
.
Controllare i risultati
Quando usi l'opzione realTime
nell'esempio precedente, i risultati parziali degli eventi Recognizing
vengono inclusi nell'output. In questo esempio, solo l'evento Recognized
finale include le virgole. Le virgole non sono le uniche differenze tra gli eventi Recognizing
e Recognized
. Per altre informazioni, vedi Ottenere risultati parziali.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando usi l'opzione --offline
, i risultati sono stabili dall'evento Recognized
finale. I risultati parziali non sono inclusi nell'output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Il formato di output TimeSpan SRT (SubRip Text) è hh:mm:ss,fff
. Per altre informazioni, vedi Formato di output delle didascalie.
Utilizzo e argomenti
Sintassi: python captioning.py --input <input file>
Le opzioni di connessione includono:
--key
: la chiave della risorsa Voce. Esegue l'override della variabile di ambiente SPEECH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--key
.--region REGION
: l’area della risorsa Voce. Esegue l'override della variabile di ambiente SPEECH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--region
. Esempi:westus
,northeurope
Importante
Se si usa una chiave API, archiviarla in modo sicuro in un'altra posizione, ad esempio in Azure Key Vault. Non includere la chiave API direttamente nel codice e non esporla mai pubblicamente.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autenticare le richieste a Servizi di Azure AI.
Le opzioni di input includono:
--input FILE
: input audio dal file. L'input predefinito è il microfono.--format FORMAT
: usa il formato audio compresso. Valido solo con--file
. I valori validi sonoalaw
,any
,flac
,mp3
,mulaw
eogg_opus
. Il valore predefinito èany
. Per usare un filewav
, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installa GStreamer e vedi Come usare l'audio di input compresso.
Le opzioni di lingua includono:
--language LANG
: specifica una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata per suddividere le didascalie in righe. Il valore predefinito èen-US
.
Le opzioni di riconoscimento includono:
--offline
: restituisce risultati offline. Esegue l'override dell'oggetto--realTime
. La modalità di output predefinita è offline.--realTime
: restituisce risultati in tempo reale.
L'output in tempo reale include i risultati dell’evento Recognizing
. L'output offline predefinito è solo i risultati dell'evento Recognized
. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet
esegue l'override di questa opzione. Per altre informazioni, vedi Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
--phrases PHRASE1;PHRASE2
: puoi specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan
. Per altre informazioni, vedi Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
--help
: mostra la Guida e arresta--output FILE
: restituisce le didascalie nelfile
specificato. Questo flag è obbligatorio.--srt
: restituisce le didascalie nel formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedi Formato di output delle didascalie.--maxLineLength LENGTH
: imposta il numero massimo di caratteri per riga per una didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per il cinese).--lines LINES
: imposta il numero di righe di una didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2.--delay MILLISECONDS
: numero di MILLISECONDI di ritardo della visualizzazione di ogni didascalia per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando usi il flagrealTime
. Il valore minimo è 0,0. L'impostazione predefinita è 1000.--remainTime MILLISECONDS
: numero di MILLISECONDI che una didascalia deve rimanere sullo schermo se non viene sostituita da un'altra. Il valore minimo è 0,0. L'impostazione predefinita è 1000.--quiet
: elimina l'output della console, ad eccezione degli errori.--profanity OPTION
: valori validi: raw, remove, mask. Per altre informazioni, vedi i concetti relativi al filtro Contenuto volgare.--threshold NUMBER
: Imposta una soglia di risultati parziali stabili. Il valore predefinito è3
. Questa opzione è applicabile solo quando usi il flagrealTime
. Per altre informazioni, vedi i concetti Ottenere risultati parziali.
Pulire le risorse
Per rimuovere la risorsa Voce creata è possibile usare il portale di Azure o l'interfaccia della riga di comando (CLI) di Azure.
In questa guida introduttiva eseguirai un'app console per creare didascalie con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure AI Speech Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Una sottoscrizione di Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Voce nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Seguire questi passaggi e vedere la guida di Avvio rapido sull'interfaccia della riga di comando di Voce per altri requisiti della piattaforma.
Eseguire il comando seguente dell'interfaccia della riga di comando di .NET per installare l'interfaccia della riga di comando di Voce:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Eseguire i comandi seguenti per configurare la chiave e l'area della risorsa Voce. Sostituire
SUBSCRIPTION-KEY
con la chiave della risorsa Voce eREGION
con l'area della risorsa Voce.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Devi installare anche GStreamer per l'audio di input compresso.
Creare didascalie dal parlato
Con l'interfaccia della riga di comando di Voce, è possibile restituire sottotitoli in SRT (SubRip Text) e WebVTT (Web Video Text Track) da qualsiasi tipo di supporto che contiene audio.
Per riconoscere l'audio da un file e restituire sottotitoli WebVtt (vtt
) e SRT (srt
), seguire questa procedura.
Assicurati di avere un file di input denominato
caption.this.mp4
nel percorso.Esegui il comando seguente per restituire le didascalie dal file video:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
Le didascalie SRT e WebVTT vengono restituite nella console come illustrato di seguito:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Utilizzo e argomenti
Ecco i dettagli sugli argomenti facoltativi del comando precedente:
--file caption.this.mp4 --format any
: input audio dal file. L'input predefinito è il microfono. Per i file audio compressi, ad esempio MP4, installa GStreamer e vedi Come usare l'audio di input compresso.--output vtt file -
e--output srt file -
: restituisce sottotitoli WebVTT e SRT nell'output standard. Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedi Formato di output delle didascalie. Per altre informazioni sull'argomento--output
, vedere opzioni di output dell'interfaccia della riga di comando di Voce.@output.each.detailed
: restituisce i risultati dell'evento con testo, offset e durata. Per altre informazioni, vedi Ottenere i risultati del riconoscimento vocale.--property SpeechServiceResponse_StablePartialResultThreshold=5
: puoi richiedere che il servizio Voce restituisca meno eventiRecognizing
ma più accurati. In questo esempio, il servizio Voce deve confermare il riconoscimento di una parola almeno cinque volte prima di restituire i risultati parziali. Per altre informazioni, vedi i concetti Ottenere risultati parziali.--profanity masked
: puoi specificare se schermare, rimuovere o mostrare le espressioni volgari nei risultati del riconoscimento. Per altre informazioni, vedi i concetti relativi al filtro Contenuto volgare.--phrases "Constoso;Jessie;Rehaan"
: puoi specificare un elenco di frasi da riconoscere, ad esempio Contoso, Jessie e Rehaan. Per altre informazioni, vedi Migliorare il riconoscimento con l'elenco di frasi.
Pulire le risorse
Per rimuovere la risorsa Voce creata è possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure.