Guida introduttiva: Creare didascalia con riconoscimento vocale

Articolo
03/14/2024

Pacchetto della documentazione di riferimento | (NuGet) | Esempi aggiuntivi in GitHub

In questa guida introduttiva si esegue un'app console per creare didascalia con riconoscimento vocale.

Suggerimento

Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati in tempo reale o offline elaborati didascalia.

Prerequisiti

Sottoscrizione di Azure: creare un account gratuito.
Creare una risorsa Voce nel portale di Azure.
Chiave e area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi. Per altre informazioni sulle risorse dei servizi di intelligenza artificiale di Azure, vedere Ottenere le chiavi per la risorsa.

Configurare l'ambiente

Speech SDK è disponibile come pacchetto NuGet e implementa .NET Standard 2.0. Si installa Speech SDK più avanti in questa guida, ma prima di tutto controllare la guida all'installazione dell'SDK per altri requisiti.

È anche necessario installare GStreamer per l'audio di input compresso.

Impostare le variabili di ambiente

L'applicazione deve essere autenticata per accedere alle risorse dei servizi di intelligenza artificiale di Azure. Per l'ambiente di produzione, usare un modo sicuro per archiviare e accedere alle credenziali. Ad esempio, dopo aver ottenere una chiave per la risorsa Voce, scriverla in una nuova variabile di ambiente nel computer locale che esegue l'applicazione.

Suggerimento

Non includere la chiave direttamente nel codice e non pubblicarla pubblicamente. Per altre opzioni di autenticazione, ad esempio Azure Key Vault, vedere Sicurezza dei servizi di intelligenza artificiale di Azure.

Per impostare la variabile di ambiente per la chiave della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.

Per impostare la SPEECH_KEY variabile di ambiente, sostituire your-key con una delle chiavi per la risorsa.
Per impostare la SPEECH_REGION variabile di ambiente, sostituire l'area con una delle aree per la risorsa.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota

Se è sufficiente accedere alle variabili di ambiente nella console corrente, è possibile impostare la variabile di setxambiente con set anziché .

Dopo aver aggiunto le variabili di ambiente, potrebbe essere necessario riavviare tutti i programmi che devono leggere la variabile di ambiente, inclusa la finestra della console. Ad esempio, se si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.

Bash

Modificare il file con estensione bashrc e aggiungere le variabili di ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Dopo avere aggiunto le variabili di ambiente, eseguire source ~/.bashrc dalla finestra della console per rendere effettive le modifiche.

Bash

Modificare il file .bash_profile e aggiungere le variabili di ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Dopo avere aggiunto le variabili di ambiente, eseguire source ~/.bash_profile dalla finestra della console per rendere effettive le modifiche.

Xcode

Per lo sviluppo di iOS e macOS, impostare le variabili di ambiente in Xcode. Ad esempio, seguire questa procedura per impostare la variabile di ambiente in Xcode 13.4.1.

Selezionare Schema prodotto>Modifica schema.>
Selezionare Argomenti nella pagina Esegui (esecuzione debug).
In Variabili di ambiente selezionare il segno più (+) per aggiungere una nuova variabile di ambiente.
Immettere SPEECH_KEY per Nome e immettere la chiave della risorsa Voce per Valore.

Per impostare la variabile di ambiente per l'area della risorsa Voce, seguire la stessa procedura. Impostare SPEECH_REGION sull'area della risorsa. Ad esempio: westus.

Per altre opzioni di configurazione, vedere la documentazione di Xcode.

Creare didascalia dal parlato

Seguire questa procedura per compilare ed eseguire l'esempio di codice di didascalia di avvio rapido.

Copiare i file di esempio scenarios/csharp/dotnetcore/didascalia ing/ da GitHub. Se Git è installato, aprire un prompt dei comandi ed eseguire il git clone comando per scaricare il repository degli esempi di Speech SDK.
```
git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
```

Aprire un prompt dei comandi e passare alla directory del progetto.

cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/

Compilare il progetto con l'interfaccia della riga di comando di .NET.
```
dotnet build
```
Eseguire l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedere utilizzo e argomenti. Ecco un esempio:
```
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Importante

Assicurarsi che i percorsi specificati da --input e --output siano validi. In caso contrario, è necessario modificare i percorsi.

Assicurarsi di impostare le SPEECH_KEY variabili di ambiente e SPEECH_REGION come descritto in precedenza. In caso contrario, utilizzare gli --key argomenti e --region .

Controllare i risultati

Quando si usa l'opzione realTime nell'esempio precedente, i risultati parziali degli Recognizing eventi vengono inclusi nell'output. In questo esempio solo l'evento finale Recognized include le virgole. Le virgole non sono le uniche differenze tra Recognizing e Recognized eventi. Per altre informazioni, vedere Ottenere risultati parziali.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando si usa l'opzione --offline , i risultati sono stabili dall'evento finale Recognized . I risultati parziali non sono inclusi nell'output:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.

Utilizzo e argomenti

Sintassi: captioning --input <input file>

le opzioni di Connessione ion includono:

--key: chiave della risorsa Voce. Esegue l'override della variabile di ambiente SP edizione Enterprise CH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione --key .
--region REGION: area della risorsa Voce. Esegue l'override della variabile di ambiente SP edizione Enterprise CH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione --region . Esempi: westus, northeurope

Le opzioni di input includono:

--input FILE: input audio dal file. L'input predefinito è il microfono.
--format FORMAT: usa il formato audio compresso. Valido solo con --file. I valori validi sono alaw, any, mp3flac, mulaw, e ogg_opus. Il valore predefinito è any. Per usare un wav file, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.

Le opzioni di lingua includono:

--language LANG: specificare una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata quando si suddivideno didascalia in righe. Il valore predefinito è en-US.

Le opzioni di riconoscimento includono:

--offline: output dei risultati offline. Esegue l'override dell'oggetto --realTime. La modalità di output predefinita è offline.
--realTime: output dei risultati in tempo reale.

L'output in tempo reale include Recognizing i risultati degli eventi. L'output offline predefinito è Recognized solo risultati evento. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet esegue l'override di questa opzione. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.

Le opzioni di accuratezza includono:

--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempio Contoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.

Le opzioni di output includono:

--help: mostra la Guida e arresta
--output FILE: didascalia di output nell'oggetto specificatofile. Questo flag è obbligatorio.
--srt: output didascalia in formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file SRT e WebVTT didascalia, vedere Formato di output della didascalia.
--maxLineLength LENGTH: imposta il numero massimo di caratteri per riga per un didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per cinese).
--lines LINES: imposta il numero di righe per un didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2.
--delay MILLISECONDS: numero di MILLI edizione Standard CONDS per ritardare la visualizzazione di ogni didascalia, per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando si usa il realTime flag . Il valore minimo è 0,0. L'impostazione predefinita è 1000.
--remainTime MILLISECONDS: quanti MILLI edizione Standard CONDS un didascalia deve rimanere sullo schermo se non viene sostituito da un altro. Il valore minimo è 0,0. L'impostazione predefinita è 1000.
--quiet: elimina l'output della console, ad eccezione degli errori.
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare.
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è 3. Questa opzione è applicabile solo quando si usa il realTime flag . Per altre informazioni, vedere Ottenere i concetti relativi ai risultati parziali.

Pulire le risorse

È possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure per rimuovere la risorsa Voce creata.

Pacchetto della documentazione di riferimento | (NuGet) | Esempi aggiuntivi in GitHub

In questa guida introduttiva si esegue un'app console per creare didascalia con riconoscimento vocale.

Suggerimento

Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati in tempo reale o offline elaborati didascalia.

Prerequisiti

Sottoscrizione di Azure: creare un account gratuito.
Creare una risorsa Voce nel portale di Azure.
Chiave e area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi. Per altre informazioni sulle risorse dei servizi di intelligenza artificiale di Azure, vedere Ottenere le chiavi per la risorsa.

Configurare l'ambiente

È anche necessario installare GStreamer per l'audio di input compresso.

Impostare le variabili di ambiente

Suggerimento

Per impostare la variabile di ambiente per la chiave della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.

Per impostare la SPEECH_KEY variabile di ambiente, sostituire your-key con una delle chiavi per la risorsa.
Per impostare la SPEECH_REGION variabile di ambiente, sostituire l'area con una delle aree per la risorsa.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota

Se è sufficiente accedere alle variabili di ambiente nella console corrente, è possibile impostare la variabile di setxambiente con set anziché .

Bash

Modificare il file con estensione bashrc e aggiungere le variabili di ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Dopo avere aggiunto le variabili di ambiente, eseguire source ~/.bashrc dalla finestra della console per rendere effettive le modifiche.

Bash

Modificare il file .bash_profile e aggiungere le variabili di ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Dopo avere aggiunto le variabili di ambiente, eseguire source ~/.bash_profile dalla finestra della console per rendere effettive le modifiche.

Xcode

Per lo sviluppo di iOS e macOS, impostare le variabili di ambiente in Xcode. Ad esempio, seguire questa procedura per impostare la variabile di ambiente in Xcode 13.4.1.

Selezionare Schema prodotto>Modifica schema.>
Selezionare Argomenti nella pagina Esegui (esecuzione debug).
In Variabili di ambiente selezionare il segno più (+) per aggiungere una nuova variabile di ambiente.
Immettere SPEECH_KEY per Nome e immettere la chiave della risorsa Voce per Valore.

Per impostare la variabile di ambiente per l'area della risorsa Voce, seguire la stessa procedura. Impostare SPEECH_REGION sull'area della risorsa. Ad esempio: westus.

Per altre opzioni di configurazione, vedere la documentazione di Xcode.

Creare didascalia dal parlato

Seguire questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido di didascalia con Visual Studio Community 2022 in Windows.

Scaricare o copiare i file di esempio scenarios/cpp/windows/didascalia/ da GitHub in una directory locale.
Aprire il file della captioning.sln soluzione in Visual Studio Community 2022.
Installare Speech SDK nel progetto con Gestione pacchetti NuGet.
```
Install-Package Microsoft.CognitiveServices.Speech
```
Aprire Proprietà>progetto>Generale. Impostare Configurazione su All configurations. Impostare Standard del linguaggio C++ su ISO C++17 Standard (/std:c++17).
Aprire Build>Configuration Manager.
- In un'installazione di Windows a 64 bit impostare Piattaforma soluzione attiva su x64.
- In un'installazione di Windows a 32 bit impostare Piattaforma soluzione attiva su x86.
Aprire Debug delle proprietà>del progetto.> Immettere gli argomenti della riga di comando preferiti in Argomenti comando. Per le opzioni disponibili, vedere utilizzo e argomenti. Ecco un esempio:
```
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Importante

Assicurarsi che i percorsi specificati da --input e --output siano validi. In caso contrario, è necessario modificare i percorsi.

Assicurarsi di impostare le SPEECH_KEY variabili di ambiente e SPEECH_REGION come descritto in precedenza. In caso contrario, utilizzare gli --key argomenti e --region .
Compilare ed eseguire l'applicazione console.

Controllare i risultati

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando si usa l'opzione --offline , i risultati sono stabili dall'evento finale Recognized . I risultati parziali non sono inclusi nell'output:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.

Utilizzo e argomenti

Sintassi: captioning --input <input file>

le opzioni di Connessione ion includono:

--key: chiave della risorsa Voce. Esegue l'override della variabile di ambiente SP edizione Enterprise CH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione --key .
--region REGION: area della risorsa Voce. Esegue l'override della variabile di ambiente SP edizione Enterprise CH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione --region . Esempi: westus, northeurope

Le opzioni di input includono:

--input FILE: input audio dal file. L'input predefinito è il microfono.
--format FORMAT: usa il formato audio compresso. Valido solo con --file. I valori validi sono alaw, any, mp3flac, mulaw, e ogg_opus. Il valore predefinito è any. Per usare un wav file, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.

Le opzioni di lingua includono:

--language LANG: specificare una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata quando si suddivideno didascalia in righe. Il valore predefinito è en-US.

Le opzioni di riconoscimento includono:

--offline: output dei risultati offline. Esegue l'override dell'oggetto --realTime. La modalità di output predefinita è offline.
--realTime: output dei risultati in tempo reale.

Le opzioni di accuratezza includono:

--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempio Contoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.

Le opzioni di output includono:

--help: mostra la Guida e arresta
--output FILE: didascalia di output nell'oggetto specificatofile. Questo flag è obbligatorio.
--srt: output didascalia in formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file SRT e WebVTT didascalia, vedere Formato di output della didascalia.
--maxLineLength LENGTH: imposta il numero massimo di caratteri per riga per un didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per cinese).
--lines LINES: imposta il numero di righe per un didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2.
--delay MILLISECONDS: numero di MILLI edizione Standard CONDS per ritardare la visualizzazione di ogni didascalia, per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando si usa il realTime flag . Il valore minimo è 0,0. L'impostazione predefinita è 1000.
--remainTime MILLISECONDS: quanti MILLI edizione Standard CONDS un didascalia deve rimanere sullo schermo se non viene sostituito da un altro. Il valore minimo è 0,0. L'impostazione predefinita è 1000.
--quiet: elimina l'output della console, ad eccezione degli errori.
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare.
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è 3. Questa opzione è applicabile solo quando si usa il realTime flag . Per altre informazioni, vedere Ottenere i concetti relativi ai risultati parziali.

Pulire le risorse

È possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure per rimuovere la risorsa Voce creata.

Pacchetto della documentazione di riferimento | (Go) | Esempi aggiuntivi in GitHub

In questa guida introduttiva si esegue un'app console per creare didascalia con riconoscimento vocale.

Suggerimento

Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati in tempo reale o offline elaborati didascalia.

Prerequisiti

Sottoscrizione di Azure: creare un account gratuito.
Creare una risorsa Voce nel portale di Azure.
Chiave e area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi. Per altre informazioni sulle risorse dei servizi di intelligenza artificiale di Azure, vedere Ottenere le chiavi per la risorsa.

Configurare l'ambiente

Verificare se sono presenti passaggi di installazione specifici della piattaforma.

È anche necessario installare GStreamer per l'audio di input compresso.

Creare didascalia dal parlato

Seguire questa procedura per compilare ed eseguire l'esempio di codice di didascalia di avvio rapido.

Scaricare o copiare i file di esempio di scenario/go/didascalia/ da GitHub in una directory locale.
Aprire un prompt dei comandi nella stessa directory di captioning.go.
Eseguire i comandi seguenti per creare un go.mod file che collega i componenti di Speech SDK ospitati in GitHub:
```
go mod init captioning
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Compilare il modulo GO.
```
go build
```
Eseguire l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedere utilizzo e argomenti. Ecco un esempio:
```
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Sostituire YourSubscriptionKey con la chiave della risorsa Voce e sostituire YourServiceRegion con l'area della risorsa Voce, ad esempio westus o northeurope. Assicurarsi che i percorsi specificati da --input e --output siano validi. In caso contrario, è necessario modificare i percorsi.

Importante

Al termine, ricordarsi di rimuovere la chiave dal codice e non renderlo mai pubblico. Per l'ambiente di produzione, usare un modo sicuro per archiviare e accedere alle credenziali, ad esempio Azure Key Vault. Per altre informazioni, vedere l'articolo sulla sicurezza dei servizi di intelligenza artificiale di Azure.

Controllare i risultati

Il file di output con didascalia completi viene scritto in caption.output.txt. I risultati intermedi vengono visualizzati nella console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.

Utilizzo e argomenti

Sintassi: go run captioning.go helper.go --key <key> --region <region> --input <input file>

le opzioni di Connessione ion includono:

--key: chiave della risorsa Voce.
--region REGION: area della risorsa Voce. Esempi: westus, northeurope

Le opzioni di input includono:

--input FILE: input audio dal file. L'input predefinito è il microfono.
--format FORMAT: usa il formato audio compresso. Valido solo con --file. I valori validi sono alaw, any, mp3flac, mulaw, e ogg_opus. Il valore predefinito è any. Per usare un wav file, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.

Le opzioni di lingua includono:

--languages LANG1,LANG2: abilita l'identificazione della lingua per le lingue specificate. Ad esempio: en-US,ja-JP. Questa opzione è disponibile solo con gli esempi di didascalia di C++, C# e Python. Per altre informazioni, vedere Identificazione lingua.

Le opzioni di riconoscimento includono:

--recognizing: risultati dell'evento di output Recognizing . L'output predefinito è Recognized solo risultati dell'evento. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet esegue l'override di questa opzione. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.

Le opzioni di accuratezza includono:

--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempio Contoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.

Le opzioni di output includono:

--help: mostra la Guida e arresta
--output FILE: didascalia di output nell'oggetto specificatofile. Questo flag è obbligatorio.
--srt: output didascalia in formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file SRT e WebVTT didascalia, vedere Formato di output della didascalia.
--quiet: elimina l'output della console, ad eccezione degli errori.
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare.
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è 3. Per altre informazioni, vedere Ottenere i concetti relativi ai risultati parziali.

Pulire le risorse

È possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure per rimuovere la risorsa Voce creata.

Documentazione di riferimento | Esempi aggiuntivi su GitHub

In questa guida introduttiva si esegue un'app console per creare didascalia con riconoscimento vocale.

Suggerimento

Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati in tempo reale o offline elaborati didascalia.

Prerequisiti

Sottoscrizione di Azure: creare un account gratuito.
Creare una risorsa Voce nel portale di Azure.
Chiave e area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi. Per altre informazioni sulle risorse dei servizi di intelligenza artificiale di Azure, vedere Ottenere le chiavi per la risorsa.

Configurare l'ambiente

Prima di poter eseguire qualsiasi operazione, è necessario installare Speech SDK. L'esempio in questa guida introduttiva funziona con Microsoft Build di OpenJDK 17

Installare Apache Maven. mvn -v Eseguire quindi per confermare l'installazione corretta.

Creare un nuovo pom.xml file nella radice del progetto e copiarlo nel file seguente:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.37.0</version>
        </dependency>
    </dependencies>
</project>

Installare Speech SDK e le dipendenze.
```
mvn clean dependency:copy-dependencies
```
È anche necessario installare GStreamer per l'audio di input compresso.

Impostare le variabili di ambiente

Suggerimento

Per impostare la variabile di ambiente per la chiave della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.

Per impostare la SPEECH_KEY variabile di ambiente, sostituire your-key con una delle chiavi per la risorsa.
Per impostare la SPEECH_REGION variabile di ambiente, sostituire l'area con una delle aree per la risorsa.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota

Se è sufficiente accedere alle variabili di ambiente nella console corrente, è possibile impostare la variabile di setxambiente con set anziché .

Bash

Modificare il file con estensione bashrc e aggiungere le variabili di ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Dopo avere aggiunto le variabili di ambiente, eseguire source ~/.bashrc dalla finestra della console per rendere effettive le modifiche.

Bash

Modificare il file .bash_profile e aggiungere le variabili di ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Dopo avere aggiunto le variabili di ambiente, eseguire source ~/.bash_profile dalla finestra della console per rendere effettive le modifiche.

Xcode

Per lo sviluppo di iOS e macOS, impostare le variabili di ambiente in Xcode. Ad esempio, seguire questa procedura per impostare la variabile di ambiente in Xcode 13.4.1.

Selezionare Schema prodotto>Modifica schema.>
Selezionare Argomenti nella pagina Esegui (esecuzione debug).
In Variabili di ambiente selezionare il segno più (+) per aggiungere una nuova variabile di ambiente.
Immettere SPEECH_KEY per Nome e immettere la chiave della risorsa Voce per Valore.

Per impostare la variabile di ambiente per l'area della risorsa Voce, seguire la stessa procedura. Impostare SPEECH_REGION sull'area della risorsa. Ad esempio: westus.

Per altre opzioni di configurazione, vedere la documentazione di Xcode.

Creare didascalia dal parlato

Seguire questa procedura per compilare ed eseguire l'esempio di codice di didascalia di avvio rapido.

Copiare i file di esempio scenario/java/jre/didascalia/ da GitHub nella directory del progetto. Anche il pom.xml file creato nell'installazione dell'ambiente deve trovarsi in questa directory.
Aprire un prompt dei comandi ed eseguire questo comando per compilare i file di progetto.
```
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
```
Eseguire l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedere utilizzo e argomenti. Ecco un esempio:
```
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Importante

Assicurarsi che i percorsi specificati da --input e --output siano validi. In caso contrario, è necessario modificare i percorsi.

Assicurarsi di impostare le SPEECH_KEY variabili di ambiente e SPEECH_REGION come descritto in precedenza. In caso contrario, utilizzare gli --key argomenti e --region .

Controllare i risultati

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando si usa l'opzione --offline , i risultati sono stabili dall'evento finale Recognized . I risultati parziali non sono inclusi nell'output:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.

Utilizzo e argomenti

Sintassi: java -cp ".;target\dependency\*" Captioning --input <input file>

le opzioni di Connessione ion includono:

--key: chiave della risorsa Voce. Esegue l'override della variabile di ambiente SP edizione Enterprise CH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione --key .
--region REGION: area della risorsa Voce. Esegue l'override della variabile di ambiente SP edizione Enterprise CH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione --region . Esempi: westus, northeurope

Le opzioni di input includono:

--input FILE: input audio dal file. L'input predefinito è il microfono.
--format FORMAT: usa il formato audio compresso. Valido solo con --file. I valori validi sono alaw, any, mp3flac, mulaw, e ogg_opus. Il valore predefinito è any. Per usare un wav file, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.

Le opzioni di lingua includono:

--language LANG: specificare una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata quando si suddivideno didascalia in righe. Il valore predefinito è en-US.

Le opzioni di riconoscimento includono:

--offline: output dei risultati offline. Esegue l'override dell'oggetto --realTime. La modalità di output predefinita è offline.
--realTime: output dei risultati in tempo reale.

Le opzioni di accuratezza includono:

--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempio Contoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.

Le opzioni di output includono:

--help: mostra la Guida e arresta
--output FILE: didascalia di output nell'oggetto specificatofile. Questo flag è obbligatorio.
--srt: output didascalia in formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file SRT e WebVTT didascalia, vedere Formato di output della didascalia.
--maxLineLength LENGTH: imposta il numero massimo di caratteri per riga per un didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per cinese).
--lines LINES: imposta il numero di righe per un didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2.
--delay MILLISECONDS: numero di MILLI edizione Standard CONDS per ritardare la visualizzazione di ogni didascalia, per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando si usa il realTime flag . Il valore minimo è 0,0. L'impostazione predefinita è 1000.
--remainTime MILLISECONDS: quanti MILLI edizione Standard CONDS un didascalia deve rimanere sullo schermo se non viene sostituito da un altro. Il valore minimo è 0,0. L'impostazione predefinita è 1000.
--quiet: elimina l'output della console, ad eccezione degli errori.
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare.
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è 3. Questa opzione è applicabile solo quando si usa il realTime flag . Per altre informazioni, vedere Ottenere i concetti relativi ai risultati parziali.

Pulire le risorse

È possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure per rimuovere la risorsa Voce creata.

Pacchetto della documentazione di riferimento | (npm) | Esempi aggiuntivi nel codice sorgente della libreria GitHub |

In questa guida introduttiva si esegue un'app console per creare didascalia con riconoscimento vocale.

Suggerimento

Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati in tempo reale o offline elaborati didascalia.

Prerequisiti

Sottoscrizione di Azure: creare un account gratuito.
Creare una risorsa Voce nel portale di Azure.
Chiave e area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi. Per altre informazioni sulle risorse dei servizi di intelligenza artificiale di Azure, vedere Ottenere le chiavi per la risorsa.

Configurare l'ambiente

Prima di poter eseguire qualsiasi operazione, è necessario installare Speech SDK per JavaScript. Se si vuole solo installare il nome del pacchetto, eseguire npm install microsoft-cognitiveservices-speech-sdk. Per istruzioni sull'installazione guidata, vedere la guida all'installazione dell'SDK.

Creare didascalia dal parlato

Seguire questa procedura per compilare ed eseguire l'esempio di codice di didascalia di avvio rapido.

Copiare i file di esempio scenarios/javascript/node/didascalia ing/ da GitHub nella directory del progetto.
Aprire un prompt dei comandi nella stessa directory di Captioning.js.

Installare Speech SDK per JavaScript:

npm install microsoft-cognitiveservices-speech-sdk

Eseguire l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedere utilizzo e argomenti. Ecco un esempio:
```
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Sostituire YourSubscriptionKey con la chiave della risorsa Voce e sostituire YourServiceRegion con l'area della risorsa Voce, ad esempio westus o northeurope. Assicurarsi che i percorsi specificati da --input e --output siano validi. In caso contrario, è necessario modificare i percorsi.

Nota

Speech SDK per JavaScript non supporta l'audio di input compresso. È necessario usare un file WAV come illustrato nell'esempio.

Importante

Al termine, ricordarsi di rimuovere la chiave dal codice e non renderlo mai pubblico. Per l'ambiente di produzione, usare un modo sicuro per archiviare e accedere alle credenziali, ad esempio Azure Key Vault. Per altre informazioni, vedere l'articolo sulla sicurezza dei servizi di intelligenza artificiale di Azure.

Controllare i risultati

Il file di output con didascalia completi viene scritto in caption.output.txt. I risultati intermedi vengono visualizzati nella console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.

Utilizzo e argomenti

Sintassi: node captioning.js --key <key> --region <region> --input <input file>

le opzioni di Connessione ion includono:

--key: chiave della risorsa Voce.
--region REGION: area della risorsa Voce. Esempi: westus, northeurope

Le opzioni di input includono:

--input FILE: input audio dal file. L'input predefinito è il microfono.
--format FORMAT: usa il formato audio compresso. Valido solo con --file. I valori validi sono alaw, any, mp3flac, mulaw, e ogg_opus. Il valore predefinito è any. Per usare un wav file, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.

Le opzioni di lingua includono:

--languages LANG1,LANG2: abilita l'identificazione della lingua per le lingue specificate. Ad esempio: en-US,ja-JP. Questa opzione è disponibile solo con gli esempi di didascalia di C++, C# e Python. Per altre informazioni, vedere Identificazione lingua.

Le opzioni di riconoscimento includono:

--recognizing: risultati dell'evento di output Recognizing . L'output predefinito è Recognized solo risultati dell'evento. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet esegue l'override di questa opzione. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.

Le opzioni di accuratezza includono:

--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempio Contoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.

Le opzioni di output includono:

--help: mostra la Guida e arresta
--output FILE: didascalia di output nell'oggetto specificatofile. Questo flag è obbligatorio.
--srt: output didascalia in formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file SRT e WebVTT didascalia, vedere Formato di output della didascalia.
--quiet: elimina l'output della console, ad eccezione degli errori.
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare.
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è 3. Per altre informazioni, vedere Ottenere i concetti relativi ai risultati parziali.

Pulire le risorse

È possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure per rimuovere la risorsa Voce creata.

Pacchetto della documentazione di riferimento | (download) | Esempi aggiuntivi in GitHub

Speech SDK per Objective-C supporta il recupero dei risultati del riconoscimento vocale per didascalia, ma non è ancora stata inclusa una guida qui. Selezionare un altro linguaggio di programmazione per iniziare e apprendere i concetti oppure vedere le informazioni di riferimento e gli esempi di Objective-C collegati dall'inizio di questo articolo.

Pacchetto della documentazione di riferimento | (download) | Esempi aggiuntivi in GitHub

Speech SDK per Swift supporta il recupero dei risultati del riconoscimento vocale per didascalia, ma non è ancora stata inclusa una guida qui. Selezionare un altro linguaggio di programmazione per iniziare e ottenere informazioni sui concetti oppure vedere i riferimenti e gli esempi swift collegati dall'inizio di questo articolo.

Pacchetto della documentazione di riferimento | (PyPi) | Esempi aggiuntivi in GitHub

In questa guida introduttiva si esegue un'app console per creare didascalia con riconoscimento vocale.

Suggerimento

Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati in tempo reale o offline elaborati didascalia.

Prerequisiti

Sottoscrizione di Azure: creare un account gratuito.
Creare una risorsa Voce nel portale di Azure.
Chiave e area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi. Per altre informazioni sulle risorse dei servizi di intelligenza artificiale di Azure, vedere Ottenere le chiavi per la risorsa.

Configurare l'ambiente

Speech SDK per Python è disponibile come modulo Python Package Index (PyPI). Speech SDK per Python è compatibile con Windows, Linux e macOS.

È necessario installare Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017, 2019 e 2022 per la piattaforma. L'installazione di questo pacchetto per la prima volta potrebbe richiedere un riavvio.
In Linux è necessario usare l'architettura di destinazione x64.

Installare una versione di Python dalla versione 3.10 o successiva. Controllare prima di tutto la guida all'installazione dell'SDK per altri requisiti
È anche necessario installare GStreamer per l'audio di input compresso.

Impostare le variabili di ambiente

Suggerimento

Per impostare la variabile di ambiente per la chiave della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.

Per impostare la SPEECH_KEY variabile di ambiente, sostituire your-key con una delle chiavi per la risorsa.
Per impostare la SPEECH_REGION variabile di ambiente, sostituire l'area con una delle aree per la risorsa.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota

Se è sufficiente accedere alle variabili di ambiente nella console corrente, è possibile impostare la variabile di setxambiente con set anziché .

Bash

Modificare il file con estensione bashrc e aggiungere le variabili di ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Dopo avere aggiunto le variabili di ambiente, eseguire source ~/.bashrc dalla finestra della console per rendere effettive le modifiche.

Bash

Modificare il file .bash_profile e aggiungere le variabili di ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Dopo avere aggiunto le variabili di ambiente, eseguire source ~/.bash_profile dalla finestra della console per rendere effettive le modifiche.

Xcode

Per lo sviluppo di iOS e macOS, impostare le variabili di ambiente in Xcode. Ad esempio, seguire questa procedura per impostare la variabile di ambiente in Xcode 13.4.1.

Selezionare Schema prodotto>Modifica schema.>
Selezionare Argomenti nella pagina Esegui (esecuzione debug).
In Variabili di ambiente selezionare il segno più (+) per aggiungere una nuova variabile di ambiente.
Immettere SPEECH_KEY per Nome e immettere la chiave della risorsa Voce per Valore.

Per impostare la variabile di ambiente per l'area della risorsa Voce, seguire la stessa procedura. Impostare SPEECH_REGION sull'area della risorsa. Ad esempio: westus.

Per altre opzioni di configurazione, vedere la documentazione di Xcode.

Creare didascalia dal parlato

Seguire questa procedura per compilare ed eseguire l'esempio di codice di didascalia di avvio rapido.

Scaricare o copiare i file di esempio scenarios/python/console/didascalia/ da GitHub in una directory locale.
Aprire un prompt dei comandi nella stessa directory di captioning.py.
Eseguire questo comando per installare Speech SDK:
```
pip install azure-cognitiveservices-speech
```
Eseguire l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedere utilizzo e argomenti. Ecco un esempio:
```
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Importante

Assicurarsi che i percorsi specificati da --input e --output siano validi. In caso contrario, è necessario modificare i percorsi.

Assicurarsi di impostare le SPEECH_KEY variabili di ambiente e SPEECH_REGION come descritto in precedenza. In caso contrario, utilizzare gli --key argomenti e --region .

Controllare i risultati

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando si usa l'opzione --offline , i risultati sono stabili dall'evento finale Recognized . I risultati parziali non sono inclusi nell'output:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.

Utilizzo e argomenti

Sintassi: python captioning.py --input <input file>

le opzioni di Connessione ion includono:

--key: chiave della risorsa Voce. Esegue l'override della variabile di ambiente SP edizione Enterprise CH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione --key .
--region REGION: area della risorsa Voce. Esegue l'override della variabile di ambiente SP edizione Enterprise CH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione --region . Esempi: westus, northeurope

Le opzioni di input includono:

--input FILE: input audio dal file. L'input predefinito è il microfono.
--format FORMAT: usa il formato audio compresso. Valido solo con --file. I valori validi sono alaw, any, mp3flac, mulaw, e ogg_opus. Il valore predefinito è any. Per usare un wav file, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.

Le opzioni di lingua includono:

--language LANG: specificare una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata quando si suddivideno didascalia in righe. Il valore predefinito è en-US.

Le opzioni di riconoscimento includono:

--offline: output dei risultati offline. Esegue l'override dell'oggetto --realTime. La modalità di output predefinita è offline.
--realTime: output dei risultati in tempo reale.

Le opzioni di accuratezza includono:

--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempio Contoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.

Le opzioni di output includono:

--help: mostra la Guida e arresta
--output FILE: didascalia di output nell'oggetto specificatofile. Questo flag è obbligatorio.
--srt: output didascalia in formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file SRT e WebVTT didascalia, vedere Formato di output della didascalia.
--maxLineLength LENGTH: imposta il numero massimo di caratteri per riga per un didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per cinese).
--lines LINES: imposta il numero di righe per un didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2.
--delay MILLISECONDS: numero di MILLI edizione Standard CONDS per ritardare la visualizzazione di ogni didascalia, per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando si usa il realTime flag . Il valore minimo è 0,0. L'impostazione predefinita è 1000.
--remainTime MILLISECONDS: quanti MILLI edizione Standard CONDS un didascalia deve rimanere sullo schermo se non viene sostituito da un altro. Il valore minimo è 0,0. L'impostazione predefinita è 1000.
--quiet: elimina l'output della console, ad eccezione degli errori.
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare.
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è 3. Questa opzione è applicabile solo quando si usa il realTime flag . Per altre informazioni, vedere Ottenere i concetti relativi ai risultati parziali.

Pulire le risorse

È possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure per rimuovere la risorsa Voce creata.

In questa guida introduttiva si esegue un'app console per creare didascalia con riconoscimento vocale.

Suggerimento

Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati in tempo reale o offline elaborati didascalia.

Prerequisiti

Sottoscrizione di Azure: creare un account gratuito.
Creare una risorsa Voce nel portale di Azure.
Chiave e area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi. Per altre informazioni sulle risorse dei servizi di intelligenza artificiale di Azure, vedere Ottenere le chiavi per la risorsa.

Configurare l'ambiente

Seguire questa procedura e vedere la guida introduttiva all'interfaccia della riga di comando di Voce per altri requisiti per la piattaforma.

Eseguire il comando seguente dell'interfaccia della riga di comando di .NET per installare l'interfaccia della riga di comando di Voce:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Eseguire i comandi seguenti per configurare la chiave e l'area della risorsa Voce. Sostituire SUBSCRIPTION-KEY con la chiave della risorsa Voce e sostituire REGION con l'area della risorsa Voce.
- Terminale
- PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

È anche necessario installare GStreamer per l'audio di input compresso.

Creare didascalia dal parlato

Con l'interfaccia della riga di comando di Voce è possibile restituire sia SRT (SubRip Text) che WebVTT (Web Video Text Tracks) didascalia da qualsiasi tipo di supporto che contiene audio.

Per riconoscere l'audio da un file e restituire didascalia WebVtt (vtt) e SRT (srt), seguire questa procedura.

Assicurarsi di avere un file di input denominato caption.this.mp4 nel percorso.

Eseguire il comando seguente per restituire didascalia dal file video:

spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"

I didascalia SRT e WebVTT vengono restituiti nella console, come illustrato di seguito:

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "561a0ea00cc14bb09bd294357df3270f",
  "Duration": "00:00:03.0500000"
}

Utilizzo e argomenti

Ecco i dettagli sugli argomenti facoltativi del comando precedente:

--file caption.this.mp4 --format any: input audio dal file. L'input predefinito è il microfono. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.
--output vtt file -e --output srt file -: restituisce i didascalia WebVTT e SRT nell'output standard. Per altre informazioni sui formati di file SRT e WebVTT didascalia, vedere Formato di output della didascalia. Per altre informazioni sull'argomento, vedere Opzioni di output dell'interfaccia della --output riga di comando di Voce.
@output.each.detailed: restituisce i risultati dell'evento con testo, offset e durata. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.
--property SpeechServiceResponse_StablePartialResultThreshold=5: è possibile richiedere che il servizio Voce restituisca meno Recognizing eventi più accurati. In questo esempio, il servizio Voce deve confermare il riconoscimento di una parola almeno cinque volte prima di restituire i risultati parziali. Per altre informazioni, vedere Ottenere i concetti relativi ai risultati parziali.
--profanity masked: è possibile specificare se mascherare, rimuovere o mostrare contenuto volgare nei risultati del riconoscimento. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare.
--phrases "Constoso;Jessie;Rehaan": è possibile specificare un elenco di frasi da riconoscere, ad esempio Contoso, Jessie e Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.

Pulire le risorse

È possibile usare il portale di Azure o l'interfaccia della riga di comando di Azure per rimuovere la risorsa Voce creata.

Passaggi successivi

Altre informazioni sul riconoscimento vocale

Guida introduttiva: Creare didascalia con riconoscimento vocale

Prerequisiti

Configurare l'ambiente

Impostare le variabili di ambiente

Creare didascalia dal parlato

Controllare i risultati

Utilizzo e argomenti

Pulire le risorse

Prerequisiti

Configurare l'ambiente

Impostare le variabili di ambiente

Creare didascalia dal parlato

Controllare i risultati

Utilizzo e argomenti

Pulire le risorse

Prerequisiti

Configurare l'ambiente

Creare didascalia dal parlato

Controllare i risultati

Utilizzo e argomenti

Pulire le risorse

Prerequisiti

Configurare l'ambiente

Impostare le variabili di ambiente

Creare didascalia dal parlato

Controllare i risultati

Utilizzo e argomenti

Pulire le risorse

Prerequisiti

Configurare l'ambiente

Creare didascalia dal parlato

Controllare i risultati

Utilizzo e argomenti

Pulire le risorse

Prerequisiti

Configurare l'ambiente

Impostare le variabili di ambiente

Creare didascalia dal parlato

Controllare i risultati

Utilizzo e argomenti

Pulire le risorse

Prerequisiti

Configurare l'ambiente

Creare didascalia dal parlato

Utilizzo e argomenti

Pulire le risorse

Passaggi successivi

Risorse aggiuntive