Condividi tramite


Ottenere i risultati del riconoscimento vocale

Documentazione di riferimento | Pacchetto (NuGet) | Ulteriori esempi in GitHub

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Offset e durata del parlato riconosciuto

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig, come mostrato qui di seguito:

speechConfig.RequestWordLevelTimestamps();

Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognized.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione di riferimento | Pacchetto (NuGet) | Ulteriori esempi in GitHub

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Offset e durata del parlato riconosciuto

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig, come mostrato qui di seguito:

speechConfig->RequestWordLevelTimestamps();

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione di riferimento | Pacchetto (Go) | Ulteriori esempi in GitHub

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Offset e durata del parlato riconosciuto

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig, come mostrato qui di seguito:

speechConfig.RequestWordLevelTimestamps();

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

documentazione di riferimento | Esempi aggiuntivi in GitHub

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Offset e durata del parlato riconosciuto

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig, come mostrato qui di seguito:

speechConfig.requestWordLevelTimestamps();

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione di riferimento | Pacchetto (npm) | Ulteriori esempi in GitHub | Codice sorgente della libreria

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Offset e durata del parlato riconosciuto

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig, come mostrato qui di seguito:

speechConfig.requestWordLevelTimestamps();

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione di riferimento | Pacchetto (download) | Ulteriori esempi in GitHub

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Offset e durata del parlato riconosciuto

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig, come mostrato qui di seguito:

[speechConfig requestWordLevelTimestamps];

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione di riferimento | Pacchetto (download) | Ulteriori esempi in GitHub

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Offset e durata del parlato riconosciuto

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig, come mostrato qui di seguito:

[speechConfig requestWordLevelTimestamps];

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione di riferimento | Pacchetto (PyPi) | Ulteriori esempi in GitHub

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Offset e durata del parlato riconosciuto

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig, come mostrato qui di seguito:

speech_config.request_word_level_timestamps()

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.

Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.

La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

È opportuno sincronizzare i sottotitoli con la traccia audio, sia in tempo reale che con audio preregistrato. Con l'evento Recognizing è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing viene fornito con una stima testuale del parlato riconosciuto finora.

Ad esempio, eseguire il comando seguente per ottenere l'offset e la durata del parlato riconosciuto:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Poiché è stato impostato l'argomento @output.each.detailed, l'output include le intestazioni di colonna seguenti:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

Nella colonna result.json sono disponibili dettagli che includono l’offset e la durata degli eventiRecognizing e Recognized:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Per altre informazioni vedere la configurazione dell'archivio dati dell'interfaccia della riga di comando di Voce e le opzioni di output .

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing e Recognized. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing e Recognized, poiché il risultato finale potrebbe essere diverso.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO benvenuti 17000000 5000000
RICONOSCIMENTO benvenuti al 17000000 6400000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 13600000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 17200000
RICONOSCIMENTO benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCIMENTO benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTI Benvenuti al corso di matematica applicata 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.

Event Testo Offset (in tick) Durata (in tick)
RICONOSCIMENTO Ok 71500000 3100000
RICONOSCIMENTO Ecco 71500000 10300000
RICONOSCIMENTO Ecco come 71500000 14700000
RICONOSCIMENTO Ecco come procedere 71500000 18500000
RICONOSCIUTI Ecco come procedere. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Passaggi successivi