Ottenere i risultati del riconoscimento vocale

Documentazione | di riferimentoPacchetto (NuGet) | Esempi aggiuntivi in GitHub

Questa guida pratica illustra come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecording.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, perché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di graduazione rappresenta un centinaio di nanosecondi o un dieci milionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata nei segni di graduazione non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing evento.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Offset e durata riconosciuti

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig , come illustrato di seguito:

speechConfig.RequestWordLevelTimestamps();

Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognized evento.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata nei tick quando un parlante dice "Benvenuti nel corso matematico applicato 201". In questo esempio, l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto a 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuti nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE Ok, ora andiamo 71500000 14700000
RICONOSCERE Ok, iniziamo subito 71500000 18500000
RICONOSCIUTO Ok, iniziamo. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione | di riferimentoPacchetto (NuGet) | Esempi aggiuntivi in GitHub

Questa guida pratica illustra come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal 0 segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi.
  • Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. L'offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento include una stima testuale del riconoscimento vocale finora riconosciuto.

Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing evento.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Offset e durata riconosciuti

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig , come illustrato di seguito:

speechConfig->RequestWordLevelTimestamps();

Offset e durata di esempio

La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuto nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione era di 3,45 secondi. È stato riconosciuto da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. Nella tabella seguente viene illustrato il potenziale offset e la durata per un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE OK ora 71500000 14700000
RICONOSCERE OK ora si inizia 71500000 18500000
RICONOSCIUTO OK, ora si inizierà. 71500000 20600000

La durata totale della seconda espressione era di 2,06 secondi. È stato riconosciuto a 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 -> - 00:00:09.210).

Documentazione di | riferimentoPacchetto (Go) | Esempi aggiuntivi in GitHub

In questa guida si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal 0 segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi.
  • Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. L'offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento include una stima testuale del riconoscimento vocale finora riconosciuto.

Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing evento.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Offset e durata riconosciuti

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig , come illustrato di seguito:

speechConfig.RequestWordLevelTimestamps();

Offset e durata di esempio

La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuto nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione era di 3,45 secondi. È stato riconosciuto da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. Nella tabella seguente viene illustrato il potenziale offset e la durata per un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE OK ora 71500000 14700000
RICONOSCERE OK ora si inizia 71500000 18500000
RICONOSCIUTO OK, ora si inizierà. 71500000 20600000

La durata totale della seconda espressione era di 2,06 secondi. È stato riconosciuto a 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 -> - 00:00:09.210).

Documentazione di | riferimentoEsempi aggiuntivi in GitHub

In questa guida si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal 0 segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi.
  • Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing evento.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Offset e durata riconosciuti

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig , come illustrato di seguito:

speechConfig.requestWordLevelTimestamps();

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata nei tick quando un parlante dice "Benvenuti nel corso matematico applicato 201". In questo esempio, l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto a 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuti nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE Ok, ora andiamo 71500000 14700000
RICONOSCERE Ok, iniziamo subito 71500000 18500000
RICONOSCIUTO Ok, iniziamo. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione | di riferimentoPacchetto (npm) | Esempi aggiuntivi in GitHub | Codice sorgente della libreria

Questa guida pratica illustra come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecording.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, perché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di graduazione rappresenta un centinaio di nanosecondi o un dieci milionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata nei segni di graduazione non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento viene fornito con una stima testuale del parlato riconosciuto finora.

Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing evento.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Offset e durata riconosciuti

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig , come illustrato di seguito:

speechConfig.requestWordLevelTimestamps();

Offset e durata di esempio

La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuto nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione era di 3,45 secondi. È stato riconosciuto da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. Nella tabella seguente viene illustrato il potenziale offset e la durata per un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE OK ora 71500000 14700000
RICONOSCERE OK ora si inizia 71500000 18500000
RICONOSCIUTO OK, ora si inizierà. 71500000 20600000

La durata totale della seconda espressione era di 2,06 secondi. È stato riconosciuto a 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 -> - 00:00:09.210).

Documentazione di | riferimentoPacchetto (download) | Esempi aggiuntivi in GitHub

In questa guida si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal 0 segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi.
  • Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. L'offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento include una stima testuale del riconoscimento vocale finora riconosciuto.

Offset e durata riconosciuti

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig , come illustrato di seguito:

[speechConfig requestWordLevelTimestamps];

Offset e durata di esempio

La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto a 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuti nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE Ok, ora andiamo 71500000 14700000
RICONOSCERE Ok, iniziamo subito 71500000 18500000
RICONOSCIUTO Ok, iniziamo. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Documentazione | di riferimentoPacchetto (download) | Esempi aggiuntivi in GitHub

Questa guida pratica illustra come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecording.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, perché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di graduazione rappresenta un centinaio di nanosecondi o un dieci milionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata nei segni di graduazione non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento viene fornito con una stima testuale del parlato riconosciuto finora.

Offset e durata riconosciuti

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig , come illustrato di seguito:

[speechConfig requestWordLevelTimestamps];

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata nei tick quando un parlante dice "Benvenuti nel corso matematico applicato 201". In questo esempio, l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto a 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuto nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione era di 3,45 secondi. È stato riconosciuto da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. Nella tabella seguente viene illustrato il potenziale offset e la durata per un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE OK ora 71500000 14700000
RICONOSCERE OK ora si inizia 71500000 18500000
RICONOSCIUTO OK, ora si inizierà. 71500000 20600000

La durata totale della seconda espressione era di 2,06 secondi. È stato riconosciuto a 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 -> - 00:00:09.210).

Documentazione di | riferimentoPacchetto (PyPi) | Esempi aggiuntivi in GitHub

In questa guida si apprenderà come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal 0 segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi.
  • Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. L'offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento include una stima testuale del riconoscimento vocale finora riconosciuto.

Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing evento.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Offset e durata riconosciuti

Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig , come illustrato di seguito:

speech_config.request_word_level_timestamps()

Offset e durata di esempio

La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuti nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE Ok, ora andiamo 71500000 14700000
RICONOSCERE Ok, iniziamo subito 71500000 18500000
RICONOSCIUTO Ok, iniziamo. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Questa guida pratica illustra come usare i risultati del riconoscimento vocale.

Sincronizzazione vocale

È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecording.

Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.

  • Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da 0 (zero) tick, associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, perché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di graduazione rappresenta un centinaio di nanosecondi o un dieci milionesimo di secondo.
  • Durata: durata dell'espressione riconosciuta. La durata nei segni di graduazione non include il silenzio finale o iniziale.

La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.

Riconoscimento dell'offset e della durata

È consigliabile sincronizzare le didascalie con la traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordatura. Con l'evento è possibile ottenere l'offset Recognizing e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing evento viene fornito con una stima testuale del parlato riconosciuto finora.

Ad esempio, eseguire il comando seguente per ottenere l'offset e la durata del riconoscimento vocale:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Poiché l'argomento è stato impostato, l'output @output.each.detailed include le intestazioni di colonna seguenti:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

result.json Nella colonna sono disponibili dettagli che includono offset e durata per gli Recognizing eventi e Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Per altre informazioni, vedere le opzioni di configurazione e output dell'archivio dati dell'interfaccia della riga di comando di Voce.

Offset e durata di esempio

La tabella seguente mostra il potenziale offset e la durata nei tick quando un parlante dice "Benvenuti nel corso matematico applicato 201". In questo esempio, l'offset non cambia in tutti gli Recognizing eventi e Recognized . Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing eventi e Recognized , poiché il risultato finale potrebbe essere diverso.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE introduzione 17000000 5000000
RICONOSCERE benvenuto a 17000000 6400000
RICONOSCERE benvenuti alla matematica applicata 17000000 13600000
RICONOSCERE benvenuti alla matematica applicata 17000000 17200000
RICONOSCERE benvenuti al corso di matematica applicata 17000000 23700000
RICONOSCERE benvenuti al corso di matematica applicata 2 17000000 26700000
RICONOSCERE benvenuti al corso di matematica applicata 201 17000000 33400000
RICONOSCIUTO Benvenuti nel corso matematico applicato 201. 17000000 34500000

La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).

Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.

Evento Testo Offset (in tick) Durata (in tick)
RICONOSCERE OK 71500000 3100000
RICONOSCERE OK ora 71500000 10300000
RICONOSCERE Ok, ora andiamo 71500000 14700000
RICONOSCERE Ok, iniziamo subito 71500000 18500000
RICONOSCIUTO Ok, iniziamo. 71500000 20600000

La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).

Passaggi successivi