Resultaten van spraakherkenning ophalen

Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.RequestWordLevelTimestamps();

Dit codefragment laat zien hoe u de offset en duur van een Recognized gebeurtenis kunt ophalen.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij de cursus toegepaste wiskunde 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Ok nu, laten we 71500000 14700000
HERKENNEN OK nu aan de slag 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Herkende offset en duur

Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig->RequestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN OK nu, laten we 71500000 14700000
HERKENNEN Ok nu, laten we aan de slag gaan 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (Go) | Aanvullende voorbeelden op GitHub

In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.RequestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij de cursus toegepaste wiskunde 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Ok nu, laten we 71500000 14700000
HERKENNEN OK nu aan de slag 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.requestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij de cursus toegepaste wiskunde 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Ok nu, laten we 71500000 14700000
HERKENNEN OK nu aan de slag 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (npm) | Aanvullende voorbeelden op GitHub | Broncode van bibliotheek

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.requestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij de cursus toegepaste wiskunde 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Ok nu, laten we 71500000 14700000
HERKENNEN OK nu aan de slag 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

[speechConfig requestWordLevelTimestamps];

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij de cursus toegepaste wiskunde 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Ok nu, laten we 71500000 14700000
HERKENNEN OK nu aan de slag 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

[speechConfig requestWordLevelTimestamps];

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN OK nu, laten we 71500000 14700000
HERKENNEN Ok nu, laten we aan de slag gaan 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (PyPi) | Aanvullende voorbeelden op GitHub

In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Herkende offset en duur

Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speech_config.request_word_level_timestamps()

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN OK nu, laten we 71500000 14700000
HERKENNEN Ok nu, laten we aan de slag gaan 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
  • Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

U wilt bijschriften synchroniseren met het audionummer, ongeacht of dit in realtime gebeurt of met een vooropname. Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Voer bijvoorbeeld de volgende opdracht uit om de offset en duur van de herkende spraak op te halen:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Omdat het @output.each.detailed argument is ingesteld, bevat de uitvoer de volgende kolomkoppen:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

In de result.json kolom vindt u details met offset en duur voor de Recognizing gebeurtenissen en Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Zie de configuratie- en uitvoeropties voor het Speech CLI-gegevensarchief voor meer informatie.

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.

Gebeurtenis Tekst Verschuiving (in teken) Duur (in teken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN OK nu, laten we 71500000 14700000
HERKENNEN Ok nu, laten we aan de slag gaan 71500000 18500000
ERKEND Oké, nu gaan we aan de slag. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Volgende stappen