Resultaten van spraakherkenning ophalen

Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.RequestWordLevelTimestamps();

Dit codefragment laat zien hoe u de offset en duur van een Recognized gebeurtenis kunt ophalen.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij de cursus toegepaste wiskunde	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	Ok nu, laten we	71500000	14700000
HERKENNEN	OK nu aan de slag	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Herkende offset en duur

Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig->RequestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij toegepaste wiskundecursus	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	OK nu, laten we	71500000	14700000
HERKENNEN	Ok nu, laten we aan de slag gaan	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (Go) | Aanvullende voorbeelden op GitHub

In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.RequestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij de cursus toegepaste wiskunde	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	Ok nu, laten we	71500000	14700000
HERKENNEN	OK nu aan de slag	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.requestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij de cursus toegepaste wiskunde	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	Ok nu, laten we	71500000	14700000
HERKENNEN	OK nu aan de slag	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (npm) | Aanvullende voorbeelden op GitHub | Broncode van bibliotheek

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.requestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij de cursus toegepaste wiskunde	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	Ok nu, laten we	71500000	14700000
HERKENNEN	OK nu aan de slag	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

[speechConfig requestWordLevelTimestamps];

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij de cursus toegepaste wiskunde	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	Ok nu, laten we	71500000	14700000
HERKENNEN	OK nu aan de slag	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

[speechConfig requestWordLevelTimestamps];

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij toegepaste wiskundecursus	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	OK nu, laten we	71500000	14700000
HERKENNEN	Ok nu, laten we aan de slag gaan	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (PyPi) | Aanvullende voorbeelden op GitHub

In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Herkende offset en duur

Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speech_config.request_word_level_timestamps()

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij toegepaste wiskundecursus	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	OK nu, laten we	71500000	14700000
HERKENNEN	Ok nu, laten we aan de slag gaan	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.

De Speech-service retourneert de offset en duur van de herkende spraak.

Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij 0 (nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde.
Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.

Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

U wilt bijschriften synchroniseren met het audionummer, ongeacht of dit in realtime gebeurt of met een vooropname. Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.

Voer bijvoorbeeld de volgende opdracht uit om de offset en duur van de herkende spraak op te halen:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Omdat het @output.each.detailed argument is ingesteld, bevat de uitvoer de volgende kolomkoppen:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

In de result.json kolom vindt u details met offset en duur voor de Recognizing gebeurtenissen en Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Zie de configuratie- en uitvoeropties voor het Speech CLI-gegevensarchief voor meer informatie.

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing gebeurtenissen en Recognized . Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing gebeurtenissen en Recognized , omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	Welkom	17000000	5000000
HERKENNEN	welkom bij	17000000	6400000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	13600000
HERKENNEN	welkom bij toegepaste wiskunde	17000000	17200000
HERKENNEN	welkom bij toegepaste wiskundecursus	17000000	23700000
HERKENNEN	welkom bij toegepaste wiskundecursus 2	17000000	26700000
HERKENNEN	welkom bij toegepaste wiskundecursus 201	17000000	33400000
ERKEND	Welkom bij toegepaste wiskundecursus 201.	17000000	34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.

Gebeurtenis	Tekst	Verschuiving (in teken)	Duur (in teken)
HERKENNEN	OK	71500000	3100000
HERKENNEN	OK nu	71500000	10300000
HERKENNEN	OK nu, laten we	71500000	14700000
HERKENNEN	Ok nu, laten we aan de slag gaan	71500000	18500000
ERKEND	Oké, nu gaan we aan de slag.	71500000	20600000

De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).

Spraaksynchronisatie

Verschuiving en duur herkennen

Herkende verschuiving en duur

Voorbeeld van offset en duur

Spraaksynchronisatie

Verschuiving en duur herkennen

Herkende offset en duur

Voorbeeld van offset en duur

Spraaksynchronisatie

Verschuiving en duur herkennen

Herkende verschuiving en duur

Voorbeeld van offset en duur

Spraaksynchronisatie

Verschuiving en duur herkennen

Herkende verschuiving en duur

Voorbeeld van offset en duur

Spraaksynchronisatie

Verschuiving en duur herkennen

Herkende verschuiving en duur

Voorbeeld van offset en duur

Spraaksynchronisatie

Verschuiving en duur herkennen

Herkende verschuiving en duur

Voorbeeld van offset en duur

Spraaksynchronisatie

Verschuiving en duur herkennen

Herkende verschuiving en duur

Voorbeeld van offset en duur

Spraaksynchronisatie

Verschuiving en duur herkennen

Herkende offset en duur

Voorbeeld van offset en duur

Spraaksynchronisatie

Verschuiving en duur herkennen

Voorbeeld van offset en duur

Volgende stappen

Aanvullende resources