Resultaten van spraakherkenning ophalen
Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Herkende verschuiving en duur
Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig.RequestWordLevelTimestamps();
Dit codefragment laat zien hoe u de offset en duur van een Recognized
gebeurtenis kunt ophalen.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij de cursus toegepaste wiskunde | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok nu, laten we | 71500000 | 14700000 |
HERKENNEN | OK nu aan de slag | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig->RequestWordLevelTimestamps();
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | OK nu, laten we | 71500000 | 14700000 |
HERKENNEN | Ok nu, laten we aan de slag gaan | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatie | Pakket (Go) | Aanvullende voorbeelden op GitHub
In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Herkende verschuiving en duur
Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig.RequestWordLevelTimestamps();
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij de cursus toegepaste wiskunde | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok nu, laten we | 71500000 | 14700000 |
HERKENNEN | OK nu aan de slag | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatie | Aanvullende voorbeelden op GitHub
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Herkende verschuiving en duur
Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig.requestWordLevelTimestamps();
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij de cursus toegepaste wiskunde | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok nu, laten we | 71500000 | 14700000 |
HERKENNEN | OK nu aan de slag | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatie | Pakket (npm) | Aanvullende voorbeelden op GitHub | Broncode van bibliotheek
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Herkende verschuiving en duur
Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig.requestWordLevelTimestamps();
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij de cursus toegepaste wiskunde | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok nu, laten we | 71500000 | 14700000 |
HERKENNEN | OK nu aan de slag | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Herkende verschuiving en duur
Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
[speechConfig requestWordLevelTimestamps];
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij de cursus toegepaste wiskunde | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend met een verschuiving van 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Laten we beginnen' zegt, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden na het beëindigen van de vorige utterance is gestart.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok nu, laten we | 71500000 | 14700000 |
HERKENNEN | OK nu aan de slag | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime wordt gedaan of met een pre-opname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in tikken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan de verwerking van de audiostream start. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duur: duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u het verschil en de duur van de spraak die wordt herkend, ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Herkende verschuiving en duur
Zodra een uiting is herkend, kunt u de offset en de duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
[speechConfig requestWordLevelTimestamps];
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet tijdens de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | OK nu, laten we | 71500000 | 14700000 |
HERKENNEN | Ok nu, laten we aan de slag gaan | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatie | Pakket (PyPi) | Aanvullende voorbeelden op GitHub
In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de verschuiving en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speech_config.request_word_level_timestamps()
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | OK nu, laten we | 71500000 | 14700000 |
HERKENNEN | Ok nu, laten we aan de slag gaan | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).
In deze instructiegids leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audionummer, ongeacht of dit in realtime gebeurt of met een vooropname.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Offset: de verschuiving in de audiostream die wordt herkend, uitgedrukt als duur. Offset wordt gemeten in teken, beginnend bij
0
(nul) tikken, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u de herkenning start, omdat de SDK dan begint met het verwerken van de audiostream. Eén teek vertegenwoordigt honderd nanoseconden of een tien miljoenste van een seconde. - Duration: Duur van de uiting die wordt herkend. De duur van teken omvat geen volg- of leidende stilte.
Het einde van een enkele uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten op die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen leveren de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
U wilt bijschriften synchroniseren met het audionummer, ongeacht of dit in realtime gebeurt of met een vooropname. Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de tot nu toe herkende spraak.
Voer bijvoorbeeld de volgende opdracht uit om de offset en duur van de herkende spraak op te halen:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Omdat het @output.each.detailed
argument is ingesteld, bevat de uitvoer de volgende kolomkoppen:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
In de result.json
kolom vindt u details met offset en duur voor de Recognizing
gebeurtenissen en Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Zie de configuratie- en uitvoeropties voor het Speech CLI-gegevensarchief voor meer informatie.
Voorbeeld van offset en duur
In de volgende tabel ziet u mogelijke verschuivingen en duur in tikken wanneer een spreker 'Welkom bij cursus Toegepaste wiskunde 201' zegt. In dit voorbeeld verandert de verschuiving niet in de Recognizing
gebeurtenissen en Recognized
. Vertrouw er echter niet op dat de offset hetzelfde blijft tussen de Recognizing
gebeurtenissen en Recognized
, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5000000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend bij 1,7 tot 5,15 seconden vanaf het begin van de audiostream die werd herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker vervolgens 'Aan de slag' blijft zeggen, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u de mogelijke verschuiving en de duur van een uiting die twee seconden nadat de vorige utterance is beëindigd.
Gebeurtenis | Tekst | Verschuiving (in teken) | Duur (in teken) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | OK nu, laten we | 71500000 | 14700000 |
HERKENNEN | Ok nu, laten we aan de slag gaan | 71500000 | 18500000 |
ERKEND | Oké, nu gaan we aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Deze werd herkend tussen 7,15 en 9,21 seconden vanaf het begin van de audiostream die werd herkend (00:00:07.150 --> 00:00:09.210).