In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:
speechConfig.RequestWordLevelTimestamps();
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognized-Ereignis abrufen.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:
speechConfig->RequestWordLevelTimestamps();
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:
speechConfig.RequestWordLevelTimestamps();
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:
speechConfig.requestWordLevelTimestamps();
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:
speechConfig.requestWordLevelTimestamps();
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:
[speechConfig requestWordLevelTimestamps];
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:
[speechConfig requestWordLevelTimestamps];
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(e.result.text))
print("Offset in Ticks: {}".format(e.result.offset))
print("Duration in Ticks: {}".format(e.result.duration))
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:
speech_config.request_word_level_timestamps()
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Es ist sinnvoll, Untertitel mit der Audiospur zu synchronisieren, gleich ob dies in Echtzeit oder für eine Vorabaufzeichnung erfolgt. Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Führen Sie beispielsweise den folgenden Befehl aus, um den Offset und die Dauer der erkannten Sprache abzurufen:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Da das Argument @output.each.detailed festgelegt wurde, enthält die Ausgabe die folgenden Spaltenüberschriften:
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
Willkommen
17.000.000
5000000
RECOGNIZING
welcome to (Willkommen bei)
17.000.000
6.400.000
RECOGNIZING
welcome to applied math (Willkommen bei angewandter Mathematik)
17.000.000
13.600.000
RECOGNIZING
welcome to applied mathematics (Willkommen bei angewandter Mathematik)
17.000.000
17.200.000
RECOGNIZING
welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)
17.000.000
23.700.000
RECOGNIZING
welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)
17.000.000
26.700.000
RECOGNIZING
welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
33.400.000
RECOGNIZED
Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)
17.000.000
34.500.000
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis
Text
Offset (in Takten)
Dauer (in Takten)
RECOGNIZING
OK
71.500.000
3.100.000
RECOGNIZING
OK now (OK, jetzt)
71.500.000
10.300.000
RECOGNIZING
OK, now let's (OK, jetzt lassen Sie uns)
71.500.000
14.700.000
RECOGNIZING
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
18.500.000
RECOGNIZED
OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)
71.500.000
20.600.000
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In diesem Kurs werden Sie die Verwendung der Azure Speech-Dienste kennenlernen, indem eine HoloLens 2-Anwendung integriert wird. Sie können Ihr Projekt auch auf einer HoloLens bereitstellen.
Hier erfahren Sie, wie Sie Sprache in Text konvertieren, und erhalten u. a. Informationen zu Objektkonstruktion, unterstützten Audioeingabeformaten und Konfigurationsoptionen für die Spracherkennung.
In dieser Schnellstartanleitung konvertieren Sie Sprache kontinuierlich aus einer Datei in Text. Der Dienst „Speech“ transkribiert die Sprache und identifiziert einen oder mehrere Sprecher.
Die Spracherkennung des Speech-Diensts (auch als Sprache-zu-Text bezeichnet) ermöglicht die Echtzeit- und Batch-Transkription von Audiostreams in Text. Bei zusätzlicher Referenztexteingabe ermöglicht sie auch die Echtzeitbewertung der Aussprache und gibt Sprechern Feedback zur Richtigkeit und Flüssigkeit des gesprochenen Texts.
Erfahren Sie, wie Sie Azure KI Speech für schnelle Transkriptionen verwenden können, wobei Sie Audio übermitteln, und Transkriptionsergebnisse schneller als Echtzeit erhalten.