Abrufen von Spracherkennungsergebnissen: Speech-Dienst - Azure AI services

Referenzdokumentation Paket (NuGet)Zusätzliche Beispiele auf GitHub

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Erkannter Offset und erkannte Dauer

Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:

speechConfig.RequestWordLevelTimestamps();

Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognized-Ereignis abrufen.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

Referenzdokumentation Paket (NuGet)Zusätzliche Beispiele auf GitHub

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Erkannter Offset und erkannte Dauer

Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:

speechConfig->RequestWordLevelTimestamps();

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

Referenzdokumentation Paket (Go)Zusätzliche Beispiele auf GitHub

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Erkannter Offset und erkannte Dauer

Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:

speechConfig.RequestWordLevelTimestamps();

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

Referenzdokumentation | Zusätzliche Beispiele auf GitHub

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Erkannter Offset und erkannte Dauer

Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:

speechConfig.requestWordLevelTimestamps();

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

Referenzdokumentation Paket (npm)Zusätzliche Beispiele auf GitHub Quellcode der Bibliothek

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Erkannter Offset und erkannte Dauer

Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:

speechConfig.requestWordLevelTimestamps();

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

Referenzdokumentation Paket (Download)Zusätzliche Beispiele auf GitHub

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Erkannter Offset und erkannte Dauer

Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:

[speechConfig requestWordLevelTimestamps];

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

Referenzdokumentation Paket (Download)Zusätzliche Beispiele auf GitHub

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Erkannter Offset und erkannte Dauer

Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:

[speechConfig requestWordLevelTimestamps];

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

Referenzdokumentation Paket (PyPi)Zusätzliche Beispiele auf GitHub

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing-Ereignis abrufen.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Erkannter Offset und erkannte Dauer

Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig-Eigenschaft wie hier gezeigt festlegen:

speech_config.request_word_level_timestamps()

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.

Sprachsynchronisierung

Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.

Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.

Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt 0 (null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar.
Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.

Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.

Erkennen von Offset und Dauer

Es ist sinnvoll, Untertitel mit der Audiospur zu synchronisieren, gleich ob dies in Echtzeit oder für eine Vorabaufzeichnung erfolgt. Mit dem Recognizing-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.

Führen Sie beispielsweise den folgenden Befehl aus, um den Offset und die Dauer der erkannten Sprache abzurufen:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Da das Argument @output.each.detailed festgelegt wurde, enthält die Ausgabe die folgenden Spaltenüberschriften:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

In der Spalte result.json finden Sie Details, die Offset und Dauer für die Ereignisse Recognizing und Recognized enthalten:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Weitere Informationen finden Sie in unter Konfigurationsoptionen für die Speech-Befehlszeilenschnittstelle .

Beispiel für Offset und Dauer

In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing und Recognized nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing und Recognized gleich bleibt, da das Endergebnis anders sein könnte.

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	Willkommen	17.000.000	5000000
RECOGNIZING	welcome to (Willkommen bei)	17.000.000	6.400.000
RECOGNIZING	welcome to applied math (Willkommen bei angewandter Mathematik)	17.000.000	13.600.000
RECOGNIZING	welcome to applied mathematics (Willkommen bei angewandter Mathematik)	17.000.000	17.200.000
RECOGNIZING	welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“)	17.000.000	23.700.000
RECOGNIZING	welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“)	17.000.000	26.700.000
RECOGNIZING	welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	33.400.000
RECOGNIZED	Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“)	17.000.000	34.500.000

Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).

Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:

Ereignis	Text	Offset (in Takten)	Dauer (in Takten)
RECOGNIZING	OK	71.500.000	3.100.000
RECOGNIZING	OK now (OK, jetzt)	71.500.000	10.300.000
RECOGNIZING	OK, now let's (OK, jetzt lassen Sie uns)	71.500.000	14.700.000
RECOGNIZING	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	18.500.000
RECOGNIZED	OK, now let's get started. (OK, jetzt lassen Sie uns loslegen)	71.500.000	20.600.000

Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).

Abrufen von Spracherkennungsergebnissen

Sprachsynchronisierung

Erkennen von Offset und Dauer

Erkannter Offset und erkannte Dauer

Beispiel für Offset und Dauer

Sprachsynchronisierung

Erkennen von Offset und Dauer

Erkannter Offset und erkannte Dauer

Beispiel für Offset und Dauer

Sprachsynchronisierung

Erkennen von Offset und Dauer

Erkannter Offset und erkannte Dauer

Beispiel für Offset und Dauer

Sprachsynchronisierung

Erkennen von Offset und Dauer

Erkannter Offset und erkannte Dauer

Beispiel für Offset und Dauer

Sprachsynchronisierung

Erkennen von Offset und Dauer

Erkannter Offset und erkannte Dauer

Beispiel für Offset und Dauer

Sprachsynchronisierung

Erkennen von Offset und Dauer

Erkannter Offset und erkannte Dauer

Beispiel für Offset und Dauer

Sprachsynchronisierung

Erkennen von Offset und Dauer

Erkannter Offset und erkannte Dauer

Beispiel für Offset und Dauer

Sprachsynchronisierung

Erkennen von Offset und Dauer

Erkannter Offset und erkannte Dauer

Beispiel für Offset und Dauer

Sprachsynchronisierung

Erkennen von Offset und Dauer

Beispiel für Offset und Dauer

Nächste Schritte

Zusätzliche Ressourcen