Získání výsledků rozpoznávání řeči

Referenční dokumentace | Balíček (NuGet) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase nebo s přednahrazováním.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun rozpoznaný zvukový stream vyjádřený jako doba trvání. Posun se měří v odškrtávkách od 0 (nuly) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože tehdy sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v škrtech nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání se nezobrazí, dokud se nedokončí promluva. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou konečný přepis textu po dokončení zpracování promluvy.

Rozpoznávání posunu a doby trvání

S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost obsahuje textový odhad dosud rozpoznané řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Rozpoznaný posun a doba trvání

Jakmile je promluva rozpoznána, můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání na slovo. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno tady:

speechConfig.RequestWordLevelTimestamps();

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognized .

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v zaškrtnutí, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun nemění v průběhu Recognizing událostí a Recognized . Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v klíštěcích) Doba trvání (v klíštěcích)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu matematiky 17000000 23700000
UZNÁVAJÍCE vítejte na kurzu matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte na kurzu matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v intervalu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál říká "Pojďme začít", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v klíštěcích) Doba trvání (v klíštěcích)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, teď pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán v intervalu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (NuGet) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Přepisy můžete chtít synchronizovat se zvukovou stopou, ať už se provádí v reálném čase nebo pomocí předběžného záznamu.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Rozpoznaný posun zvukového streamu vyjádřený jako doba trvání. Posun se měří v odtržítcích počínaje 0 (nulovým) zaškrtnutím, které jsou přidružené k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože to znamená, že sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v odškrtávkách nezahrnuje koncové ani počáteční ticho.

Konec jednoho výroku je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání nedostanete, dokud se promluva nedokončí. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou po dokončení zpracování promluvy konečný přepis textu.

Rozpoznání posunu a doby trvání

S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost se dodává s textovým odhadem dosud rozpoznané řeči.

Tento fragment kódu ukazuje, jak z události získat posun a dobu trvání Recognizing .

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání na slovo. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno tady:

speechConfig->RequestWordLevelTimestamps();

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v značek, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun během událostí a Recognized neměníRecognizing. Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítá vás aplikovaná matematika 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 17000000 23700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání prvního výroku byla 3,45 sekundy. Byl rozpoznán v posunu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01,700 -> 00:00:05.150).

Pokud mluvčí bude dál říkat "Pojďme na to", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán při posunu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (Go) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak používat výsledky rozpoznávání řeči.

Synchronizace řeči

Přepisy můžete chtít synchronizovat se zvukovou stopou, ať už se provádí v reálném čase nebo pomocí předběžného záznamu.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Rozpoznaný posun zvukového streamu vyjádřený jako doba trvání. Posun se měří v odtržítcích počínaje 0 (nulovým) zaškrtnutím, které jsou přidružené k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože to znamená, že sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v odškrtávkách nezahrnuje koncové ani počáteční ticho.

Konec jednoho výroku je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání nedostanete, dokud se promluva nedokončí. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou po dokončení zpracování promluvy konečný přepis textu.

Rozpoznání posunu a doby trvání

S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost se dodává s textovým odhadem dosud rozpoznané řeči.

Tento fragment kódu ukazuje, jak z události získat posun a dobu trvání Recognizing .

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání na slovo. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno tady:

speechConfig.RequestWordLevelTimestamps();

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v značek, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun během událostí a Recognized neměníRecognizing. Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítá vás aplikovaná matematika 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 17000000 23700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání prvního výroku byla 3,45 sekundy. Byl rozpoznán v posunu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01,700 -> 00:00:05.150).

Pokud mluvčí bude dál říkat "Pojďme na to", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán při posunu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak používat výsledky rozpoznávání řeči.

Synchronizace řeči

Přepisy můžete chtít synchronizovat se zvukovou stopou, ať už se provádí v reálném čase nebo pomocí předběžného záznamu.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Rozpoznaný posun zvukového streamu vyjádřený jako doba trvání. Posun se měří v odtržítcích počínaje 0 (nulovým) zaškrtnutím, které jsou přidružené k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože to znamená, že sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v odškrtávkách nezahrnuje koncové ani počáteční ticho.

Konec jednoho výroku je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání nedostanete, dokud se promluva nedokončí. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou po dokončení zpracování promluvy konečný přepis textu.

Rozpoznání posunu a doby trvání

S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost obsahuje textový odhad dosud rozpoznané řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Rozpoznaný posun a doba trvání

Jakmile je promluva rozpoznána, můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání na slovo. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno tady:

speechConfig.requestWordLevelTimestamps();

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v zaškrtnutí, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun nemění v průběhu Recognizing událostí a Recognized . Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v klíštěcích) Doba trvání (v klíštěcích)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu matematiky 17000000 23700000
UZNÁVAJÍCE vítejte na kurzu matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte na kurzu matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v intervalu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál říká "Pojďme začít", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v klíštěcích) Doba trvání (v klíštěcích)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, teď pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán v intervalu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (npm) | Další ukázky na GitHubu | Zdrojový kód knihovny

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase nebo s přednahrazováním.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun rozpoznaný zvukový stream vyjádřený jako doba trvání. Posun se měří v odškrtávkách od 0 (nuly) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože tehdy sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v škrtech nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání se nezobrazí, dokud se nedokončí promluva. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou konečný přepis textu po dokončení zpracování promluvy.

Rozpoznávání posunu a doby trvání

S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost obsahuje textový odhad dosud rozpoznané řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Rozpoznaný posun a doba trvání

Jakmile je promluva rozpoznána, můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání na slovo. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno tady:

speechConfig.requestWordLevelTimestamps();

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v značek, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun během událostí a Recognized neměníRecognizing. Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítá vás aplikovaná matematika 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 17000000 23700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání prvního výroku byla 3,45 sekundy. Byl rozpoznán v posunu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01,700 -> 00:00:05.150).

Pokud mluvčí bude dál říkat "Pojďme na to", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán při posunu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (stáhnout) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak používat výsledky rozpoznávání řeči.

Synchronizace řeči

Přepisy můžete chtít synchronizovat se zvukovou stopou, ať už se provádí v reálném čase nebo pomocí předběžného záznamu.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Rozpoznaný posun zvukového streamu vyjádřený jako doba trvání. Posun se měří v odtržítcích počínaje 0 (nulovým) zaškrtnutím, které jsou přidružené k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože to znamená, že sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v odškrtávkách nezahrnuje koncové ani počáteční ticho.

Konec jednoho výroku je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání nedostanete, dokud se promluva nedokončí. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou po dokončení zpracování promluvy konečný přepis textu.

Rozpoznání posunu a doby trvání

S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost se dodává s textovým odhadem dosud rozpoznané řeči.

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání na slovo. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno tady:

[speechConfig requestWordLevelTimestamps];

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v značek, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun během událostí a Recognized neměníRecognizing. Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítá vás aplikovaná matematika 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 17000000 23700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání prvního výroku byla 3,45 sekundy. Byl rozpoznán v posunu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01,700 -> 00:00:05.150).

Pokud mluvčí bude dál říkat "Pojďme na to", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán při posunu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (stáhnout) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak používat výsledky rozpoznávání řeči.

Synchronizace řeči

Přepisy můžete chtít synchronizovat se zvukovou stopou, ať už se provádí v reálném čase nebo pomocí předběžného záznamu.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Rozpoznaný posun zvukového streamu vyjádřený jako doba trvání. Posun se měří v odtržítcích počínaje 0 (nulovým) zaškrtnutím, které jsou přidružené k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože to znamená, že sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v odškrtávkách nezahrnuje koncové ani počáteční ticho.

Konec jednoho výroku je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání nedostanete, dokud se promluva nedokončí. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou po dokončení zpracování promluvy konečný přepis textu.

Rozpoznání posunu a doby trvání

S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost se dodává s textovým odhadem dosud rozpoznané řeči.

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání na slovo. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno tady:

[speechConfig requestWordLevelTimestamps];

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v značek, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun během událostí a Recognized neměníRecognizing. Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu matematiky 17000000 23700000
UZNÁVAJÍCE vítejte na kurzu matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte na kurzu matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v intervalu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál říká "Pojďme začít", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v klíštěcích) Doba trvání (v klíštěcích)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, teď pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán v intervalu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (PyPi) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase nebo s přednahrazováním.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun rozpoznaný zvukový stream vyjádřený jako doba trvání. Posun se měří v odškrtávkách od 0 (nuly) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože tehdy sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v škrtech nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání se nezobrazí, dokud se nedokončí promluva. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou konečný přepis textu po dokončení zpracování promluvy.

Rozpoznávání posunu a doby trvání

S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost obsahuje textový odhad dosud rozpoznané řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Rozpoznaný posun a doba trvání

Jakmile je promluva rozpoznána, můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání na slovo. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno tady:

speech_config.request_word_level_timestamps()

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v zaškrtnutí, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun nemění v průběhu Recognizing událostí a Recognized . Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v klíštěcích) Doba trvání (v klíštěcích)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 17000000 23700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání prvního výroku byla 3,45 sekundy. Byl rozpoznán v posunu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01,700 -> 00:00:05.150).

Pokud mluvčí bude dál říkat "Pojďme na to", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán při posunu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

V tomto návodu se dozvíte, jak používat výsledky rozpoznávání řeči.

Synchronizace řeči

Přepisy můžete chtít synchronizovat se zvukovou stopou, ať už se provádí v reálném čase nebo pomocí předběžného záznamu.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Rozpoznaný posun zvukového streamu vyjádřený jako doba trvání. Posun se měří v odtržítcích počínaje 0 (nulovým) zaškrtnutím, které jsou přidružené k prvnímu zvukovému bajtu zpracovanému sadou SDK. Posun například začíná při zahájení rozpoznávání, protože to znamená, že sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontinu sekundy.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v odškrtávkách nezahrnuje koncové ani počáteční ticho.

Konec jednoho výroku je určen nasloucháním ticha na konci. Konečný výsledek rozpoznávání nedostanete, dokud se promluva nedokončí. Rozpoznávání událostí poskytne průběžné výsledky, které se mohou během zpracování zvukového streamu změnit. Rozpoznané události poskytnou po dokončení zpracování promluvy konečný přepis textu.

Rozpoznání posunu a doby trvání

Titulky budete chtít synchronizovat se zvukovou stopou, ať už se provádí v reálném čase nebo pomocí předběžného záznamu. S událostí Recognizing můžete získat posun a dobu trvání rozpoznávání řeči. Posun a doba trvání na slovo nejsou k dispozici v době, kdy probíhá rozpoznávání. Každá Recognizing událost se dodává s textovým odhadem dosud rozpoznané řeči.

Například spuštěním následujícího příkazu získejte posun a dobu trvání rozpoznané řeči:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Vzhledem k tomu, že @output.each.detailed byl argument nastaven, obsahuje výstup následující záhlaví sloupců:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

Ve sloupci result.json najdete podrobnosti, které zahrnují posun a dobu trvání Recognizing událostí a Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Další informace najdete v tématu Možnosti výstupu a konfigurace úložiště dat rozhraní příkazového řádku služby Speech.

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v značek, když mluvčí řekne "Welcome to Applied Mathematics course 201" (Vítejte v kurzu Aplikované matematiky 201). V tomto příkladu se posun během událostí a Recognized neměníRecognizing. Nespoléhejte ale na to, že posun mezi Recognizing událostmi a Recognized zůstane stejný, protože konečný výsledek se může lišit.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE Vítej 17000000 5000000
UZNÁVAJÍCE vítejte na 17000000 6400000
UZNÁVAJÍCE vítá vás aplikovaná matematika 17000000 13600000
UZNÁVAJÍCE vítejte v aplikované matematice 17000000 17200000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 17000000 23700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 2 17000000 26700000
UZNÁVAJÍCE vítejte v kurzu aplikované matematiky 201 17000000 33400000
ROZPOZNÁN Vítejte v kurzu matematiky 201. 17000000 34500000

Celková doba trvání prvního výroku byla 3,45 sekundy. Byl rozpoznán v posunu 1,7 až 5,15 sekundy od začátku rozpoznání zvukového streamu (00:00:01,700 -> 00:00:05.150).

Pokud mluvčí bude dál říkat "Pojďme na to", vypočítá se nový posun od začátku rozpoznávání zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odsazení) Doba trvání (v odškrtávkách)
UZNÁVAJÍCE OK 71500000 3100000
UZNÁVAJÍCE OK 71500000 10300000
UZNÁVAJÍCE Ok teď pojďme 71500000 14700000
UZNÁVAJÍCE Ok, pojďme začít 71500000 18500000
ROZPOZNÁN Ok, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekundy. Byl rozpoznán při posunu 7,15 až 9,21 sekundy od začátku rozpoznání zvukového streamu (00:00:07.150 --> 00:00:09.210).

Další kroky