Udostępnij za pośrednictwem


Uzyskiwanie wyników rozpoznawania mowy

Dokumentacja referencyjna Package (NuGet) | Dodatkowe przykłady w witrynie GitHub |

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig.RequestWordLevelTimestamps();

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognized .

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna Package (NuGet) | Dodatkowe przykłady w witrynie GitHub |

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig->RequestWordLevelTimestamps();

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna Package (Go) | Dodatkowe przykłady w witrynie GitHub |

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig.RequestWordLevelTimestamps();

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

| Dokumentacja referencyjna Dodatkowe przykłady w usłudze GitHub

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig.requestWordLevelTimestamps();

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Package (npm) | Dodatkowe przykłady w kodzie źródłowym biblioteki GitHub |

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig.requestWordLevelTimestamps();

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna Package (download) | Dodatkowe przykłady w usłudze GitHub |

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

[speechConfig requestWordLevelTimestamps];

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna Package (download) | Dodatkowe przykłady w usłudze GitHub |

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

[speechConfig requestWordLevelTimestamps];

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Package (PyPi) | Dodatkowe przykłady w witrynie GitHub

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speech_config.request_word_level_timestamps()

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Chcesz zsynchronizować podpisy ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem. Recognizing Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.

Na przykład uruchom następujące polecenie, aby uzyskać przesunięcie i czas trwania rozpoznanej mowy:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

@output.each.detailed Ponieważ argument został ustawiony, dane wyjściowe zawierają następujące nagłówki kolumn:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

W kolumnie result.json można znaleźć szczegółowe informacje, które obejmują przesunięcie i czas trwania dla zdarzeń Recognizing i Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Aby uzyskać więcej informacji, zobacz Opcje konfiguracji i danych wyjściowych magazynu danych interfejsu wiersza polecenia usługi Mowa.

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC mile widziany 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC witamy w matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Text Przesunięcie (w kleszczach) Czas trwania (w znacznikach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK teraz 71500000 14700000
UZNAJĄC Teraz rozpocznijmy pracę 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Następne kroki