Uzyskiwanie wyników rozpoznawania mowy
Dokumentacja referencyjna Package (NuGet) | Dodatkowe przykłady w witrynie GitHub |
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig.RequestWordLevelTimestamps();
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna Package (NuGet) | Dodatkowe przykłady w witrynie GitHub |
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig->RequestWordLevelTimestamps();
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna Package (Go) | Dodatkowe przykłady w witrynie GitHub |
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig.RequestWordLevelTimestamps();
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
| Dokumentacja referencyjna Dodatkowe przykłady w usłudze GitHub
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig.requestWordLevelTimestamps();
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Package (npm) | Dodatkowe przykłady w kodzie źródłowym biblioteki GitHub |
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig.requestWordLevelTimestamps();
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna Package (download) | Dodatkowe przykłady w usłudze GitHub |
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
[speechConfig requestWordLevelTimestamps];
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna Package (download) | Dodatkowe przykłady w usłudze GitHub |
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
[speechConfig requestWordLevelTimestamps];
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Package (PyPi) | Dodatkowe przykłady w witrynie GitHub
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw musisz ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speech_config.request_word_level_timestamps()
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
W tym przewodniku z instrukcjami dowiesz się, jak używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa rozpoznawania mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem audio przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie uzyskasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostatni transkrypcję tekstu po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Chcesz zsynchronizować podpisy ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem. Recognizing
Dzięki zdarzeniu możesz uzyskać przesunięcie i czas trwania rozpoznawania mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie zawiera tekstowe oszacowanie rozpoznanej mowy do tej pory.
Na przykład uruchom następujące polecenie, aby uzyskać przesunięcie i czas trwania rozpoznanej mowy:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
@output.each.detailed
Ponieważ argument został ustawiony, dane wyjściowe zawierają następujące nagłówki kolumn:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
W kolumnie result.json
można znaleźć szczegółowe informacje, które obejmują przesunięcie i czas trwania dla zdarzeń Recognizing
i Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Aby uzyskać więcej informacji, zobacz Opcje konfiguracji i danych wyjściowych magazynu danych interfejsu wiersza polecenia usługi Mowa.
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie Matematyka 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Nie należy jednak polegać na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | mile widziany | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | witamy w matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekund. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Text | Przesunięcie (w kleszczach) | Czas trwania (w znacznikach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz rozpocznijmy pracę | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).