Ottenere i risultati del riconoscimento vocale
Documentazione di riferimento | Pacchetto (NuGet) | Ulteriori esempi in GitHub
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Offset e durata del parlato riconosciuto
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized
è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig
, come mostrato qui di seguito:
speechConfig.RequestWordLevelTimestamps();
Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione di riferimento | Pacchetto (NuGet) | Ulteriori esempi in GitHub
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Offset e durata del parlato riconosciuto
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized
è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig
, come mostrato qui di seguito:
speechConfig->RequestWordLevelTimestamps();
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione di riferimento | Pacchetto (Go) | Ulteriori esempi in GitHub
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Offset e durata del parlato riconosciuto
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized
è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig
, come mostrato qui di seguito:
speechConfig.RequestWordLevelTimestamps();
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
documentazione di riferimento | Esempi aggiuntivi in GitHub
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Offset e durata del parlato riconosciuto
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized
è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig
, come mostrato qui di seguito:
speechConfig.requestWordLevelTimestamps();
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione di riferimento | Pacchetto (npm) | Ulteriori esempi in GitHub | Codice sorgente della libreria
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Offset e durata del parlato riconosciuto
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized
è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig
, come mostrato qui di seguito:
speechConfig.requestWordLevelTimestamps();
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione di riferimento | Pacchetto (download) | Ulteriori esempi in GitHub
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Offset e durata del parlato riconosciuto
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized
è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig
, come mostrato qui di seguito:
[speechConfig requestWordLevelTimestamps];
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione di riferimento | Pacchetto (download) | Ulteriori esempi in GitHub
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Offset e durata del parlato riconosciuto
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized
è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig
, come mostrato qui di seguito:
[speechConfig requestWordLevelTimestamps];
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione di riferimento | Pacchetto (PyPi) | Ulteriori esempi in GitHub
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice mostra come ottenere l'offset e la durata da un evento Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Offset e durata del parlato riconosciuto
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del parlato riconosciuto. Con l'evento Recognized
è anche possibile ottenere l'offset e la durata per parola. Per richiedere l'offset e la durata per parola è necessario impostare innanzitutto la proprietà corrispondente SpeechConfig
, come mostrato qui di seguito:
speech_config.request_word_level_timestamps()
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
In questa guida pratica si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
Sincronizzare le trascrizioni con una traccia audio, sia in tempo reale che con audio preregistrato.
Il servizio Voce restituisce l'offset e la durata del parlato riconosciuto.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associati al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, poiché è quando l'SDK avvia l'elaborazione del flusso audio. Un tick rappresenta cento nanosecondi o un decimilionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata in tick non include il silenzio iniziale o finale.
La fine di una singola espressione è determinata dall'attesa del silenzio alla fine. Si otterrà il risultato finale del riconoscimento solo al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
È opportuno sincronizzare i sottotitoli con la traccia audio, sia in tempo reale che con audio preregistrato. Con l'evento Recognizing
è possibile ottenere l'offset e la durata del parlato riconosciuto. L’offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni evento Recognizing
viene fornito con una stima testuale del parlato riconosciuto finora.
Ad esempio, eseguire il comando seguente per ottenere l'offset e la durata del parlato riconosciuto:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Poiché è stato impostato l'argomento @output.each.detailed
, l'output include le intestazioni di colonna seguenti:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
Nella colonna result.json
sono disponibili dettagli che includono l’offset e la durata degli eventiRecognizing
e Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Per altre informazioni vedere la configurazione dell'archivio dati dell'interfaccia della riga di comando di Voce e le opzioni di output .
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata in tick quando un altoparlante dice "Benvenuti al corso di matematica applicata 201". In questo esempio l'offset non cambia per tutti gli eventi Recognizing
e Recognized
. Tuttavia, non basarsi sul fatto che l'offset rimanga invariato tra gli eventi Recognizing
e Recognized
, poiché il risultato finale potrebbe essere diverso.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | benvenuti | 17000000 | 5000000 |
RICONOSCIMENTO | benvenuti al | 17000000 | 6400000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 13600000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 17200000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCIMENTO | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTI | Benvenuti al corso di matematica applicata 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stata riconosciuta nell'offset compreso tra 1,7 e 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se poi l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto all'inizio della nuova espressione. La tabella seguente mostra un potenziale offset e una durata per un'espressione iniziata due secondi dopo la fine dell'espressione precedente.
Event | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCIMENTO | Ok | 71500000 | 3100000 |
RICONOSCIMENTO | Ecco | 71500000 | 10300000 |
RICONOSCIMENTO | Ecco come | 71500000 | 14700000 |
RICONOSCIMENTO | Ecco come procedere | 71500000 | 18500000 |
RICONOSCIUTI | Ecco come procedere. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stata riconosciuta nell'offset compreso tra 7,15 e 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).