Ottenere i risultati del riconoscimento vocale
Documentazione | di riferimentoPacchetto (NuGet) | Esempi aggiuntivi in GitHub
Questa guida pratica illustra come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecording.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, perché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di graduazione rappresenta un centinaio di nanosecondi o un dieci milionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata nei segni di graduazione non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing
evento.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Offset e durata riconosciuti
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized
e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig
, come illustrato di seguito:
speechConfig.RequestWordLevelTimestamps();
Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognized
evento.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata nei tick quando un parlante dice "Benvenuti nel corso matematico applicato 201". In questo esempio, l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto a | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuti nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | Ok, ora andiamo | 71500000 | 14700000 |
RICONOSCERE | Ok, iniziamo subito | 71500000 | 18500000 |
RICONOSCIUTO | Ok, iniziamo. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione | di riferimentoPacchetto (NuGet) | Esempi aggiuntivi in GitHub
Questa guida pratica illustra come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal
0
segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi. - Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. L'offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento include una stima testuale del riconoscimento vocale finora riconosciuto.
Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing
evento.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Offset e durata riconosciuti
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized
e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig
, come illustrato di seguito:
speechConfig->RequestWordLevelTimestamps();
Offset e durata di esempio
La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuto nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione era di 3,45 secondi. È stato riconosciuto da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. Nella tabella seguente viene illustrato il potenziale offset e la durata per un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | OK ora | 71500000 | 14700000 |
RICONOSCERE | OK ora si inizia | 71500000 | 18500000 |
RICONOSCIUTO | OK, ora si inizierà. | 71500000 | 20600000 |
La durata totale della seconda espressione era di 2,06 secondi. È stato riconosciuto a 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 -> - 00:00:09.210).
Documentazione di | riferimentoPacchetto (Go) | Esempi aggiuntivi in GitHub
In questa guida si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal
0
segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi. - Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. L'offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento include una stima testuale del riconoscimento vocale finora riconosciuto.
Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing
evento.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Offset e durata riconosciuti
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized
e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig
, come illustrato di seguito:
speechConfig.RequestWordLevelTimestamps();
Offset e durata di esempio
La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuto nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione era di 3,45 secondi. È stato riconosciuto da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. Nella tabella seguente viene illustrato il potenziale offset e la durata per un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | OK ora | 71500000 | 14700000 |
RICONOSCERE | OK ora si inizia | 71500000 | 18500000 |
RICONOSCIUTO | OK, ora si inizierà. | 71500000 | 20600000 |
La durata totale della seconda espressione era di 2,06 secondi. È stato riconosciuto a 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 -> - 00:00:09.210).
Documentazione di | riferimentoEsempi aggiuntivi in GitHub
In questa guida si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal
0
segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi. - Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing
evento.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Offset e durata riconosciuti
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized
e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig
, come illustrato di seguito:
speechConfig.requestWordLevelTimestamps();
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata nei tick quando un parlante dice "Benvenuti nel corso matematico applicato 201". In questo esempio, l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto a | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuti nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | Ok, ora andiamo | 71500000 | 14700000 |
RICONOSCERE | Ok, iniziamo subito | 71500000 | 18500000 |
RICONOSCIUTO | Ok, iniziamo. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione | di riferimentoPacchetto (npm) | Esempi aggiuntivi in GitHub | Codice sorgente della libreria
Questa guida pratica illustra come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecording.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, perché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di graduazione rappresenta un centinaio di nanosecondi o un dieci milionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata nei segni di graduazione non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento viene fornito con una stima testuale del parlato riconosciuto finora.
Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing
evento.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Offset e durata riconosciuti
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized
e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig
, come illustrato di seguito:
speechConfig.requestWordLevelTimestamps();
Offset e durata di esempio
La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuto nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione era di 3,45 secondi. È stato riconosciuto da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. Nella tabella seguente viene illustrato il potenziale offset e la durata per un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | OK ora | 71500000 | 14700000 |
RICONOSCERE | OK ora si inizia | 71500000 | 18500000 |
RICONOSCIUTO | OK, ora si inizierà. | 71500000 | 20600000 |
La durata totale della seconda espressione era di 2,06 secondi. È stato riconosciuto a 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 -> - 00:00:09.210).
Documentazione di | riferimentoPacchetto (download) | Esempi aggiuntivi in GitHub
In questa guida si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal
0
segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi. - Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. L'offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento include una stima testuale del riconoscimento vocale finora riconosciuto.
Offset e durata riconosciuti
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized
e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig
, come illustrato di seguito:
[speechConfig requestWordLevelTimestamps];
Offset e durata di esempio
La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto a | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuti nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | Ok, ora andiamo | 71500000 | 14700000 |
RICONOSCERE | Ok, iniziamo subito | 71500000 | 18500000 |
RICONOSCIUTO | Ok, iniziamo. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Documentazione | di riferimentoPacchetto (download) | Esempi aggiuntivi in GitHub
Questa guida pratica illustra come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecording.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, perché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di graduazione rappresenta un centinaio di nanosecondi o un dieci milionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata nei segni di graduazione non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento viene fornito con una stima testuale del parlato riconosciuto finora.
Offset e durata riconosciuti
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized
e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig
, come illustrato di seguito:
[speechConfig requestWordLevelTimestamps];
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata nei tick quando un parlante dice "Benvenuti nel corso matematico applicato 201". In questo esempio, l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto a | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuto nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione era di 3,45 secondi. È stato riconosciuto da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. Nella tabella seguente viene illustrato il potenziale offset e la durata per un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | OK ora | 71500000 | 14700000 |
RICONOSCERE | OK ora si inizia | 71500000 | 18500000 |
RICONOSCIUTO | OK, ora si inizierà. | 71500000 | 20600000 |
La durata totale della seconda espressione era di 2,06 secondi. È stato riconosciuto a 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 -> - 00:00:09.210).
Documentazione di | riferimentoPacchetto (PyPi) | Esempi aggiuntivi in GitHub
In questa guida si apprenderà come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordazione.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire dal
0
segno di spunta (zero), associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia quando si avvia il riconoscimento, poiché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di spunta rappresenta un centinaio di nanosecondi o un dieci milioni di secondi. - Durata: durata dell'espressione riconosciuta. La durata dei tick non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniscono il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. L'offset e la durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento include una stima testuale del riconoscimento vocale finora riconosciuto.
Questo frammento di codice illustra come ottenere l'offset e la durata da un Recognizing
evento.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Offset e durata riconosciuti
Dopo aver riconosciuto un'espressione, è possibile ottenere l'offset e la durata del riconoscimento vocale. Con l'evento è anche possibile ottenere l'offset Recognized
e la durata per parola. Per richiedere l'offset e la durata per parola, è prima necessario impostare la proprietà corrispondente SpeechConfig
, come illustrato di seguito:
speech_config.request_word_level_timestamps()
Offset e durata di esempio
La tabella seguente mostra la potenziale offset e la durata nei tick quando un relatore dice "Benvenuto nel corso matematica applicata 201". In questo esempio l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuti nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | Ok, ora andiamo | 71500000 | 14700000 |
RICONOSCERE | Ok, iniziamo subito | 71500000 | 18500000 |
RICONOSCIUTO | Ok, iniziamo. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).
Questa guida pratica illustra come usare i risultati del riconoscimento vocale.
Sincronizzazione vocale
È possibile sincronizzare le trascrizioni con una traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecording.
Il servizio Voce restituisce l'offset e la durata del riconoscimento vocale.
- Offset: offset nel flusso audio riconosciuto, espresso come durata. L'offset viene misurato in tick, a partire da
0
(zero) tick, associato al primo byte audio elaborato dall'SDK. Ad esempio, l'offset inizia all'avvio del riconoscimento, perché questo avvierà quando l'SDK avvia l'elaborazione del flusso audio. Un segno di graduazione rappresenta un centinaio di nanosecondi o un dieci milionesimo di secondo. - Durata: durata dell'espressione riconosciuta. La durata nei segni di graduazione non include il silenzio finale o iniziale.
La fine di una singola espressione è determinata dall'ascolto del silenzio alla fine. Non si otterrà il risultato finale del riconoscimento fino al completamento di un'espressione. Il riconoscimento degli eventi fornirà risultati intermedi soggetti a modifiche durante l'elaborazione di un flusso audio. Gli eventi riconosciuti forniranno il testo trascritto finale una volta completata l'elaborazione di un'espressione.
Riconoscimento dell'offset e della durata
È consigliabile sincronizzare le didascalie con la traccia audio, indipendentemente dal fatto che venga eseguita in tempo reale o con una prerecordatura. Con l'evento è possibile ottenere l'offset Recognizing
e la durata del riconoscimento vocale. Offset e durata per parola non sono disponibili mentre il riconoscimento è in corso. Ogni Recognizing
evento viene fornito con una stima testuale del parlato riconosciuto finora.
Ad esempio, eseguire il comando seguente per ottenere l'offset e la durata del riconoscimento vocale:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Poiché l'argomento è stato impostato, l'output @output.each.detailed
include le intestazioni di colonna seguenti:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
result.json
Nella colonna sono disponibili dettagli che includono offset e durata per gli Recognizing
eventi e Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Per altre informazioni, vedere le opzioni di configurazione e output dell'archivio dati dell'interfaccia della riga di comando di Voce.
Offset e durata di esempio
La tabella seguente mostra il potenziale offset e la durata nei tick quando un parlante dice "Benvenuti nel corso matematico applicato 201". In questo esempio, l'offset non cambia in tutti gli Recognizing
eventi e Recognized
. Tuttavia, non basarsi sull'offset per rimanere invariato tra gli Recognizing
eventi e Recognized
, poiché il risultato finale potrebbe essere diverso.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | introduzione | 17000000 | 5000000 |
RICONOSCERE | benvenuto a | 17000000 | 6400000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 13600000 |
RICONOSCERE | benvenuti alla matematica applicata | 17000000 | 17200000 |
RICONOSCERE | benvenuti al corso di matematica applicata | 17000000 | 23700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 2 | 17000000 | 26700000 |
RICONOSCERE | benvenuti al corso di matematica applicata 201 | 17000000 | 33400000 |
RICONOSCIUTO | Benvenuti nel corso matematico applicato 201. | 17000000 | 34500000 |
La durata totale della prima espressione è di 3,45 secondi. È stato riconosciuto all'offset da 1,7 a 5,15 secondi dall'inizio del flusso audio riconosciuto (00:00:01.700 --> 00:00:05.150).
Se l'altoparlante continua a dire "Iniziamo", viene calcolato un nuovo offset dall'inizio del flusso audio riconosciuto, all'inizio della nuova espressione. La tabella seguente illustra il potenziale offset e la durata di un'espressione avviata due secondi dopo la fine dell'espressione precedente.
Evento | Testo | Offset (in tick) | Durata (in tick) |
---|---|---|---|
RICONOSCERE | OK | 71500000 | 3100000 |
RICONOSCERE | OK ora | 71500000 | 10300000 |
RICONOSCERE | Ok, ora andiamo | 71500000 | 14700000 |
RICONOSCERE | Ok, iniziamo subito | 71500000 | 18500000 |
RICONOSCIUTO | Ok, iniziamo. | 71500000 | 20600000 |
La durata totale della seconda espressione è di 2,06 secondi. È stato riconosciuto all'offset da 7,15 a 9,21 secondi dall'inizio del flusso audio riconosciuto (00:00:07.150 --> 00:00:09.210).