Obter resultados de reconhecimento de voz
Documentação de referência | Pacote (NuGet) | Exemplos Adicionais no GitHub
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o desvio para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, começando a partir de
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: Duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado de reconhecimento final até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O desvio e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual do discurso reconhecido até agora.
Este fragmento de código mostra como obter o desvio e a duração de um Recognizing
evento.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Desvio e duração reconhecidos
Assim que uma expressão for reconhecida, pode obter o desvio e a duração da voz reconhecida. Com o Recognized
evento, também pode obter o desvio e a duração por palavra. Para pedir o desvio e a duração por palavra, primeiro tem de definir a propriedade correspondente SpeechConfig
, conforme mostrado aqui:
speechConfig.RequestWordLevelTimestamps();
Este fragmento de código mostra como obter o desvio e a duração de um Recognized
evento.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Desvio e duração de exemplo
A tabela seguinte mostra um potencial desvio e duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não é alterado em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo a | 17000000 | 6400000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática aplicada 201. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido com um desvio de 1,7 a 5,15 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio que está a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o potencial desvio e a duração de uma expressão que começou dois segundos após a expressão anterior terminar.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido com um desvio de 7,15 a 9,21 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:07.150 --> 00:00:09.210).
Documentação de referência | Pacote (NuGet) | Exemplos Adicionais no GitHub
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o desvio para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, começando a partir de
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: Duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado de reconhecimento final até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O desvio e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual do discurso reconhecido até agora.
Este fragmento de código mostra como obter o desvio e a duração de um Recognizing
evento.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Desvio e duração reconhecidos
Assim que uma expressão for reconhecida, pode obter o desvio e a duração da voz reconhecida. Com o Recognized
evento, também pode obter o desvio e a duração por palavra. Para pedir o desvio e a duração por palavra, primeiro tem de definir a propriedade correspondente SpeechConfig
, conforme mostrado aqui:
speechConfig->RequestWordLevelTimestamps();
Desvio e duração de exemplo
A tabela seguinte mostra um potencial desvio e duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não é alterado em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo a | 17000000 | 6400000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática aplicada 201. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido com um desvio de 1,7 a 5,15 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio que está a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o potencial desvio e a duração de uma expressão que começou dois segundos após a expressão anterior terminar.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido com um desvio de 7,15 a 9,21 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:07.150 --> 00:00:09.210).
Documentação de referência | Pacote (Ir) | Exemplos Adicionais no GitHub
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o desvio para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, começando a partir de
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado final do reconhecimento até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual da voz reconhecida até agora.
Este fragmento de código mostra como obter o desvio e a duração de um Recognizing
evento.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Desvio e duração reconhecidos
Depois de uma expressão ser reconhecida, pode obter o desvio e a duração da voz reconhecida. Com o Recognized
evento, também pode obter o desvio e a duração por palavra. Para pedir o desvio e a duração por palavra, primeiro tem de definir a propriedade correspondente SpeechConfig
, conforme mostrado aqui:
speechConfig.RequestWordLevelTimestamps();
Desvio e duração de exemplo
A tabela seguinte mostra o potencial desvio e a duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não muda em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
A RECONHECER | bem-vindo | 17000000 | 5000000 |
A RECONHECER | bem-vindo a | 17000000 | 6400000 |
A RECONHECER | bem-vindo à matemática aplicada | 17000000 | 13600000 |
A RECONHECER | bem-vindo à matemática aplicada | 17000000 | 17200000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática 201 aplicado. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido no desvio de 1,7 a 5,15 segundos desde o início da transmissão de áudio a ser reconhecida (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o deslocamento potencial e a duração de uma expressão que começou dois segundos após o fim da expressão anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
A RECONHECER | OK | 71500000 | 3100000 |
A RECONHECER | OK agora | 71500000 | 10300000 |
A RECONHECER | OK agora vamos | 71500000 | 14700000 |
A RECONHECER | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido no desvio de 7,15 a 9,21 segundos desde o início da transmissão de áudio a ser reconhecida (00:00:07.150 --> 00:00:09.210).
Documentação de referência | Exemplos Adicionais no GitHub
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o deslocamento para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, a partir de
0
(zero) tiques, associados ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado final do reconhecimento até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O desvio e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual do discurso reconhecido até agora.
Este fragmento de código mostra como obter o desvio e a duração de um Recognizing
evento.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Desvio e duração reconhecidos
Assim que uma expressão for reconhecida, pode obter o desvio e a duração da voz reconhecida. Com o Recognized
evento, também pode obter o desvio e a duração por palavra. Para pedir o desvio e a duração por palavra, primeiro tem de definir a propriedade correspondente SpeechConfig
, conforme mostrado aqui:
speechConfig.requestWordLevelTimestamps();
Desvio e duração de exemplo
A tabela seguinte mostra um potencial desvio e duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não é alterado em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo a | 17000000 | 6400000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática aplicada 201. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido com um desvio de 1,7 a 5,15 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio que está a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o potencial desvio e a duração de uma expressão que começou dois segundos após a expressão anterior terminar.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido com um desvio de 7,15 a 9,21 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:07.150 --> 00:00:09.210).
Documentação de referência | Pacote (npm) | Exemplos Adicionais no GitHub | Código fonte da biblioteca
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o desvio para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, começando a partir de
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: Duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado de reconhecimento final até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O desvio e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual do discurso reconhecido até agora.
Este fragmento de código mostra como obter o desvio e a duração de um Recognizing
evento.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Desvio e duração reconhecidos
Assim que uma expressão for reconhecida, pode obter o desvio e a duração da voz reconhecida. Com o Recognized
evento, também pode obter o desvio e a duração por palavra. Para pedir o desvio e a duração por palavra, primeiro tem de definir a propriedade correspondente SpeechConfig
, conforme mostrado aqui:
speechConfig.requestWordLevelTimestamps();
Desvio e duração de exemplo
A tabela seguinte mostra o potencial desvio e a duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não muda em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
A RECONHECER | bem-vindo | 17000000 | 5000000 |
A RECONHECER | bem-vindo a | 17000000 | 6400000 |
A RECONHECER | bem-vindo à matemática aplicada | 17000000 | 13600000 |
A RECONHECER | bem-vindo à matemática aplicada | 17000000 | 17200000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática 201 aplicado. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido no desvio de 1,7 a 5,15 segundos desde o início da transmissão de áudio a ser reconhecida (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o deslocamento potencial e a duração de uma expressão que começou dois segundos após o fim da expressão anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
A RECONHECER | OK | 71500000 | 3100000 |
A RECONHECER | OK agora | 71500000 | 10300000 |
A RECONHECER | OK agora vamos | 71500000 | 14700000 |
A RECONHECER | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido no desvio de 7,15 a 9,21 segundos desde o início da transmissão de áudio a ser reconhecida (00:00:07.150 --> 00:00:09.210).
Documentação de referência | Pacote (Transferir) | Exemplos Adicionais no GitHub
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o deslocamento para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, a partir de
0
(zero) tiques, associados ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado final do reconhecimento até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual da voz reconhecida até agora.
Desvio e duração reconhecidos
Depois de uma expressão ser reconhecida, pode obter o desvio e a duração da voz reconhecida. Com o Recognized
evento, também pode obter o desvio e a duração por palavra. Para pedir o desvio e a duração por palavra, primeiro tem de definir a propriedade correspondente SpeechConfig
, conforme mostrado aqui:
[speechConfig requestWordLevelTimestamps];
Desvio e duração de exemplo
A tabela seguinte mostra o potencial desvio e a duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não muda em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
A RECONHECER | bem-vindo | 17000000 | 5000000 |
A RECONHECER | bem-vindo a | 17000000 | 6400000 |
A RECONHECER | bem-vindo à matemática aplicada | 17000000 | 13600000 |
A RECONHECER | bem-vindo à matemática aplicada | 17000000 | 17200000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
A RECONHECER | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática 201 aplicado. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido no desvio de 1,7 a 5,15 segundos desde o início da transmissão de áudio a ser reconhecida (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o deslocamento potencial e a duração de uma expressão que começou dois segundos após o fim da expressão anterior.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
A RECONHECER | OK | 71500000 | 3100000 |
A RECONHECER | OK agora | 71500000 | 10300000 |
A RECONHECER | OK agora vamos | 71500000 | 14700000 |
A RECONHECER | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido no desvio de 7,15 a 9,21 segundos desde o início da transmissão de áudio a ser reconhecida (00:00:07.150 --> 00:00:09.210).
Documentação de referência | Pacote (Transferir) | Exemplos Adicionais no GitHub
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o deslocamento para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, a partir de
0
(zero) tiques, associados ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado final do reconhecimento até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual da voz reconhecida até agora.
Desvio e duração reconhecidos
Depois de uma expressão ser reconhecida, pode obter o desvio e a duração da voz reconhecida. Com o Recognized
evento, também pode obter o desvio e a duração por palavra. Para pedir o desvio e a duração por palavra, primeiro tem de definir a propriedade correspondente SpeechConfig
, conforme mostrado aqui:
[speechConfig requestWordLevelTimestamps];
Desvio e duração de exemplo
A tabela seguinte mostra o potencial desvio e a duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não muda em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em tiques) | Duração (em tiques) |
---|---|---|---|
A RECONHECER | bem-vindo | 17000000 | 5000000 |
A RECONHECER | bem-vindo a | 17000000 | 6400000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática aplicada 201. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido com um desvio de 1,7 a 5,15 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio que está a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o potencial desvio e a duração de uma expressão que começou dois segundos após a expressão anterior terminar.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido com um desvio de 7,15 a 9,21 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:07.150 --> 00:00:09.210).
Documentação de referência | Pacote (PyPi) | Exemplos Adicionais no GitHub
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o desvio para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, começando a partir de
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: Duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado de reconhecimento final até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O desvio e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual do discurso reconhecido até agora.
Este fragmento de código mostra como obter o desvio e a duração de um Recognizing
evento.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Desvio e duração reconhecidos
Assim que uma expressão for reconhecida, pode obter o desvio e a duração da voz reconhecida. Com o Recognized
evento, também pode obter o desvio e a duração por palavra. Para pedir o desvio e a duração por palavra, primeiro tem de definir a propriedade correspondente SpeechConfig
, conforme mostrado aqui:
speech_config.request_word_level_timestamps()
Desvio e duração de exemplo
A tabela seguinte mostra um potencial desvio e duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não é alterado em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo a | 17000000 | 6400000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática aplicada 201. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido com um desvio de 1,7 a 5,15 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio que está a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o potencial desvio e a duração de uma expressão que começou dois segundos após a expressão anterior terminar.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido com um desvio de 7,15 a 9,21 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:07.150 --> 00:00:09.210).
Neste guia de procedimentos, irá aprender sobre como pode utilizar os resultados do reconhecimento de voz.
Sincronização de voz
Poderá querer sincronizar transcrições com uma faixa de áudio, quer seja efetuada em tempo real ou com uma pré-gravação.
O serviço de Voz devolve o desvio e a duração da voz reconhecida.
-
Desvio: o desvio para o fluxo de áudio que está a ser reconhecido, expresso como duração. O deslocamento é medido em tiques, começando a partir de
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o desvio começa quando inicia o reconhecimento, uma vez que é quando o SDK começa a processar o fluxo de áudio. Um tique representa cem nanossegundos ou um décimo milionésimo de segundo. - Duração: Duração da expressão que está a ser reconhecida. A duração dos tiques não inclui o silêncio à direita ou à esquerda.
O fim de uma única expressão é determinado ao ouvir o silêncio no final. Não obterá o resultado de reconhecimento final até que uma expressão seja concluída. O reconhecimento de eventos fornecerá resultados intermédios sujeitos a alterações enquanto um fluxo de áudio está a ser processado. Os eventos reconhecidos fornecerão o texto transcrito final assim que o processamento de uma expressão for concluído.
Reconhecer o desvio e a duração
Vai querer sincronizar legendas com a faixa de áudio, quer seja feita em tempo real ou com uma pré-gravação. Com o Recognizing
evento, pode obter o desvio e a duração da voz que está a ser reconhecida. O desvio e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em curso. Cada Recognizing
evento inclui uma estimativa textual do discurso reconhecido até agora.
Por exemplo, execute o seguinte comando para obter o desvio e a duração da voz reconhecida:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Uma vez que o @output.each.detailed
argumento foi definido, o resultado inclui os seguintes cabeçalhos de coluna:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
result.json
Na coluna, pode encontrar detalhes que incluem o desvio e a duração dos Recognizing
eventos eRecognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Para obter mais informações, veja as opções de configuração e saída do arquivo de dados da CLI de Voz.
Desvio e duração de exemplo
A tabela seguinte mostra um potencial desvio e duração em carrapatos quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o desvio não é alterado em todos os Recognizing
eventos e Recognized
. No entanto, não dependa do desvio para permanecer o mesmo entre os Recognizing
eventos e Recognized
, uma vez que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | bem-vindo | 17000000 | 5000000 |
RECONHECENDO | bem-vindo a | 17000000 | 6400000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 13600000 |
RECONHECENDO | bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | bem-vindo ao curso de matemática aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática aplicada 201. | 17000000 | 34500000 |
A duração total da primeira expressão foi de 3,45 segundos. Foi reconhecido com um desvio de 1,7 a 5,15 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:01.700 --> 00:00:05.150).
Se o orador continuar a dizer "Vamos começar", é calculado um novo desvio desde o início do fluxo de áudio que está a ser reconhecido até ao início da nova expressão. A tabela seguinte mostra o potencial desvio e a duração de uma expressão que começou dois segundos após a expressão anterior terminar.
Evento | Texto | Deslocamento (em carrapatos) | Duração (em tiques) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | Ok, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda expressão foi de 2,06 segundos. Foi reconhecido com um desvio de 7,15 a 9,21 segundos desde o início do fluxo de áudio a ser reconhecido (00:00:07.150 --> 00:00:09.210).
Passos seguintes
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários