Formação
Módulo
Adicionar serviços de IA do Azure ao seu projeto de realidade mista - Training
Este curso explora o uso dos serviços de fala do Azure integrando-os a um aplicativo hololens2. Você também pode implantar seu projeto em um HoloLens.
Este browser já não é suportado.
Atualize para o Microsoft Edge para tirar partido das mais recentes funcionalidades, atualizações de segurança e de suporte técnico.
Pacote de documentação | de referência (NuGet) | Exemplos adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing
evento.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized
evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig
conforme mostrado aqui:
speechConfig.RequestWordLevelTimestamps();
Este trecho de código mostra como obter o deslocamento e a duração de um Recognized
evento.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Pacote de documentação | de referência (NuGet) | Exemplos adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing
evento.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized
evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig
conforme mostrado aqui:
speechConfig->RequestWordLevelTimestamps();
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Pacote de documentação | de referência (Go) | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing
evento.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized
evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig
conforme mostrado aqui:
speechConfig.RequestWordLevelTimestamps();
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Documentação | de referência Exemplos adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing
evento.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized
evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig
conforme mostrado aqui:
speechConfig.requestWordLevelTimestamps();
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Pacote de documentação | de referência (npm) | Exemplos adicionais no código-fonte da Biblioteca GitHub |
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing
evento.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized
evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig
conforme mostrado aqui:
speechConfig.requestWordLevelTimestamps();
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Pacote de documentação | de referência (download) | Exemplos adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized
evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig
conforme mostrado aqui:
[speechConfig requestWordLevelTimestamps];
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Pacote de documentação | de referência (download) | Exemplos adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized
evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig
conforme mostrado aqui:
[speechConfig requestWordLevelTimestamps];
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Pacote de documentação | de referência (PyPi) | Amostras adicionais no GitHub
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing
evento.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized
evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig
conforme mostrado aqui:
speech_config.request_word_level_timestamps()
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.
Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.
O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.
0
(zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.
Você vai querer sincronizar legendas com a faixa de áudio, seja em tempo real ou com uma pré-gravação. Com o Recognizing
evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing
evento vem com uma estimativa textual do discurso reconhecido até agora.
Por exemplo, execute o seguinte comando para obter o deslocamento e a duração da fala reconhecida:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Como o @output.each.detailed
argumento foi definido, a saída inclui os seguintes cabeçalhos de coluna:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
result.json
Na coluna, você pode encontrar detalhes que incluem deslocamento e duração para os Recognizing
eventos e Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Para obter mais informações, consulte as opções de configuração e saída do armazenamento de dados da CLI de fala.
A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing
eventos e Recognized
. No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing
e Recognized
eventos, já que o resultado final pode ser diferente.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | Bem-vindo | 17000000 | 5000000 |
RECONHECENDO | Bem-vindo à | 17000000 | 6400000 |
RECONHECENDO | Bem-vindo à Matemática Aplicada | 17000000 | 13600000 |
RECONHECENDO | Bem-vindo à matemática aplicada | 17000000 | 17200000 |
RECONHECENDO | Bem-vindo ao curso de matemática aplicada | 17000000 | 23700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 2 | 17000000 | 26700000 |
RECONHECENDO | Bem-vindo ao Curso de Matemática Aplicada 201 | 17000000 | 33400000 |
RECONHECIDO | Bem-vindo ao curso de Matemática Aplicada 201. | 17000000 | 34500000 |
A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).
Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.
Evento | Texto | Deslocamento (em ticks) | Duração (em carrapatos) |
---|---|---|---|
RECONHECENDO | OK | 71500000 | 3100000 |
RECONHECENDO | OK agora | 71500000 | 10300000 |
RECONHECENDO | OK agora vamos | 71500000 | 14700000 |
RECONHECENDO | OK agora vamos começar | 71500000 | 18500000 |
RECONHECIDO | OK, agora vamos começar. | 71500000 | 20600000 |
A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).
Formação
Módulo
Adicionar serviços de IA do Azure ao seu projeto de realidade mista - Training
Este curso explora o uso dos serviços de fala do Azure integrando-os a um aplicativo hololens2. Você também pode implantar seu projeto em um HoloLens.
Documentação
Guia de início rápido de diarização em tempo real - Serviço de fala - Azure AI services
Neste início rápido, você converte fala em texto continuamente a partir de um arquivo. O serviço de Fala transcreve o discurso e identifica um ou mais oradores.
Como reconhecer a fala - Serviço de fala - Azure AI services
Saiba como converter fala em texto, incluindo construção de objetos, formatos de entrada de áudio suportados e opções de configuração para reconhecimento de fala.
Guia de início rápido de fala para texto - Azure AI services
Neste guia de início rápido, saiba como usar o serviço de fala para conversão de fala em texto em tempo real.