Exibir formatação de texto com conversão de fala em texto

A conversão de fala em texto oferece uma matriz de recursos de formatação para garantir que o texto transcrito seja claro e legível. Confira as seções abaixo para obter uma visão geral de como cada recurso é usado para melhorar a clareza geral da saída de texto final.

ITN

A ITN (Normalização de Texto Inversa) é um processo que converte palavras faladas em sua forma escrita. Por exemplo, a palavra falada "quatro" é convertida no formulário escrito "4". O serviço de conversão de fala em texto conclui esse processo e não é configurável. Alguns dos formatos de texto com suporte incluem datas, horas, decimais, moedas, endereços, emails e números de telefone. Você pode falar naturalmente e o serviço formata o texto conforme o esperado. A tabela a seguir mostra as regras de ITN que são aplicadas à saída de texto.

Fala reconhecida Exibir texto
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Uso de maiúsculas

Os modelos de conversão de fala em texto reconhecem palavras que devem ser maiúsculas para melhorar a legibilidade, a precisão e a correção gramatical. Por exemplo, o serviço de Fala coloca em maiúsculas automaticamente substantivos e palavras adequados no início de uma frase. Alguns exemplos são mostrados nesta tabela.

Fala reconhecida Exibir texto
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Remoção de disfluências

Ao falar, é comum alguém gaguejar, duplicar palavras e dizer palavras de preenchimento como "hmm" ou "uh". A conversão de fala em texto pode reconhecer essas disfluências e removê-las do texto de exibição. A remoção de disfluência é ótima para transcrever discursos sem script para lê-los mais tarde. Alguns exemplos são mostrados nesta tabela.

Fala reconhecida Exibir texto
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Pontuação

A conversão de fala em texto pontua automaticamente seu texto para melhorar a clareza. A pontuação é útil para ler transcrições de chamadas ou de conversas. Alguns exemplos são mostrados nesta tabela.

Fala reconhecida Exibir texto
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Ao usar conversão de fala em texto com reconhecimento contínuo, você pode configurar o Serviço Cognitivo do Azure para Fala para reconhecer marcas de pontuação explícitas. Em seguida, você pode falar pontuação em voz alta para tornar seu texto mais legível. Isso é especialmente útil em uma situação em que você deseja usar pontuação complexa sem precisar mesclar mais tarde. Alguns exemplos são mostrados nesta tabela.

Fala reconhecida Exibir texto
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Use o SDK de Fala para habilitar o modo de ditado quando você estiver usando fala em texto com reconhecimento contínuo. Esse modo faz com que a instância de configuração de fala interprete descrições de palavras de estruturas de frase, como pontuação.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Filtro de palavrões

Você pode especificar se quer mascarar, remover ou mostrar profanação no texto transcrito final. O uso de máscaras substitui palavras profanas por asteriscos (*) para que você possa manter o sentimento original do texto, tornando-o mais apropriado para determinadas situações

Observação

A Microsoft também se reserva o direito de mascarar ou remover palavras consideradas inadequadas. Essas palavras não serão retornadas pelo Serviço Cognitivo do Azure para Fala, independentemente de você ter habilitado ou não a filtragem de palavrões.

As opções de filtro de palavrões são:

  • Masked: substitui letras em palavrões por asteriscos (*). O uso de máscara é a opção padrão.
  • Raw: inclui os palavrões literais.
  • Removed: remove palavrões.

Por exemplo, para remover palavrões do resultado do reconhecimento de fala, defina o filtro de palavrões como Removed, conforme mostrado aqui:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

O filtro de palavrões é aplicado às propriedades Text e MaskedNormalizedForm do resultado. O filtro de palavrões não é aplicado às propriedades LexicalForm e NormalizedForm do resultado. Nenhum é o filtro aplicado aos resultados no nível da palavra.

Próximas etapas