Exibir formatação de texto com conversão de fala em texto

A conversão de voz em texto oferece uma série de recursos de formatação para garantir que o texto transcrito seja claro e legível. Consulte as seções abaixo para obter uma visão geral de como cada recurso é usado para melhorar a clareza geral da saída de texto final.

ITN

A Normalização de Texto Inverso (ITN) é um processo que converte palavras faladas em sua forma escrita. Por exemplo, a palavra falada "quatro" é convertida para a forma escrita "4". O serviço de conversão de fala em texto conclui esse processo e não é configurável. Alguns dos formatos de texto suportados incluem datas, horas, decimais, moedas, endereços, e-mails e números de telefone. Você pode falar naturalmente, e o serviço formata o texto conforme o esperado. A tabela a seguir mostra as regras ITN que são aplicadas à saída de texto.

Discurso reconhecido Texto a apresentar
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Uso de maiúsculas/minúsculas

Os modelos de fala para texto reconhecem palavras que devem ser maiúsculas para melhorar a legibilidade, a precisão e a gramática. Por exemplo, o serviço de Fala coloca automaticamente em maiúsculas os nomes próprios e as palavras no início de uma frase. Alguns exemplos são mostrados nesta tabela.

Discurso reconhecido Texto a apresentar
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Remoção de disfluência

Ao falar, é comum alguém gaguejar, duplicar palavras e dizer palavras de preenchimento como "uhm" ou "uh". A conversão de fala em texto pode reconhecer essas disfluências e removê-las do texto de exibição. A remoção da disfluência é ótima para transcrever discursos ao vivo sem script para lê-los mais tarde. Alguns exemplos são mostrados nesta tabela.

Discurso reconhecido Texto a apresentar
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Pontuação

A conversão de voz em texto pontua automaticamente o texto para melhorar a clareza. A pontuação é útil para ler transcrições de chamadas ou conversas. Alguns exemplos são mostrados nesta tabela.

Discurso reconhecido Texto a apresentar
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Quando estiver a utilizar a conversão de voz em texto com reconhecimento contínuo, pode configurar o serviço de Voz para reconhecer sinais de pontuação explícitos. Em seguida, você pode falar pontuação em voz alta para tornar seu texto mais legível. Isso é especialmente útil em uma situação em que você deseja usar pontuação complexa sem ter que mesclá-la mais tarde. Alguns exemplos são mostrados nesta tabela.

Discurso reconhecido Texto a apresentar
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Use o SDK de fala para habilitar o modo de ditado quando estiver usando fala para texto com reconhecimento contínuo. Esse modo faz com que a instância de configuração de fala interprete descrições de palavras de estruturas de frases, como pontuação.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Filtro de palavrões

Você pode especificar se deseja mascarar, remover ou mostrar palavrões no texto final transcrito. O mascaramento substitui palavras profanas por caracteres asterisco (*) para que você possa manter o sentimento original do seu texto, tornando-o mais apropriado para certas situações

Nota

A Microsoft também se reserva o direito de mascarar ou remover qualquer palavra que seja considerada inadequada. Essas palavras não serão devolvidas pelo serviço de Fala, independentemente de você ter ativado ou não a filtragem de palavrões.

As opções de filtro de palavrões são:

  • Masked: Substitui letras em palavras profanas por caracteres asterisco (*). Mascarado é a opção padrão.
  • Raw: Inclua literalmente as palavras profanas.
  • Removed: Remove palavras profanas.

Por exemplo, para remover palavras profanas do resultado do reconhecimento de fala, defina o filtro de palavrões como Removed mostrado aqui:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

O filtro de palavrões é aplicado ao resultado Text e MaskedNormalizedForm às propriedades. O filtro de palavrões não é aplicado ao resultado LexicalForm e NormalizedForm às propriedades. O filtro também não é aplicado aos resultados de nível de palavra.

Próximos passos