Exibir formatação de texto com conversão de fala em texto
A conversão de fala em texto oferece uma matriz de recursos de formatação para garantir que o texto transcrito seja claro e legível. Confira as seções abaixo para obter uma visão geral de como cada recurso é usado para melhorar a clareza geral da saída de texto final.
ITN
A ITN (Normalização de Texto Inversa) é um processo que converte palavras faladas em sua forma escrita. Por exemplo, a palavra falada "quatro" é convertida no formulário escrito "4". O serviço de conversão de fala em texto conclui esse processo e não é configurável. Alguns dos formatos de texto com suporte incluem datas, horas, decimais, moedas, endereços, emails e números de telefone. Você pode falar naturalmente e o serviço formata o texto conforme o esperado. A tabela a seguir mostra as regras de ITN que são aplicadas à saída de texto.
Fala reconhecida | Exibir texto |
---|---|
that will cost nine hundred dollars |
That will cost $900. |
my phone number is one eight hundred, four five six, eight nine ten |
My phone number is 1-800-456-8910. |
the time is six forty five p m |
The time is 6:45 PM. |
I live on thirty five lexington avenue |
I live on 35 Lexington Ave. |
the answer is six point five |
The answer is 6.5. |
send it to support at help dot com |
Send it to support@help.com. |
Uso de maiúsculas
Os modelos de conversão de fala em texto reconhecem palavras que devem ser maiúsculas para melhorar a legibilidade, a precisão e a correção gramatical. Por exemplo, o serviço de Fala coloca em maiúsculas automaticamente substantivos e palavras adequados no início de uma frase. Alguns exemplos são mostrados nesta tabela.
Fala reconhecida | Exibir texto |
---|---|
i got an x l t shirt |
I got an XL t-shirt. |
my name is jennifer smith |
My name is Jennifer Smith. |
i want to visit new york city |
I want to visit New York City. |
Remoção de disfluências
Ao falar, é comum alguém gaguejar, duplicar palavras e dizer palavras de preenchimento como "hmm" ou "uh". A conversão de fala em texto pode reconhecer essas disfluências e removê-las do texto de exibição. A remoção de disfluência é ótima para transcrever discursos sem script para lê-los mais tarde. Alguns exemplos são mostrados nesta tabela.
Fala reconhecida | Exibir texto |
---|---|
i uh said that we can go to the uhmm movies |
I said that we can go to the movies. |
its its not that big of uhm a deal |
It's not that big of a deal. |
umm i think tomorrow should work |
I think tomorrow should work. |
Pontuação
A conversão de fala em texto pontua automaticamente seu texto para melhorar a clareza. A pontuação é útil para ler transcrições de chamadas ou de conversas. Alguns exemplos são mostrados nesta tabela.
Fala reconhecida | Exibir texto |
---|---|
how are you |
How are you? |
we can go to the mall park or beach |
We can go to the mall, park, or beach. |
Ao usar conversão de fala em texto com reconhecimento contínuo, você pode configurar o Serviço Cognitivo do Azure para Fala para reconhecer marcas de pontuação explícitas. Em seguida, você pode falar pontuação em voz alta para tornar seu texto mais legível. Isso é especialmente útil em uma situação em que você deseja usar pontuação complexa sem precisar mesclar mais tarde. Alguns exemplos são mostrados nesta tabela.
Fala reconhecida | Exibir texto |
---|---|
they entered the room dot dot dot |
They entered the room... |
i heart emoji you period |
I <3 you. |
the options are apple forward slash banana forward slash orange period |
The options are apple/banana/orange. |
are you sure question mark |
Are you sure? |
Use o SDK de Fala para habilitar o modo de ditado quando você estiver usando fala em texto com reconhecimento contínuo. Esse modo faz com que a instância de configuração de fala interprete descrições de palavras de estruturas de frase, como pontuação.
speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()
Filtro de palavrões
Você pode especificar se quer mascarar, remover ou mostrar profanação no texto transcrito final. O uso de máscaras substitui palavras profanas por asteriscos (*) para que você possa manter o sentimento original do texto, tornando-o mais apropriado para determinadas situações
Observação
A Microsoft também se reserva o direito de mascarar ou remover palavras consideradas inadequadas. Essas palavras não serão retornadas pelo Serviço Cognitivo do Azure para Fala, independentemente de você ter habilitado ou não a filtragem de palavrões.
As opções de filtro de palavrões são:
Masked
: substitui letras em palavrões por asteriscos (*). O uso de máscara é a opção padrão.Raw
: inclui os palavrões literais.Removed
: remove palavrões.
Por exemplo, para remover palavrões do resultado do reconhecimento de fala, defina o filtro de palavrões como Removed
, conforme mostrado aqui:
speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -
O filtro de palavrões é aplicado às propriedades Text
e MaskedNormalizedForm
do resultado. O filtro de palavrões não é aplicado às propriedades LexicalForm
e NormalizedForm
do resultado. Nenhum é o filtro aplicado aos resultados no nível da palavra.