Exibir formatação de texto com conversão de fala em texto

Artigo
01/20/2024

A conversão de voz em texto oferece uma série de recursos de formatação para garantir que o texto transcrito seja claro e legível. Consulte as seções abaixo para obter uma visão geral de como cada recurso é usado para melhorar a clareza geral da saída de texto final.

ITN

A Normalização de Texto Inverso (ITN) é um processo que converte palavras faladas em sua forma escrita. Por exemplo, a palavra falada "quatro" é convertida para a forma escrita "4". O serviço de conversão de fala em texto conclui esse processo e não é configurável. Alguns dos formatos de texto suportados incluem datas, horas, decimais, moedas, endereços, e-mails e números de telefone. Você pode falar naturalmente, e o serviço formata o texto conforme o esperado. A tabela a seguir mostra as regras ITN que são aplicadas à saída de texto.

Discurso reconhecido	Texto a apresentar
`that will cost nine hundred dollars`	`That will cost $900.`
`my phone number is one eight hundred, four five six, eight nine ten`	`My phone number is 1-800-456-8910.`
`the time is six forty five p m`	`The time is 6:45 PM.`
`I live on thirty five lexington avenue`	`I live on 35 Lexington Ave.`
`the answer is six point five`	`The answer is 6.5.`
`send it to support at help dot com`	`Send it to support@help.com.`

Uso de maiúsculas/minúsculas

Os modelos de fala para texto reconhecem palavras que devem ser maiúsculas para melhorar a legibilidade, a precisão e a gramática. Por exemplo, o serviço de Fala coloca automaticamente em maiúsculas os nomes próprios e as palavras no início de uma frase. Alguns exemplos são mostrados nesta tabela.

Discurso reconhecido	Texto a apresentar
`i got an x l t shirt`	`I got an XL t-shirt.`
`my name is jennifer smith`	`My name is Jennifer Smith.`
`i want to visit new york city`	`I want to visit New York City.`

Remoção de disfluência

Ao falar, é comum alguém gaguejar, duplicar palavras e dizer palavras de preenchimento como "uhm" ou "uh". A conversão de fala em texto pode reconhecer essas disfluências e removê-las do texto de exibição. A remoção da disfluência é ótima para transcrever discursos ao vivo sem script para lê-los mais tarde. Alguns exemplos são mostrados nesta tabela.

Discurso reconhecido	Texto a apresentar
`i uh said that we can go to the uhmm movies`	`I said that we can go to the movies.`
`its its not that big of uhm a deal`	`It's not that big of a deal.`
`umm i think tomorrow should work`	`I think tomorrow should work.`

Pontuação

A conversão de voz em texto pontua automaticamente o texto para melhorar a clareza. A pontuação é útil para ler transcrições de chamadas ou conversas. Alguns exemplos são mostrados nesta tabela.

Discurso reconhecido	Texto a apresentar
`how are you`	`How are you?`
`we can go to the mall park or beach`	`We can go to the mall, park, or beach.`

Quando estiver a utilizar a conversão de voz em texto com reconhecimento contínuo, pode configurar o serviço de Voz para reconhecer sinais de pontuação explícitos. Em seguida, você pode falar pontuação em voz alta para tornar seu texto mais legível. Isso é especialmente útil em uma situação em que você deseja usar pontuação complexa sem ter que mesclá-la mais tarde. Alguns exemplos são mostrados nesta tabela.

Discurso reconhecido	Texto a apresentar
`they entered the room dot dot dot`	`They entered the room...`
`i heart emoji you period`	`I <3 you.`
`the options are apple forward slash banana forward slash orange period`	`The options are apple/banana/orange.`
`are you sure question mark`	`Are you sure?`

Use o SDK de fala para habilitar o modo de ditado quando estiver usando fala para texto com reconhecimento contínuo. Esse modo faz com que a instância de configuração de fala interprete descrições de palavras de estruturas de frases, como pontuação.

speechConfig.EnableDictation();

speechConfig->EnableDictation();

speechConfig.EnableDictation()

speechConfig.enableDictation();

speechConfig.enableDictation();

[self.speechConfig enableDictation];

self.speechConfig!.enableDictation()

speech_config.enable_dictation()

Filtro de palavrões

Você pode especificar se deseja mascarar, remover ou mostrar palavrões no texto final transcrito. O mascaramento substitui palavras profanas por caracteres asterisco (*) para que você possa manter o sentimento original do seu texto, tornando-o mais apropriado para certas situações

Nota

A Microsoft também se reserva o direito de mascarar ou remover qualquer palavra que seja considerada inadequada. Essas palavras não serão devolvidas pelo serviço de Fala, independentemente de você ter ativado ou não a filtragem de palavrões.

As opções de filtro de palavrões são:

Masked: Substitui letras em palavras profanas por caracteres asterisco (*). Mascarado é a opção padrão.
Raw: Inclua literalmente as palavras profanas.
Removed: Remove palavras profanas.

Por exemplo, para remover palavras profanas do resultado do reconhecimento de fala, defina o filtro de palavrões como Removed mostrado aqui:

speechConfig.SetProfanity(ProfanityOption.Removed);

speechConfig->SetProfanity(ProfanityOption::Removed);

speechConfig.SetProfanity(common.Removed)

speechConfig.setProfanity(ProfanityOption.Removed);

speechConfig.setProfanity(sdk.ProfanityOption.Removed);

[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];

self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)

speech_config.set_profanity(speechsdk.ProfanityOption.Removed)

spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

O filtro de palavrões é aplicado ao resultado Text e MaskedNormalizedForm às propriedades. O filtro de palavrões não é aplicado ao resultado LexicalForm e NormalizedForm às propriedades. O filtro também não é aplicado aos resultados de nível de palavra.

Exibir formatação de texto com conversão de fala em texto

ITN

Uso de maiúsculas/minúsculas

Remoção de disfluência

Pontuação

Filtro de palavrões

Próximos passos

Recursos adicionais