Visualizzare la formattazione del testo con riconoscimento vocale

Articolo
01/20/2024

Il riconoscimento vocale offre una matrice di funzionalità di formattazione per garantire che il testo trascritto sia chiaro e leggibile. Vedere le sezioni seguenti per una panoramica del modo in cui ogni funzionalità viene usata per migliorare la chiarezza complessiva dell'output di testo finale.

ITN

La normalizzazione del testo inversa (ITN) è un processo che converte le parole pronunciate nella forma scritta. Ad esempio, la parola parlata "quattro" viene convertita nella forma scritta "4". Il servizio di riconoscimento vocale completa questo processo e non è configurabile. Alcuni formati di testo supportati includono date, ore, decimali, valute, indirizzi, messaggi di posta elettronica e numeri di telefono. È possibile parlare naturalmente e il testo del servizio viene formattato come previsto. La tabella seguente illustra le regole ITN applicate all'output di testo.

Riconoscimento vocale	Testo visualizzato
`that will cost nine hundred dollars`	`That will cost $900.`
`my phone number is one eight hundred, four five six, eight nine ten`	`My phone number is 1-800-456-8910.`
`the time is six forty five p m`	`The time is 6:45 PM.`
`I live on thirty five lexington avenue`	`I live on 35 Lexington Ave.`
`the answer is six point five`	`The answer is 6.5.`
`send it to support at help dot com`	`Send it to support@help.com.`

Uso delle maiuscole

I modelli di riconoscimento vocale riconoscono le parole che devono essere maiuscole per migliorare la leggibilità, l'accuratezza e la grammatica. Ad esempio, il servizio Voce maiuscola automaticamente i nomi e le parole appropriati all'inizio di una frase. Alcuni esempi sono illustrati in questa tabella.

Riconoscimento vocale	Testo visualizzato
`i got an x l t shirt`	`I got an XL t-shirt.`
`my name is jennifer smith`	`My name is Jennifer Smith.`
`i want to visit new york city`	`I want to visit New York City.`

Rimozione della disfluenza

Quando si parla, è comune che qualcuno si imbatta, duplici parole e pronuncia parole riempitrici come "uhm" o "uh". Il riconoscimento vocale può riconoscere tali disfluenze e rimuoverle dal testo visualizzato. La rimozione della disfluency è ideale per trascrivere i discorsi senza trascrizioni live per leggerli in un secondo momento. Alcuni esempi sono illustrati in questa tabella.

Riconoscimento vocale	Testo visualizzato
`i uh said that we can go to the uhmm movies`	`I said that we can go to the movies.`
`its its not that big of uhm a deal`	`It's not that big of a deal.`
`umm i think tomorrow should work`	`I think tomorrow should work.`

Punteggiatura

Il riconoscimento vocale punteggia automaticamente il testo per migliorare la chiarezza. La punteggiatura è utile per leggere le trascrizioni delle chiamate o delle conversazioni. Alcuni esempi sono illustrati in questa tabella.

Riconoscimento vocale	Testo visualizzato
`how are you`	`How are you?`
`we can go to the mall park or beach`	`We can go to the mall, park, or beach.`

Quando si usa il riconoscimento vocale con il riconoscimento continuo, è possibile configurare il servizio Voce per riconoscere segni di punteggiatura espliciti. È quindi possibile pronunciare la punteggiatura ad alta voce per rendere il testo più leggibile. Ciò è particolarmente utile in una situazione in cui si vuole usare punteggiatura complessa senza doverlo unire in un secondo momento. Alcuni esempi sono illustrati in questa tabella.

Riconoscimento vocale	Testo visualizzato
`they entered the room dot dot dot`	`They entered the room...`
`i heart emoji you period`	`I <3 you.`
`the options are apple forward slash banana forward slash orange period`	`The options are apple/banana/orange.`
`are you sure question mark`	`Are you sure?`

Usare Speech SDK per abilitare la modalità dettatura quando si usa la sintesi vocale con il riconoscimento continuo. Questa modalità fa sì che l'istanza di configurazione vocale interpreti le descrizioni delle parole delle strutture delle frasi, ad esempio la punteggiatura.

speechConfig.EnableDictation();

speechConfig->EnableDictation();

speechConfig.EnableDictation()

speechConfig.enableDictation();

speechConfig.enableDictation();

[self.speechConfig enableDictation];

self.speechConfig!.enableDictation()

speech_config.enable_dictation()

Filtro di contenuto volgare

È possibile specificare se mascherare, rimuovere o mostrare contenuto volgare nel testo trascritto finale. La maschera sostituisce le parole volgari con caratteri asterischi (*) in modo da poter mantenere il sentiment originale del testo rendendolo più appropriato per determinate situazioni

Nota

Microsoft si riserva inoltre il diritto di mascherare o rimuovere qualsiasi parola ritenuta inappropriata. Tali parole non verranno restituite dal servizio Voce, indipendentemente dal fatto che sia stato abilitato o meno il filtro per il contenuto volgare.

Le opzioni di filtro per il contenuto volgare sono:

Masked: sostituisce le lettere in parole volgari con caratteri asterischi (*) . Masked è l'opzione predefinita.
Raw: includere le parole volgari verbatim.
Removed: rimuove le parole volgari.

Ad esempio, per rimuovere le parole volgari dal risultato del riconoscimento vocale, impostare il filtro volgarità su Removed come illustrato di seguito:

speechConfig.SetProfanity(ProfanityOption.Removed);

speechConfig->SetProfanity(ProfanityOption::Removed);

speechConfig.SetProfanity(common.Removed)

speechConfig.setProfanity(ProfanityOption.Removed);

speechConfig.setProfanity(sdk.ProfanityOption.Removed);

[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];

self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)

speech_config.set_profanity(speechsdk.ProfanityOption.Removed)

spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Il filtro di contenuto volgare viene applicato ai risultati Text e MaskedNormalizedForm alle proprietà. Il filtro volgarità non viene applicato ai risultati LexicalForm e NormalizedForm alle proprietà. Nessuno dei due è il filtro applicato ai risultati a livello di parola.

Visualizzare la formattazione del testo con riconoscimento vocale

ITN

Uso delle maiuscole

Rimozione della disfluenza

Punteggiatura

Filtro di contenuto volgare

Passaggi successivi

Risorse aggiuntive