Condividi tramite


Visualizzare la formattazione del testo con il riconoscimento vocale

Il riconoscimento vocale offre una gamma di funzionalità di formattazione per garantire che il testo trascritto sia chiaro e leggibile. Vedere le sezioni di seguito viene fornita una panoramica di come usare queste funzionalità per migliorare la chiarezza complessiva dell'output di testo finale.

Normalizzazione del testo inversa

La normalizzazione del testo inversa (ITN, Inverse Text Normalization) è un processo che converte le parole pronunciate nella loro forma scritta. Ad esempio, la parola pronunciata "quattro" viene convertita nella forma scritta "4". Il servizio di riconoscimento vocale completa questo processo e non è configurabile. Tra i formati di testo supportati sono inclusi date, ore, decimali, valute, indirizzi postali, indirizzi di posta elettronica e numeri di telefono. È possibile parlare in modo naturale e ottenere testi formattati correttamente tramite il servizio. La tabella seguente illustra le regole di normalizzazione del testo inversa applicate all'output di testo.

Riconoscimento vocale Testo visualizzato
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Uso delle maiuscole

I modelli di riconoscimento vocale riconoscono le parole a cui applicare le maiuscole per migliorare la leggibilità, l'accuratezza e la grammatica. Ad esempio, il servizio Voce scriverà automaticamente in lettere maiuscole sostantivi e parole all'inizio di una frase. In questa tabella vengono mostrati alcuni esempi.

Riconoscimento vocale Testo visualizzato
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Rimozione delle disfluenze

Quando parlano, le persone possono balbettare, duplicare le parole e pronunciare parole superflue come "eh" o "oh". Il riconoscimento vocale può identificare queste disfluenze e rimuoverle dal testo visualizzato. La rimozione delle disfluenze è efficace per trascrivere discorsi improvvisati dal vivo da rileggere in un secondo momento. In questa tabella vengono mostrati alcuni esempi.

Riconoscimento vocale Testo visualizzato
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Punteggiatura

Il riconoscimento vocale aggiunge automaticamente la punteggiatura al testo per migliorarne la chiarezza. La punteggiatura è utile per rileggere trascrizioni di chiamate o conversazioni. In questa tabella vengono mostrati alcuni esempi.

Riconoscimento vocale Testo visualizzato
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Quando si usa il riconoscimento vocale con riconoscimento continuo, è possibile configurare il servizio Voce in modo da riconoscere segni di punteggiatura espliciti. È quindi possibile pronunciare la punteggiatura ad alta voce per rendere il testo più leggibile. Questo è particolarmente utile nei casi in cui si vuole usare punteggiatura complessa senza doverla aggiungere in un secondo momento. In questa tabella vengono mostrati alcuni esempi.

Riconoscimento vocale Testo visualizzato
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Usare Speech SDK per abilitare la modalità dettatura quando si usa il riconoscimento vocale con riconoscimento completo. Questa modalità consente all'istanza di configurazione vocale di interpretare le descrizioni testuali delle strutture della frase, come la punteggiatura.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Filtro per le espressioni volgari

È possibile specificare se schermare, rimuovere o mostrare le espressioni volgari nel testo trascritto finale. Le parole volgari schermate vengono sostituite da caratteri di asterisco (*) in modo da mantenere il tono originale del testo, ma rendendolo più appropriato per determinate situazioni

Nota

Anche Microsoft si riserva il diritto di schermare o rimuovere qualsiasi parola ritenuta inappropriata. Queste parole non vengono restituite dal servizio Voce, indipendentemente dal fatto che sia stato abilitato o meno il filtro per le espressioni volgari.

Le opzioni del filtro per le espressioni volgari sono le seguenti:

  • Masked: sostituisce le lettere delle parole volgari con il carattere di asterisco (*). Masked è l'opzione predefinita.
  • Raw: include le parole volgari testualmente.
  • Removed: rimuove le parole volgari.

Ad esempio, per rimuovere parole volgari dal risultato del riconoscimento vocale, impostare il filtro su Removed, come mostrato di seguito:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Il filtro delle espressioni volgari viene applicato alle proprietà Text e MaskedNormalizedForm dei risultati. Il filtro non viene applicato alle proprietà LexicalForm e NormalizedForm dei risultati, né ai risultati a livello di parola.