Tekstopmaak weergeven met spraak-naar-tekst

Spraak-naar-tekst biedt een matrix met opmaakfuncties om ervoor te zorgen dat de getranscribeerde tekst duidelijk en leesbaar is. Zie de onderstaande secties voor een overzicht van hoe elke functie wordt gebruikt om de algehele duidelijkheid van de uiteindelijke tekstuitvoer te verbeteren.

ITN

Inverse Tekstnormalisatie (ITN) is een proces waarmee gesproken woorden worden omgezet in hun geschreven vorm. Het gesproken woord 'vier' wordt bijvoorbeeld geconverteerd naar het geschreven formulier '4'. De spraak-naar-tekstservice voltooit dit proces en kan niet worden geconfigureerd. Sommige van de ondersteunde tekstindelingen zijn datums, tijden, decimalen, valuta's, adressen, e-mailberichten en telefoonnummers. U kunt natuurlijk spreken en de service formatteert tekst zoals verwacht. In de volgende tabel ziet u de ITN-regels die worden toegepast op de tekstuitvoer.

Herkende spraak Weergavetekst
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Hoofdlettergebruik

Spraak-naar-tekstmodellen herkennen woorden die in hoofdletters moeten worden geplaatst om de leesbaarheid, nauwkeurigheid en grammatica te verbeteren. De Speech-service hoofdlettert bijvoorbeeld automatisch de juiste zelfstandige naamwoorden en woorden aan het begin van een zin. In deze tabel worden enkele voorbeelden weergegeven.

Herkende spraak Weergavetekst
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Verwijdering van onfluency

Wanneer u spreekt, is het gebruikelijk dat iemand woorden stuttert, woorden dupliceerde en opvulwoorden zegt, zoals 'uhm' of 'uh'. Spraak-naar-tekst kan dergelijke onfluencies herkennen en verwijderen uit de weergavetekst. Het verwijderen van onvloeiing is ideaal voor het transscriberen van niet-beschrijvende spraak om ze later terug te lezen. In deze tabel worden enkele voorbeelden weergegeven.

Herkende spraak Weergavetekst
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Interpunctie

Spraak-naar-tekst interpunceert uw tekst automatisch om de duidelijkheid te verbeteren. Interpunctie is handig voor het lezen van gesprekken of gesprektranscripties. In deze tabel worden enkele voorbeelden weergegeven.

Herkende spraak Weergavetekst
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Wanneer u spraak-naar-tekst gebruikt met continue herkenning, kunt u de Speech-service configureren om expliciete interpunctiemarkeringen te herkennen. Vervolgens kunt u leestekens hardop uitspreken om uw tekst leesbaarder te maken. Dit is vooral handig in een situatie waarin u complexe interpunctie wilt gebruiken zonder deze later samen te voegen. In deze tabel worden enkele voorbeelden weergegeven.

Herkende spraak Weergavetekst
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Gebruik de Speech SDK om de dicteermodus in te schakelen wanneer u spraak-naar-tekst gebruikt met continue herkenning. Deze modus zorgt ervoor dat het exemplaar van de spraakconfiguratie woordbeschrijvingen van zinsstructuren, zoals interpunctie, interpreteert.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Filter voor grof taalgebruik

U kunt opgeven of u grof taalgebruik wilt maskeren, verwijderen of weergeven in de uiteindelijke getranscribeerde tekst. Maskering vervangt scheldwoorden door sterretje (*) tekens, zodat u het oorspronkelijke gevoel van uw tekst kunt behouden terwijl deze geschikter wordt voor bepaalde situaties

Notitie

Microsoft behoudt zich ook het recht voor om een woord te maskeren of te verwijderen dat als ongepast wordt beschouwd. Dergelijke woorden worden niet geretourneerd door de Speech-service, ongeacht of u grof taalgebruik hebt ingeschakeld.

De filteropties voor grof taalgebruik zijn:

  • Masked: Vervangt letters in scheldwoorden door sterretje (*) tekens. Gemaskeerd is de standaardoptie.
  • Raw: Neem de scheldwoorden letterlijk op.
  • Removed: Verwijdert scheldwoorden.

Als u bijvoorbeeld scheldwoorden uit het spraakherkenningsresultaat wilt verwijderen, stelt u het filter Removed voor grof taalgebruik in op zoals hier wordt weergegeven:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Het filter voor grof taalgebruik wordt toegepast op het resultaat Text en MaskedNormalizedForm de eigenschappen. Het filter voor grof taalgebruik wordt niet toegepast op het resultaat LexicalForm en NormalizedForm de eigenschappen. Het filter wordt niet toegepast op de resultaten op woordniveau.

Volgende stappen