Zobrazení formátování textu pomocí řeči na text

Převod řeči na text nabízí řadu funkcí formátování, aby byl přepisovaný text jasný a čitelný. V následujících částech najdete přehled o tom, jak se jednotlivé funkce používají ke zlepšení celkové srozumitelnosti konečného textového výstupu.

ITN

Inverzní normalizace textu (ITN) je proces, který převádí mluvená slova na jejich napsaný tvar. Například mluvené slovo "čtyři" se převede na napsaný tvar "4". Služba převodu řeči na text tento proces dokončí a není konfigurovatelná. Mezi podporované formáty textu patří kalendářní data, časy, desetinná místa, měny, adresy, e-maily a telefonní čísla. Můžete mluvit přirozeně a služba formátuje text podle očekávání. Následující tabulka ukazuje pravidla ITN, která se použijí na textový výstup.

Rozpoznaná řeč Zobrazovaný text
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Velká písmena

Převod řeči na textové modely rozpoznává slova, která by měla být velkými písmeny, aby se zlepšila čitelnost, přesnost a gramatika. Například služba Speech automaticky vyučuje správná podstatná jména a slova na začátku věty. V této tabulce jsou uvedeny některé příklady.

Rozpoznaná řeč Zobrazovaný text
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Odebrání nefluence

Při mluvení je běžné, že někdo koktá, duplikuje slova a říká výplňová slova jako "uhm" nebo "uh". Řeč na text dokáže takové nesrovnalosti rozpoznat a odebrat je ze zobrazeného textu. Odstranění nepotřebnosti je skvělé pro přepis živé neoznačené řeči, aby je později přečetly. V této tabulce jsou uvedeny některé příklady.

Rozpoznaná řeč Zobrazovaný text
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Interpunkční znaménka

Převod řeči na text automaticky interpunkční znaménou, aby se zlepšila srozumitelnost textu. Interpunkce je užitečná pro čtení zpětného hovoru nebo přepisu konverzace. V této tabulce jsou uvedeny některé příklady.

Rozpoznaná řeč Zobrazovaný text
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Pokud používáte řeč na text s průběžným rozpoznáváním, můžete službu Speech nakonfigurovat tak, aby rozpoznala explicitní interpunkční znaménka. Pak můžete vyslovit interpunkci nahlas, aby byl text čitelnější. To je zvlášť užitečné v situaci, kdy chcete použít složitou interpunkci, aniž byste ji museli později sloučit. V této tabulce jsou uvedeny některé příklady.

Rozpoznaná řeč Zobrazovaný text
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Pomocí sady Speech SDK můžete povolit režim diktování, když používáte řeč na text s průběžným rozpoznáváním. Tento režim způsobí, že instance konfigurace řeči interpretuje popisy vět, jako je interpunkce.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Filtr vulgárních výrazů

V posledním přepisovaném textu můžete určit, jestli se má maskovat, odebírat nebo zobrazovat vulgární výrazy. Maskování nahrazuje vystrčující slova hvězdičkou (*), abyste mohli zachovat původní mínění textu a zároveň zajistit, aby byla vhodnější pro určité situace.

Poznámka:

Společnost Microsoft si také vyhrazuje právo maskovat nebo odebrat všechna slova, která jsou považována za nevhodná. Tato slova nebudou vrácena službou Speech bez ohledu na to, jestli jste povolili filtrování vulgárních výrazů.

Možnosti filtru vulgárních výrazů jsou:

  • Masked: Nahradí písmena vystrčilými znaky hvězdičky (*). Maskované je výchozí možnost.
  • Raw: Zahrňte doslovné slovo.
  • Removed: Odebere vulgární slova.

Pokud například chcete z výsledku rozpoznávání řeči odebrat vulgární slova, nastavte filtr vulgárních výrazů tak Removed , jak je znázorněno tady:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Filtr vulgárních výrazů se použije na výsledek Text a MaskedNormalizedForm vlastnosti. Filtr vulgárních výrazů se na výsledek LexicalForm a NormalizedForm vlastnosti nepoužije. Ani jeden filtr použitý na výsledky na úrovni slova.

Další kroky