Megosztás a következőn keresztül:


Szövegformázás megjelenítése beszédfelolvasással

A szövegfelolvasás számos formázási funkciót kínál annak érdekében, hogy az átírt szöveg egyértelmű és olvasható legyen. Az alábbi szakaszokban áttekintheti, hogyan használják az egyes funkciókat a végleges szöveg kimenetének általános érthetőségének javítása érdekében.

ITN

Az inverz szöveg normalizálása (ITN) egy olyan folyamat, amely a beszélt szavakat írási formává alakítja. A "négy" kimondott szó például "4" írott formára lesz konvertálva. A szövegfelolvasási szolgáltatás befejezi ezt a folyamatot, és nem konfigurálható. A támogatott szövegformátumok közé tartoznak a dátumok, időpontok, tizedesjegyek, pénznemek, címek, e-mailek és telefonszámok. Természetesen beszélhet, és a szolgáltatás a várt módon formáz szövegeket. Az alábbi táblázat a szövegkimenetre alkalmazott ITN-szabályokat mutatja be.

Felismert beszéd Szöveg megjelenítése
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Nagybetűs

A beszéd-szövegmodellek felismerik azokat a szavakat, amelyeket nagybetűvel kell megadni az olvashatóság, a pontosság és a nyelvhelyesség javítása érdekében. A Speech szolgáltatás például automatikusan nagybetűssé alakítja a megfelelő főneveket és szavakat egy mondat elején. Ebben a táblázatban néhány példa látható.

Felismert beszéd Szöveg megjelenítése
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

A kiáramlás eltávolítása

Amikor beszél, gyakran előfordul, hogy valaki dadog, ismétlődő szavakat, és olyan kitöltő szavakat mond, mint az "uhm" vagy az "uh". A szövegfelolvasás képes felismerni az ilyen hiányosságokat, és eltávolítani őket a megjelenítendő szövegből. A disfluency eltávolítás kiválóan alkalmas élő, íratlan beszédek átírására, hogy később visszaolvashassa őket. Ebben a táblázatban néhány példa látható.

Felismert beszéd Szöveg megjelenítése
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Központozás

A szöveghez való beszéd automatikusan kiszúrja a szöveget a jobb érthetőség érdekében. Az írásjelek hasznosak a visszahívások vagy a beszélgetés átiratainak olvasásához. Ebben a táblázatban néhány példa látható.

Felismert beszéd Szöveg megjelenítése
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Ha folyamatos felismeréssel használja a beszédet a szöveghez, konfigurálhatja a Speech szolgáltatást explicit írásjelek felismerésére. Ezután hangosan kimondhatja az írásjeleket, hogy olvashatóbbá tegye a szöveget. Ez különösen akkor hasznos, ha összetett írásjeleket szeretne használni anélkül, hogy később egyesítenie kellene. Ebben a táblázatban néhány példa látható.

Felismert beszéd Szöveg megjelenítése
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

A Speech SDK használatával engedélyezheti a diktálási módot, ha folyamatos felismeréssel használ beszédet a szöveghez. Ez a mód azt eredményezi, hogy a beszédkonfigurációs példány értelmezi a mondatszerkezetek szóleírásait, például az írásjeleket.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Trágárságszűrő

Megadhatja, hogy elfedje, eltávolítsa vagy megjelenítse-e a trágárságot a végleges átírt szövegben. A maszkolás csillag (*) karakterekre cseréli a profán szavakat, így megtarthatja a szöveg eredeti hangulatát, miközben bizonyos helyzetekben megfelelőbbé teheti azt.

Feljegyzés

A Microsoft fenntartja a jogot arra is, hogy elfedje vagy eltávolítsa a nem megfelelőnek ítélt szavakat. Ezeket a szavakat a Speech szolgáltatás nem adja vissza, függetlenül attól, hogy engedélyezte-e a trágárság szűrését.

A trágársági szűrő beállításai a következők:

  • Masked: A profán szavak betűit csillag (*) karakterekre cseréli. Az alapértelmezett beállítás a maszkolt beállítás.
  • Raw: Adja meg szó szerint a profán szavakat.
  • Removed: Eltávolítja a profán szavakat.

Ha például el szeretné távolítani a profán szavakat a beszédfelismerés eredményéből, állítsa a profanitás szűrőt az itt látható módon Removed :

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

A rendszer a profanitásszűrőt alkalmazza az eredményre Text és MaskedNormalizedForm a tulajdonságokra. A profanitásszűrő nincs alkalmazva az eredményre LexicalForm és NormalizedForm a tulajdonságokra. A szószintű eredményekre alkalmazott szűrő sem.

Következő lépések