Wyświetlanie formatowania tekstu z zamianą mowy na tekst

Artykuł
01/20/2024

Zamiana mowy na tekst oferuje tablicę funkcji formatowania w celu zapewnienia, że transkrypcja tekstu jest jasna i czytelna. Zapoznaj się z poniższymi sekcjami, aby zapoznać się z omówieniem sposobu użycia poszczególnych funkcji w celu poprawy ogólnej przejrzystości końcowych danych wyjściowych tekstu.

ITN

Inverse Text Normalization (ITN) to proces, który konwertuje słowa mówione na ich pisany formularz. Na przykład słowo mówione "cztery" jest konwertowane na zapisany formularz "4". Usługa zamiany mowy na tekst kończy ten proces i nie można jej skonfigurować. Niektóre z obsługiwanych formatów tekstu obejmują daty, godziny, liczby dziesiętne, waluty, adresy, wiadomości e-mail i numery telefonów. Możesz mówić naturalnie, a usługa formatuje tekst zgodnie z oczekiwaniami. W poniższej tabeli przedstawiono reguły ITN stosowane do danych wyjściowych tekstu.

Rozpoznana mowa	Tekst wyświetlany
`that will cost nine hundred dollars`	`That will cost $900.`
`my phone number is one eight hundred, four five six, eight nine ten`	`My phone number is 1-800-456-8910.`
`the time is six forty five p m`	`The time is 6:45 PM.`
`I live on thirty five lexington avenue`	`I live on 35 Lexington Ave.`
`the answer is six point five`	`The answer is 6.5.`
`send it to support at help dot com`	`Send it to support@help.com.`

Wielkie litery

Modele zamiany mowy na tekst rozpoznają wyrazy, które powinny być wielkich liter, aby zwiększyć czytelność, dokładność i gramatykę. Na przykład usługa rozpoznawania mowy automatycznie wykorzystuje odpowiednie rzeczowniki i wyrazy na początku zdania. W tej tabeli przedstawiono kilka przykładów.

Rozpoznana mowa	Tekst wyświetlany
`i got an x l t shirt`	`I got an XL t-shirt.`
`my name is jennifer smith`	`My name is Jennifer Smith.`
`i want to visit new york city`	`I want to visit New York City.`

Usuwanie nadmiarowości

Mówiąc, często zdarza się, że ktoś się zacina, duplikuje słowa i mówi wyrazy wypełniacza, takie jak "uhm" lub "uh". Zamiana mowy na tekst może rozpoznawać takie nadmiary i usuwać je z tekstu wyświetlanego. Usuwanie nadmiarowości jest doskonałe do transkrypcji nieskrypowanych mowy na żywo w celu późniejszego odczytania ich z powrotem. W tej tabeli przedstawiono kilka przykładów.

Rozpoznana mowa	Tekst wyświetlany
`i uh said that we can go to the uhmm movies`	`I said that we can go to the movies.`
`its its not that big of uhm a deal`	`It's not that big of a deal.`
`umm i think tomorrow should work`	`I think tomorrow should work.`

Znaki interpunkcyjne

Zamiana mowy na tekst automatycznie przerywa tekst w celu zwiększenia przejrzystości. Interpunkcja jest przydatna do odczytywania transkrypcji rozmów lub konwersacji. W tej tabeli przedstawiono kilka przykładów.

Rozpoznana mowa	Tekst wyświetlany
`how are you`	`How are you?`
`we can go to the mall park or beach`	`We can go to the mall, park, or beach.`

Gdy używasz mowy do tekstu z ciągłym rozpoznawaniem, możesz skonfigurować usługę Rozpoznawanie mowy tak, aby rozpoznawała jawne znaki interpunkcyjne. Następnie możesz mówić na głos interpunkcyjny, aby tekst był bardziej czytelny. Jest to szczególnie przydatne w sytuacji, w której chcesz użyć złożonej interpunkcji bez konieczności scalania jej później. W tej tabeli przedstawiono kilka przykładów.

Rozpoznana mowa	Tekst wyświetlany
`they entered the room dot dot dot`	`They entered the room...`
`i heart emoji you period`	`I <3 you.`
`the options are apple forward slash banana forward slash orange period`	`The options are apple/banana/orange.`
`are you sure question mark`	`Are you sure?`

Użyj zestawu SPEECH SDK, aby włączyć tryb dyktowania, gdy używasz mowy do tekstu z ciągłym rozpoznawaniem. Ten tryb powoduje, że wystąpienie konfiguracji mowy interpretuje opisy słów struktur zdań, takich jak interpunkcja.

speechConfig.EnableDictation();

speechConfig->EnableDictation();

speechConfig.EnableDictation()

speechConfig.enableDictation();

speechConfig.enableDictation();

[self.speechConfig enableDictation];

self.speechConfig!.enableDictation()

speech_config.enable_dictation()

Filtr wulgaryzmów

Możesz określić, czy chcesz maskować, usuwać lub pokazywać wulgaryzmy w ostatnim transkrypcji tekstu. Maskowanie zastępuje wulgarne wyrazy gwiazdką (*) znakami, dzięki czemu można zachować oryginalną tonację tekstu przy jednoczesnym dokonaniu bardziej odpowiedniego dla niektórych sytuacji

Uwaga

Firma Microsoft zastrzega sobie również prawo do maskowania lub usuwania wszelkich słów uznanych za nieodpowiednie. Takie wyrazy nie będą zwracane przez usługę rozpoznawania mowy, niezależnie od tego, czy włączono filtrowanie wulgaryzmów.

Opcje filtru wulgaryzmów to:

Masked: zastępuje litery w wulgarnych słowach gwiazdką (*) znakami. Maskowane jest opcją domyślną.
Raw: dołącz wulgarne słowa dosłowne.
Removed: usuwa wulgarne słowa.

Aby na przykład usunąć wulgarne słowa z wyniku rozpoznawania mowy, ustaw filtr wulgaryzmów na, jak Removed pokazano poniżej:

speechConfig.SetProfanity(ProfanityOption.Removed);

speechConfig->SetProfanity(ProfanityOption::Removed);

speechConfig.SetProfanity(common.Removed)

speechConfig.setProfanity(ProfanityOption.Removed);

speechConfig.setProfanity(sdk.ProfanityOption.Removed);

[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];

self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)

speech_config.set_profanity(speechsdk.ProfanityOption.Removed)

spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Filtr wulgaryzmów jest stosowany do wyniku Text i MaskedNormalizedForm właściwości. Filtr wulgaryzmów nie jest stosowany do wyniku LexicalForm i NormalizedForm właściwości. Ani filtr nie jest stosowany do wyników na poziomie słowa.

Wyświetlanie formatowania tekstu z zamianą mowy na tekst

ITN

Wielkie litery

Usuwanie nadmiarowości

Znaki interpunkcyjne

Filtr wulgaryzmów

Następne kroki

Dodatkowe zasoby