音声テキスト変換での表示テキストの書式設定

[アーティクル]
01/18/2024

音声テキスト変換では、文字起こしされたテキストを明確で読みやすくするために、一連の書式設定機能が提供されます。各機能を使用して最終的なテキスト出力の全体的なわかりやすさを向上させる方法の概要については、以下のセクションを参照してください。

ITN

逆テキスト正規化 (ITN) は、音声を記述形式に変換するプロセスです。たとえば、"よん" という音声は、"4" という記述形式に変換されます。音声テキスト変換サービスがこのプロセスを完了し、これは構成できません。サポートされているテキスト形式には、日付、時刻、小数点、通貨、住所、メール、電話番号などがあります。自然に話すことができ、サービスによってテキストが想定どおりに書式設定されます。次の表は、テキスト出力に適用される ITN ルールです。

認識された音声	表示テキスト
`that will cost nine hundred dollars`	`That will cost $900.`
`my phone number is one eight hundred, four five six, eight nine ten`	`My phone number is 1-800-456-8910.`
`the time is six forty five p m`	`The time is 6:45 PM.`
`I live on thirty five lexington avenue`	`I live on 35 Lexington Ave.`
`the answer is six point five`	`The answer is 6.5.`
`send it to support at help dot com`	`Send it to support@help.com.`

[大文字/小文字の設定]

音声テキスト変換モデルは、読みやすさ、正しさ、文法を向上させるために大文字にする必要がある単語を認識します。たとえば、Azure Cognitive Service for Speech サービスは、文の先頭にある固有名詞と単語を自動的に大文字にします。いくつかの例を次の表に示します。

認識された音声	表示テキスト
`i got an x l t shirt`	`I got an XL t-shirt.`
`my name is jennifer smith`	`My name is Jennifer Smith.`
`i want to visit new york city`	`I want to visit New York City.`

不要な言葉の除去

音声には、口ごもりや、単語の重複や、"えーと" や "あー" のようなつなぎ言葉が含まれることがよくあります。音声テキスト変換では、このような不要な言葉を認識し、表示テキストから除去できます。不要な言葉の除去は、台本のない生のスピーチを文字起こしして後で読み直すための優れた機能です。いくつかの例を次の表に示します。

認識された音声	表示テキスト
`i uh said that we can go to the uhmm movies`	`I said that we can go to the movies.`
`its its not that big of uhm a deal`	`It's not that big of a deal.`
`umm i think tomorrow should work`	`I think tomorrow should work.`

句読点

音声テキスト変換は、テキストに自動的に句読点を付けてわかりやすくします。句読点は、通話や会話の文字起こしを後で読むのに便利です。いくつかの例を次の表に示します。

認識された音声	表示テキスト
`how are you`	`How are you?`
`we can go to the mall park or beach`	`We can go to the mall, park, or beach.`

継続的認識で音声テキスト変換を使っている場合は、明示的な句読点を認識するように Azure Cognitive Service for Speech サービスを構成できます。その後、テキストをより読みやすくするために、句読点を声に出して話すことができます。これは、後でマージせずに複雑な句読点を使いたい場合に特に便利です。いくつかの例を次の表に示します。

認識された音声	表示テキスト
`they entered the room dot dot dot`	`They entered the room...`
`i heart emoji you period`	`I <3 you.`
`the options are apple forward slash banana forward slash orange period`	`The options are apple/banana/orange.`
`are you sure question mark`	`Are you sure?`

継続的認識で音声テキスト変換を使っている場合は、Speech SDK を使ってディクテーションモードを有効にします。このモードでは、音声構成インスタンスが、句読点など文構造の単語の表現を解釈します。

speechConfig.EnableDictation();

speechConfig->EnableDictation();

speechConfig.EnableDictation()

speechConfig.enableDictation();

speechConfig.enableDictation();

[self.speechConfig enableDictation];

self.speechConfig!.enableDictation()

speech_config.enable_dictation()

不適切表現フィルター

最終的に文字起こしされたテキストで不適切な表現をマスク、削除、または表示するかどうかを指定できます。マスクは、不適切な単語をアスタリスク (*) 文字に置き換え、特定の状況にいっそう適切にしながら、テキストの元のセンチメントを維持できるようにします。

注意

Microsoft も、不適切と見なされる単語をマスクまたは削除する権利を持っています。そのような単語は、不適切表現フィルター処理が有効かどうかにかかわらず、音声サービスから返されません。

不適切表現フィルターのオプションは次のとおりです。

Masked: 不適切な言葉の文字を、アスタリスク (*) 文字に置き換えます。 [マスク表示] が既定のオプションです。
Raw: 不適切な言葉をそのとおりに含めます。
Removed:不適切な言葉を削除します。

たとえば、音声認識結果から不適切な言葉を削除するには、次のように不適切表現フィルターを Removed に設定します。

speechConfig.SetProfanity(ProfanityOption.Removed);

speechConfig->SetProfanity(ProfanityOption::Removed);

speechConfig.SetProfanity(common.Removed)

speechConfig.setProfanity(ProfanityOption.Removed);

speechConfig.setProfanity(sdk.ProfanityOption.Removed);

[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];

self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)

speech_config.set_profanity(speechsdk.ProfanityOption.Removed)

spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

不適切表現フィルターが、結果の Text および MaskedNormalizedForm プロパティに適用されます。結果の LexicalForm および NormalizedForm プロパティには、不適切表現フィルターは適用されません。どちらのフィルターも単語レベルの結果には適用されません。

音声テキスト変換での表示テキストの書式設定

ITN

[大文字/小文字の設定]

不要な言葉の除去

句読点

不適切表現フィルター

次のステップ

その他のリソース