次の方法で共有


テキスト読み上げのためのデータ、プライバシー、セキュリティ

Important

英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントのEN-USバージョンを参照してください。

この記事では、Foundry Tools のテキスト読み上げで、Azure Speech によって提供されたデータがどのように処理、使用、格納されるかについて詳しく説明します。 重要な注意点として、お客様はこの技術の使用と実装に責任を負い、音声およびアバターの権利者(該当する場合は、個人の音声統合のユーザーを含む)から、音声、画像、肖像権、およびその他のデータを処理して合成音声やアバターを開発するための必要なすべての許可を取得する必要があります。

また、テキスト読み上げサービスに入力したコンテンツがオーディオ、画像、ビデオ出力を生成するために必要なライセンス、アクセス許可、またはその他の権利を取得する責任もあります。 一部の管轄区域では、生体認証データなどの特定のカテゴリのデータの収集、処理、保存に関する特別な法的要件を課し、合成音声、画像、ビデオの使用をユーザーに開示することを義務付ける場合があります。 テキスト読み上げを使用してあらゆる種類のデータを処理および格納し、必要に応じてカスタム ニューラル音声、個人用音声、またはカスタムアバター モデルを作成する前に、自分に適用されるすべての法的要件に準拠していることを確認する必要があります。

テキスト読み上げサービスで処理されるデータ

  • 音声合成用のテキスト入力。 これは、事前構築済みのニューラル音声のセットを使用してオーディオ出力を生成したり、事前構築済みのニューラル音声またはカスタム ニューラル音声から生成されたオーディオを発声する事前構築済みのアバターを生成したりするために、選択してテキストを音声サービスに送信するテキストです。

テキスト読み上げサービスでデータを処理する方法

あらかじめ構築されたニューラル音声

次の図は、事前構築済みのニューラル音声を使用した合成のためにデータがどのように処理されるかを示しています。 入力はテキストで、出力はオーディオです。 入力テキストも出力オーディオ コンテンツも、Microsoft ログには格納しません。

事前構築済みのニューラル音声データ処理の図。

カスタム ニューラル音声

次の図は、カスタム ニューラル音声のデータがどのように処理されるかを示しています。 この図では、3 種類の処理について説明します。カスタム ニューラル音声モデルトレーニングの前に、Microsoft が音声タレントの記録された受信確認ステートメント ファイルを検証する方法、Microsoft がトレーニング データを使用してカスタム ニューラル音声モデルを作成する方法、テキスト読み上げでテキスト入力を処理してオーディオ コンテンツを生成する方法です。

カスタム ニューラル音声でデータを処理する方法

テキスト読み上げ機能付きアバター

次の図は、事前構築済みのテキスト読み上げアバターを使用した合成のためにデータがどのように処理されるかを示しています。 アバター コンテンツ生成ワークフローには、テキスト アナライザー、TTS オーディオ シンセサイザー、TTS アバター ビデオ シンセサイザーの 3 つのコンポーネントがあります。 アバター ビデオを生成するために、テキストは最初にテキスト アナライザーに入力され、音素シーケンスの形式で出力が提供されます。 次に、TTS オーディオ シンセサイザーは、入力テキストの音響機能を予測し、音声を合成します。 これら 2 つの部分は、テキスト読み上げ音声モデルによって提供されます。 次に、ニューラルテキスト読み上げアバターモデルは、音響特徴を用いてリップシンクの画像を予測し、合成ビデオを生成します。

テキスト音声変換アバターのデータフロー図。

ビデオの翻訳

次の図は、ビデオ翻訳でデータがどのように処理されるかを示しています。 顧客はビデオ翻訳の入力としてビデオをアップロードし、ダイアログオーディオが抽出され、音声からテキストへの音声がテキストコンテンツに文字起こしされます。 その後、テキスト コンテンツがターゲット言語コンテンツに翻訳され、テキスト読み上げ機能を使用して、翻訳されたオーディオがビデオ出力として元のビデオ コンテンツとマージされます。

ビデオ翻訳データ フローの図。

事前構築済みの音声またはアバター用の追加セクションはありません。

データストレージとリテンション期間

音声合成のテキスト入力: Microsoft では、リアルタイム合成テキストを音声 API に提供するテキストは保持または保存しません。 テキスト読み上げ用の Long Audio API を介して提供されるスクリプト、またはテキスト読み上げアバター用のテキストから音声へのアバター バッチ API を介して提供されるスクリプトは、バッチ合成要求を処理するためにAzureストレージに格納されます。 入力テキストは、delete API を使用していつでも 削除 できます。

オーディオとビデオのコンテンツを出力します。 Microsoft では、リアルタイム合成 API で生成されたオーディオまたはビデオ コンテンツは保存しません。 音声合成アバター バッチ API にビデオ翻訳または Long Audio API を使用している場合、出力オーディオまたはビデオ コンテンツはAzureストレージに格納されます。 これらのオーディオまたはビデオは、削除操作を使用していつでも 削除 できます。

不正使用や有害なコンテンツ生成の防止 (プレビュー)

Azureテキスト読み上げアバター サービスの有害な使用のリスクを軽減するために、Azureテキスト読み上げアバターにはコンテンツの安全性機能が含まれています。 サービスがテキストを処理してオーディオを生成すると、コンテンツの安全性が同期的に発生します。 テキストや生成された結果はコンテンツ分類子モデルに格納されず、テキストと結果は分類子モデルのトレーニング、再トレーニング、改善には使用されません。 コンテンツの安全性機能の損害カテゴリの詳細については、「 損害カテゴリ」を参照してください。

こちらも参照ください