次の方法で共有


音声とアバターのタレントに関する開示

Important

英語以外の翻訳は便宜上のみ提供されています。 明確なバージョンについては、このドキュメントの EN-US バージョン を参照してください。

この記事の目的は、声とアバターの才能が、声と画像が作成するのに役立つtext to speech機能の背後にあるテクノロジを理解できるようにすることです。 また、Microsoft が、タレントの録音された音声や画像を含むオーディオ ファイルやビデオ ファイルを処理、使用、保持する方法に関するタレント向けの重要なプライバシー開示も含まれており、Foundry Tools の不正使用に関する苦情を Microsoft が防止したり、それに対応したりするのに役立ちます。

Microsoft は責任を持って AI の設計に取り組んでいます。 このメモにより、技術ビルダー、ボイス タレント、アバター タレント、およびこのテクノロジの意図された有益な使用方法に関する一般市民の間で、より多くの共有の理解が促進されることを願っています。

主要なテキスト読み上げ用語

Voice model: ターゲット スピーカーの固有の声の特性を模倣できるtext to speech コンピューター モデル。 音声モデルは、音声フォントまたは合成音声とも呼ばれます。 音声モデルは、人間が判読できず、オーディオ録音を含まないバイナリ形式のパラメーターのセットです。 人間の音声録音を派生または構築するためにリバース エンジニアリングすることはできません。

ボイス タレント: 音声が録音され、音声タレントの声のように聞こえることを目的とした音声モデルを作成するために使用される個人またはターゲット スピーカー。

Avatar model: ターゲット アクターの一意の顔特性を模倣できるtext to speechアバター コンピューター モデル。 アバター モデルは、人間が判読できず、ビデオやオーディオの録音を含まないバイナリ形式のパラメーターのセットです。 行動する人間のビデオ録画を派生または構築するためにリバース エンジニアリングすることはできません。

Avatar talent: カスタム text to speech アバター モデルの構築には、実際の人間が話すビデオ録画に関するトレーニングが必要です。 この人物はアバターのタレントです。 お客様は、自分の画像を使用してカスタムアバターを作成するために、アバタータレントから関連するすべての法令に基づく十分な同意を得る必要があります。

ニューラル音声合成のしくみ

動作方法: ニューラル text to speechは、古典的なプログラミングや統計的方法を使用するのではなく、自然な人間の音声で音声を結合する方法を "学習" したディープ ニューラル ネットワークを使用して音声を合成します。 ニューラルテキスト読み上げは、特定の声優の録音に加えて、さまざまな話者からの音声録音を含むソースライブラリを使用します。

それについて知っておくべきこと: 音声を合成する方法のため、ニューラル テキスト トゥ スピーチは、音声のトーンや感情の変化など、元の録音には含まれていなかった音声スタイルを生成できます。 ニューラルテキスト読み上げ音声は流ちょうで、人が話すときの自然な間や癖、ためらいといった特徴をうまく再現できます。 ニューラル text to speechを介して行われた合成音声を聞く人は、標準的なtext to speech音声よりも人間の音声に近い評価を行う傾向があります。

Microsoft での使用方法の例:

  • 事前構築済みのニューラル音声は、顧客が使用する "既製" 音声モデルを提供するtext to speechの機能です。 事前構築済みのニューラル音声は、Edge Browser、ナレーター、Office、Teams など、いくつかの Microsoft 製品でも使用されます。
  • カスタム ニューラル音声は、一意のカスタム合成音声モデルを作成できる音声合成の機能です。 カスタム ニューラル音声の機能を次に示します。
    • 言語転送 は、元の音声録音とは異なる言語で表現できます。
    • スタイル転送 は、元の音声録音とは異なる話し方で表現できます。 たとえば、ニュースキャスターの音声などです。
    • 音声変換 は、元の音声録音とは異なる方法で表現できます。 たとえば、トーンやピッチを変更して、異なるキャラクターの声を作成します。
    • Cortana など、Microsoft の製品やサービスで使用されるその他の音声

記録時に想定される内容: 概念実証音声モデルに少なくとも 300 行、生産用の新しい音声モデルを生成するために約 2,000 行に貢献しています。

テキスト読み上げアバターのしくみ

動作方法: Text to speechアバターは、事前構築済みのニューラル音声とカスタム ニューラル音声の上に構築され、同期されたtext to speech事前構築済みのニューラル音声またはカスタム ニューラル音声でアバター ビデオ コンテンツを合成します。 合成プロセスでは、アバター タレントのビデオ録画に基づいて開発されたモデルでトレーニングされたディープ ニューラル ネットワークを使用します。 モデルは、録音のオーディオ要素から抽出された音響機能と、記録のビデオ要素から抽出された物理的な特性、口の動き、表情、および関連する視覚要素を使用してトレーニングされます。

それについて知っておくべきこと: 合成されたtext to speechアバターの顔、体、動きはアバターの才能によく似ていますが、text to speechアバターの音声は、Microsoft が提供する事前構築済みのニューラル音声のいずれかから、またはカスタム ニューラル音声から生成される場合があります(ボイス タレントがアバター タレントと同じ個人である場合を含む)。 個人がそのような使用を承認した場合。

Microsoft での使用方法の例:

  • Prebuilt text to speech avatar は、Azure Speech の Foundry Tools テキスト読み上げ機能のひとつで、顧客が利用可能な「既製」のテキスト読み上げアバターモデルを提供します。
  • Custom text to speech avatar は、独自のカスタム合成text to speechアバター モデルを作成できる、Azure Speech text to speechの機能です。

記録時に予想される内容: 実稼働用の完全なカスタム アバター モデルを作成するには、概念実証カスタム アバター モデル用に少なくとも 10 分間のビデオ録画と約 20 分のビデオ録画を提供する必要があります。

ボイス タレントと合成音声: 進化する関係

音声タレントと合成音声の間の不可欠な関係を認識し、Microsoft は音声タレントにインタビューを行い、テクノロジの新しい開発に関する彼らの視点をより深く理解しました。 2019年に実施した調査では、声優は、録音作業を完了するためのスタジオ時間の節約や、より多くの声優の仕事を完了するための能力の追加など、ニューラルテキスト音声合成によって導入された機能から潜在的なメリットを得られる可能性があることが示されました。 同時に、text to speechテクノロジの開発が職業に与える影響について、さまざまな程度の認識がありました。

全体として、音声タレントは透明性と明確さに対する要望を表明しました。

  • 彼らの声の類似性が表現するために使用できるものとできないものに関する制限。
  • 声の類似表現の使用が認められる期間。
  • 将来の記録機会に及ぼす潜在的な影響。
  • その声の類似表現に関連付けられるペルソナ

合成音声の用途が広い

従来、音声合成はロボットのような音声のため、導入が制限されていました。 多くは、視覚障碍のある人や弱視の人のためのスクリーンリーダーとして、アクセシビリティをサポートするために使用されました。 Text to speech音声は、音声障害のあるユーザーにも使用されています。 たとえば、故ステファン・ホーキングは、テキスト読み上げで生成された音声を使用しました。

今では、より現実的な合成音声と、機械と人間の間のより身近で日常的な相互作用が増加していることで、この技術の使用は多様化し、拡大しています。 Text to speechシステムは、さまざまなデバイスとアプリケーションにわたって音声アシスタントに電力を供給します。 ニュース、検索結果、公共サービスのお知らせ、教育コンテンツなどを読み上げました。

広い用途での合成アバター

text to speechの声と同様に、アバターはリアルな外観、動き、表情をリアルなサウンドの声と組み合わせて提供するようになりました。 これらの話すアバターは、オンライン トレーニングでコンテンツを表示したり、会社に代わってスピーチを提示したり、customer service設定で顧客と対話したりするなど、さまざまな状況で使用できます。

text to speechの責任ある使用に対する Microsoft のアプローチ

人々は毎日、text to speech技術を適用する新しい方法を見つけますが、すべてが個人や社会のためにあるわけではありません。 誤用された場合、人間らしいテキスト読み上げ音声やリアルな話し方をするアバターが害を及ぼす場合があります。 たとえば、よく知られている公人の声と画像を使用すると、誤った情報のキャンペーンがはるかに強力になる可能性があります。

メディアが変更されるのを防いだり、どこから来たのかを明確に証明したりする完全な方法はないと認識しています。 そのため、責任ある使用に対する私たちのアプローチでは、Azure Speech のテキスト読み上げ機能について透明性を確保することを重視し、これらの機能のカスタムバージョンの使用を制限し、具体的な行動を通して我々の価値を示すことに重点を置いてきました。

Microsoft 製品またはサービスを使用して生体認証データを処理する場合は、(i) 保持期間や破棄に関する通知をデータ主体に提供する責任があります。(ii) データ主体から同意を得る。(iii) 生体認証データを削除する場合は、該当するデータ保護要件に従って、必要に応じてすべて削除します。 ''生体認証データ'' は、GDPR の第 4 条に規定されている意味を持ち、該当する場合は、他のデータ保護要件における同義語となります。

カスタムニューラル音声を使用するには、契約上、顧客に次のことを要求します。

  • カスタム ニューラル音声を作成する目的でそのユーザーの声を使用するには、ボイス タレントから明示的な書面によるアクセス許可を取得します。
  • このドキュメントを音声タレントに提供して、text to speechのしくみと、オーディオ録音プロセスを完了した後の使用方法を理解できるようにします。
  • 音声タレントのオーディオ ファイルの処理、使用、保持に必要なアクセス許可をボイス タレントから取得し、トレーニング データに対して話者検証を実行し、以下で説明するように Microsoft による音声モデルの使用と保持を行います。

また、お客様は次の操作を行うことをお勧めします。

  • 音声タレントと使用する目的のコンテキストを共有して、誰が自分の声を聞くか、どのようなシナリオで、ユーザーが音声と対話できるかどうか/どのように対話できるかを認識できるようにします。
  • ボイスタレントに対し、録音から作られた音声モデルが、スタジオで録音していないことも話せることを認識させてください。
  • 音声モデルに何かを言わせることに不快感があるかどうかについて話し合います。

Microsoft によるデータの処理、使用、保持

Microsoft による話者検証のための音声タレント オーディオ ファイルの使用

お客様は、音声を使用して合成音声用のカスタム音声モデルを作成する権限をボイス タレントから取得する必要があります。 この技術的セーフガードは、たとえば、誰かが音声録音で音声モデルをトレーニングするのを防ぎ、モデルを使用して話者の知識や同意なしに音声を偽装することを防ぐことによって、サービスの誤用を防ぐことを目的としています。

Speech Studio では、音声タレントから受信確認ステートメントを記録したオーディオ ファイルをアップロードする必要があります。 Microsoft は、この録音された受信確認ステートメントにおいて、Microsoft の話者認識技術を使用し、トレーニング オーディオ データと照合して、音声が同一話者からのものであることを確認する権利を留保します。また、必要に応じて Azure Speech の誤用を調査するためにこれを使用する場合があります。

記録された受信確認ステートメント ファイルとトレーニング オーディオ データから作成された話者の音声署名は、上記の目的のためだけに Microsoft によって使用されます。 Microsoft は、Microsoft Foundry Tools のセキュリティと整合性を維持するために必要な限り、記録されたステートメント ファイルを保持します。 データの処理、使用、保持方法の詳細については、Data、プライバシー、セキュリティに関するドキュメントを参照してください。

Microsoft によるカスタム モデルの使用

お客様はカスタム ニューラル音声モデルに対する排他的な使用権を維持しますが、Microsoft は必要な限り、カスタム ニューラル音声モデルのコピーを個別に保持できます。 Microsoft は、Foundry Tools のセキュリティと整合性を保護する目的でのみ、カスタム ニューラル音声モデルを使用する場合があります。

Microsoft は、他のAzure サービスに使用するのと同じ高レベルのセキュリティを使用して、音声タレントの記録された受信確認ステートメントとカスタム ニューラル音声モデルのコピーをセキュリティで保護して保存します。 詳細については、Microsoft セキュリティ センターを参照してください。

我々は、引き続き、人々がメディアを本物か偽物と信じるときに持っている既存の社会的規範と期待に基づいて、音声合成の意図的で有益かつ計画された用途を明確に特定していきます。 Microsoft の信頼の原則に従って、Microsoft はカスタム ニューラル音声の使用によって生成されたオーディオ コンテンツを積極的に監視またはモデレートしません。 お客様は、使用が適用されるすべての法律および規制に準拠していることを確認し、音声タレントとの顧客の契約条件に従う責任を負います。

カスタム ニューラル音声ライトを使用した Microsoft による音声タレント データの使用

カスタム ニューラル音声ライトはパブリック プレビューのprojectの種類で、Speech Studio で 20 から 50 個の音声サンプルを記録し、デモンストレーションと評価のために軽量のカスタム音声モデルを作成できます。 記録スクリプトとテスト スクリプトの両方が、Microsoft によって事前に定義されています。 カスタム ニューラル音声ライトを使用して作成した合成音声モデルは、カスタム ニューラル音声の完全なアクセスを申請し、受け取った場合にのみ、より広くデプロイして使用できます(該当する条件に従います)。

Speech Studio 経由で送信した合成音声と関連するオーディオ録音は、カスタム ニューラル音声の完全なaccessを取得し、合成音声の展開を選択しない限り、90 日以内に自動的に削除されます。その場合は、その保持期間を制御します。 音声タレントが合成音声と関連するオーディオ録音を90日より前に削除したい場合は、ポータルで直接削除することができますし、もしくはエンタープライズに問い合わせてください。

さらに、カスタム ニューラル音声ライト projectを使用して作成された合成音声モデルを展開する前に、音声タレントは、合成音声がデモンストレーションや評価以外の目的で使用されることを確認する追加の録音を提供する必要があります。

責任あるデプロイのガイドライン

text to speechは適応可能なテクノロジであるため、使用方法の決定には灰色の領域があります。 これらをナビゲートするために、合成音声とアバター モデルを使用するための次のガイドラインを策定しました。

  • 音声や画像/いいね!の所有者を誤用や個人情報の盗難から保護します。
  • 偽物や誤解を招くコンテンツの拡散を防ぎます。
  • コンシューマーが合成コンテンツと対話することを期待するシナリオでの使用を促進します。
  • コンシューマーが合成コンテンツの生成を観察するシナリオでの使用を推奨します。

不適切な使用の例

Azure AI text to speechは使用しないでください。

  • 人をだましたり、意図的に誤解を与えたりするため。
  • ライブコマーシャルを含む偽広告の目的のため。その表明を行う明示的な許可なしに、任意の人、会社、政府機関、または団体からであると主張すること。
  • 情報または特権の取得を含め、明示的な許可を持たない個人を偽装すること。
  • ヘイトスピーチ、差別、中傷、テロ、または暴力行為を作成、扇動、偽装すること。
  • 子どもを悪用または操作するため。
  • 要請されていない電話、一括通信、投稿、またはメッセージを行う場合。
  • 政策上の立場や政治的イデオロギーを偽装すること。
  • 未公開のコンテンツまたは偽りのソースを配布するため。

適切な使用例

適切なユース ケースには次のものが含まれますが、これらに限定されません。

  • 架空のペルソナに基づく仮想エージェント。 たとえば、企業のブランドキャラクターによって提供されるオンデマンドの Web 検索、IoT コントロール、カスタマー サポートなどです。
  • 架空のコンテンツで使用するエンターテイメント メディア。 たとえば、映画、ビデオゲーム、テレビ、録音された音楽、オーディオ ブックなどです。
  • 認定教育機関または教育メディア。 たとえば、対話型のレッスンプランやガイド付き博物館ツアーなどです。
  • 支援技術とリアルタイム翻訳。 たとえば、ALS に苦しむ個人が声を維持しているとします。
  • 架空のペルソナを使用したパブリック サービスのお知らせ。 たとえば、空港や列車のターミナルのお知らせなどです。
  • 広告/ライブ ストリーミング: 広告コンテンツ、製品のマーケティングまたは販売に関連するライブ ストリーミング。