声とアバターのタレントに関する情報公開

重要

英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントのEN-USバージョンを参照してください。

この記事の目的は、音声とアバターの才能が、音声と画像が作成するのに役立つテキスト読み上げ機能の背後にあるテクノロジを理解できるようにすることです。 また、Microsoftが録音した音声や画像を含むオーディオ ファイルやビデオ ファイルを処理、使用、保持する方法に関するタレントの重要なプライバシーの開示も含まれており、Foundry Tools の不正使用の防止や苦情への対応Microsoftに役立ちます。

Microsoftは責任を持って AI を設計することに取り組んでいます。 このメモにより、技術ビルダー、ボイス タレント、アバター タレント、およびこのテクノロジの意図された有益な使用方法に関する一般市民の間で、より多くの共有の理解が促進されることを願っています。

主要なテキスト読み上げ用語

音声モデル: ターゲット スピーカーの固有の音声特性を模倣できるテキスト読み上げコンピューター モデル。 音声モデルは、音声フォントまたは合成音声とも呼ばれます。 音声モデルは、人間が判読できず、オーディオ録音を含まないバイナリ形式のパラメーターのセットです。 人間の音声録音を派生または構築するためにリバース エンジニアリングすることはできません。

ボイス タレント: 音声が録音され、音声タレントの声のように聞こえることを目的とした音声モデルを作成するために使用される個人またはターゲット スピーカー。

アバター モデル: ターゲット アクターの固有の顔特性を模倣できるテキスト読み上げアバター コンピューター モデル。 アバター モデルは、人間が判読できず、ビデオやオーディオの録音を含まないバイナリ形式のパラメーターのセットです。 行動する人間のビデオ録画を派生または構築するためにリバース エンジニアリングすることはできません。

アバタータレント: カスタム テキスト読み上げアバター モデルの構築には、実際の人間が話すビデオ録画に関するトレーニングが必要です。 この人はアバターの才能に優れています。 お客様は、自分の画像を使用してカスタムアバターを作成するために、アバタータレントから関連するすべての法令に基づく十分な同意を得る必要があります。

ニューラル音声合成のしくみ

しくみ: ニューラル テキスト読み上げでは、古典的なプログラミングや統計手法を使用するのではなく、自然な人間の音声で音声を組み合わせる方法を "学習" したディープ ニューラル ネットワークを使用して音声を合成します。 特定の音声タレントの録音に加えて、ニューラル テキスト読み上げでは、さまざまなスピーカーからの音声録音を含むソース ライブラリが使用されます。

それについて知っておくべきこと: 音声を合成する方法により、ニューラル テキストから音声への変換では、音声のトーンや影響の変化など、元の録音の一部ではないスタイルの音声を生成できます。 ニューラルテキスト読み上げ音声は流ちょうで、人が話すときの自然な間や癖、ためらいといった特徴をうまく再現できます。 ニューラル テキストを使用して音声合成音声を聞く人は、標準的なテキスト読み上げ音声よりも人間の音声に近い評価を行う傾向があります。

Microsoftの使用方法の例:

  • 事前構築済みのニューラル音声 は、顧客が使用するための "既製" 音声モデルを提供するテキスト読み上げ機能です。 事前構築済みのニューラル音声は、Edge Browser、ナレーター、Office、Teams など、いくつかのMicrosoft製品でも使用されます。
  • カスタム ニューラル音声 は、テキスト読み上げの機能であり、独自のカスタム合成音声モデルを作成できます。 カスタム ニューラル音声の機能を次に示します。
    • 言語転送 は、元の音声録音とは異なる言語で表現できます。
    • スタイル転送 は、元の音声録音とは異なる話し方で表現できます。 たとえば、ニュースキャスターの音声などです。
    • 音声変換 は、元の音声録音とは異なる方法で表現できます。 たとえば、トーンやピッチを変更して、異なるキャラクターの声を作成します。
    • Cortana など、Microsoftの製品やサービスで使用されるその他の音声。

記録時に想定される内容: 概念実証音声モデルに少なくとも 300 行、生産用の新しい音声モデルを生成するために約 2,000 行に貢献しています。

テキスト読み上げアバターのしくみ

しくみ: テキスト読み上げアバターは、事前構築済みのニューラル音声とカスタム ニューラル音声の上に構築され、同期されたテキストを使用してアバター ビデオ コンテンツを音声の事前構築済みのニューラル音声またはカスタム ニューラル音声に合成します。 合成プロセスでは、アバター タレントのビデオ録画に基づいて開発されたモデルでトレーニングされたディープ ニューラル ネットワークを使用します。 モデルは、録音のオーディオ要素から抽出された音響機能と、記録のビデオ要素から抽出された物理的な特性、口の動き、表情、および関連する視覚要素を使用してトレーニングされます。

それについて知っておくべきこと: 音声合成アバターの顔、体、動きは、アバターモデルに非常によく似ていますが、その音声は、Microsoftが提供する事前構築済みのニューラル音声、またはカスタムのニューラル音声から生成されている場合があります。これには、ボイスタレントがアバターモデルと同一人物であり、その個人がその使用許可を与えた場合も含まれます。

Microsoftの使用方法の例:

  • 事前構築済みのテキスト読み上げアバターは、Azure Speech における Foundry Tools のテキスト読み上げ機能の1つであり、顧客が使用できる既製のテキストから音声へのアバターモデルを提供します。
  • Custom text to speech avatar は、音声合成テキストAzure機能であり、音声アバター モデルに対して独自のカスタム合成テキストを作成できます。

記録時に予想される内容: 実稼働用の完全なカスタム アバター モデルを作成するには、概念実証カスタム アバター モデル用に少なくとも 10 分間のビデオ録画と約 20 分のビデオ録画を提供する必要があります。

ボイス タレントと合成音声: 進化する関係

音声タレントと合成音声の間の不可欠な関係を認識Microsoft、技術の新しい開発に関する彼らの視点をより深く理解するために、音声タレントにインタビューしました。 2019 年に実施された調査では、音声タレントは、録音ジョブを完了するためのスタジオ時間の節約や、より多くの音声操作の割り当てを完了するための容量の追加など、ニューラル テキストによる音声変換によって導入された機能から潜在的なメリットを得られる可能性があることを示しました。 同時に、テキスト読み上げテクノロジの開発が職業に与える影響について、さまざまな程度の認識がありました。

全体として、音声タレントは、透明性と明確さを求める要望を表明しました。

  • 彼らの声の類似音声が何を表現できるか、何を表現できないかの制限。
  • 彼らの声の肖像を使用可能な期間。
  • 将来の記録機会に及ぼす潜在的な影響。
  • 自分の声の特徴に関連付けられるペルソナ。

合成音声の用途が広い

従来、テキスト読み上げ音声は、ロボットサウンドのために導入が制限されていました。 ほとんどは、たとえば、視覚障碍を持つ人や低視力の人向けのスクリーンリーダーとして、アクセシビリティを支援するために使用されました。 音声合成の音声は、発話障害を持つ人々にも使用されています。 たとえば、故ステファン・ホーキングは、音声で生成された音声にテキストを使用しました。

今では、ますます現実的に聞こえる合成音声と、機械と人間の間のより身近で日常的な相互作用が増加し、この技術の使用は増加し、発展しています。 テキスト読み上げシステムは、さまざまなデバイスとアプリケーションにわたって音声アシスタントをサポートします。 ニュース、検索結果、公共サービスのお知らせ、教育コンテンツなどを読み上げました。

広い用途での合成アバター

音声に対するテキストと同様に、アバターはリアルな外観、動き、表情をリアルなサウンドの声と組み合わせて提供するようになりました。 これらの話すアバターは、オンライン トレーニングでコンテンツを表示したり、会社に代わってスピーチを提示したり、顧客サービス設定で顧客と対話したりするなど、さまざまな状況で使用される場合があります。

Microsoftのテキスト読み上げの責任ある利用に対するアプローチ

人々は毎日、音声技術にテキストを適用する新しい方法を見つけますが、すべてが個人や社会のためにあるわけではありません。 誤用された場合、人間らしいテキスト読み上げ音声やリアルな話し方をするアバターが害を及ぼす場合があります。 たとえば、よく知られている公人の声と画像を使用すると、誤った情報のキャンペーンがはるかに強力になる可能性があります。

メディアが変更されるのを防いだり、どこから来たのかを明確に証明したりする完全な方法はないと認識しています。 そのため、責任ある使用に対するアプローチでは、これらの機能のカスタム バージョンの許可された使用を制限し、アクションを通じて値を示すことで、音声テキスト読み上げ機能のAzureについて透過的にすることに重点を置いていました。

Microsoft製品またはサービスを使用して生体認証データを処理する場合は、(i) 保持期間や破棄に関する通知をデータ主体に提供する責任があります。(ii) データ主体から同意を得る。(iii) 生体認証データを削除する場合は、該当するデータ保護要件に従って、必要に応じてすべて削除します。 「生体認証データ」は、GDPR の第 4 条に規定されている意味を持ち、該当する場合は、他のデータ保護要件で同等の用語を持ちます。

カスタム ニューラル音声を使用するには、契約上、お客様に次の操作を行う必要があります。

  • カスタム ニューラル音声を作成する目的でそのユーザーの声を使用するには、ボイス タレントから明示的な書面によるアクセス許可を取得します。
  • このドキュメントを音声タレントに提供して、テキスト読み上げのしくみと、オーディオ録音プロセスを完了した後の使用方法を理解できるようにします。
  • 音声タレントのオーディオファイルをMicrosoftが処理、使用、保持するための許可を音声タレントから取得し、トレーニングデータに対する話者検証を実施するための使用および以下で説明するような音声モデルのMicrosoftによる使用と保持が行われます。

また、お客様は次の操作を行うことをお勧めします。

  • 音声タレントと使用する目的のコンテキストを共有して、誰が自分の声を聞くか、どのようなシナリオで、ユーザーが音声と対話できるかどうか/どのように対話できるかを認識できるようにします。
  • ボイスタレントが、彼らの録音から作成された音声モデルが、スタジオで必ずしも録音していないことを話せることを認識しているか確認してください。
  • 音声モデルが発言する際に不快に感じることがあるかどうかについて話し合います。

Microsoftのデータの処理、使用、保持

Microsoftによる話者検証のための音声タレント オーディオ ファイルの使用

お客様は、音声を使用して合成音声用のカスタム音声モデルを作成する権限をボイス タレントから取得する必要があります。 この技術的セーフガードは、たとえば、誰かが音声録音で音声モデルをトレーニングするのを防ぎ、モデルを使用して話者の知識や同意なしに音声を偽装することを防ぐことによって、サービスの誤用を防ぐことを目的としています。

Speech Studio では、音声タレントから受信確認ステートメントを記録したオーディオ ファイルをアップロードする必要があります。 Microsoftは、この記録された受信確認ステートメントでMicrosoftの話者認識テクノロジを使用し、トレーニング オーディオ データに対してそれを検証して、音声が同じ話者から送信されたことを確認する権利、またはAzure音声の誤用を調査するために必要な権利を留保します。

録音された受信確認ステートメント ファイルとトレーニング オーディオ データから作成された話者の音声署名は、上記の目的のためにのみMicrosoftによって使用されます。 Microsoftは、Microsoftの Foundry Tools のセキュリティと整合性を維持するために必要な限り、記録されたステートメント ファイルを保持します。 データ、 プライバシー、およびセキュリティに関するドキュメントで、データの処理、使用、保持方法の詳細について説明します。

カスタム モデルのMicrosoftの使用

お客様はカスタム ニューラル音声モデルに対する排他的な使用権を維持しますが、Microsoftは必要な期間、カスタム ニューラル音声モデルのコピーを個別に保持できます。 Microsoftは、Foundry Tools のセキュリティと整合性を保護する目的でのみ、カスタム ニューラル音声モデルを使用できます。

Microsoftは、他のAzure サービスで使用するのと同じ高レベルのセキュリティを使用して、音声タレントの記録された受信確認ステートメントとカスタム ニューラル音声モデルのコピーをセキュリティで保護して格納します。 詳細については、Microsoft セキュリティ センターを参照してください。

私たちは、既存の社会的規範とメディアに対する人々の期待に基づき、テキストを音声に変換する技術の意図的、有益、および特定の使用法を引き続き明確に認識していきます。それにより、人々がメディアを本物または偽物として認識するときの期待に応えることを目指します。 Microsoftの信頼の原則に従って、Microsoftでは、カスタム ニューラル音声を使用して生成されたオーディオ コンテンツを積極的に監視したり、モデレートしたりすることはありません。 お客様は、使用が適用されるすべての法律および規制に準拠していることを確認し、音声タレントとの顧客の契約条件に従う責任を負います。

マイクロソフトのカスタムニューラル音声ライトを使用した音声タレントデータの利用

カスタム ニューラル音声ライトは、パブリック プレビューのプロジェクトの種類であり、Speech Studio で 20 から 50 個の音声サンプルを記録し、デモンストレーションと評価のために軽量のカスタム音声モデルを作成できます。 記録スクリプトとテスト スクリプトの両方が、Microsoftによって事前に定義されています。 カスタム ニューラル音声ライトを使用して作成した合成音声モデルは、カスタム ニューラル音声へのフル アクセスを申請して受け取る場合にのみ、より広くデプロイおよび使用できます (該当する用語に従います)。

Speech Studio 経由で送信した合成音声と関連するオーディオ録音は、カスタム ニューラル音声へのフル アクセスを取得し、合成音声の展開を選択しない限り、90 日以内に自動的に削除されます。その場合、その保持期間を制御します。 音声タレントが合成音声と関連するオーディオ録音を 90 日前に削除したい場合は、ポータルで直接削除するか、企業に連絡して削除できます。

さらに、カスタム ニューラル音声ライト プロジェクトを使用して作成された合成音声モデルをデプロイする前に、音声タレントは、合成音声がデモンストレーションや評価以外の追加目的で使用されることを確認する追加の録音を提供する必要があります。

責任あるデプロイのガイドライン

テキスト読み上げは適応可能なテクノロジであるため、使用方法の決定には灰色の領域があります。 これらをナビゲートするために、合成音声とアバター モデルを使用するための次のガイドラインを策定しました。

  • 音声や画像/いいね!の所有者を誤用や個人情報の盗難から保護します。
  • 偽物や誤解を招くコンテンツの拡散を防ぎます。
  • コンシューマーが合成コンテンツと対話することを期待するシナリオでの使用を促進します。
  • コンシューマーが合成コンテンツの生成を観察するシナリオでの使用を推奨します。

不適切な使用の例

Azure AI テキスト読み上げは使用しないでください。

  • 人をだましたり、意図的に誤解を与えたりするため。
  • ライブコマーシャルを含む偽広告の目的のため。その表明を行う明示的な許可なしに、任意の人、会社、政府機関、または団体からであると主張すること。
  • 情報または特権の取得を含め、明示的な許可を持たない個人を偽装すること。
  • ヘイトスピーチ、差別、中傷、テロ、または暴力行為を作成、扇動、偽装すること。
  • 子どもを悪用または操作するため。
  • 要請されていない電話、一括通信、投稿、またはメッセージを行う場合。
  • 政策上の立場や政治的イデオロギーを偽装すること。
  • 未公開のコンテンツまたは偽りのソースを配布するため。

適切な使用例

適切なユース ケースには次のものが含まれますが、これらに限定されません。

  • 架空のペルソナに基づく仮想エージェント。 たとえば、企業のブランドキャラクターによって提供されるオンデマンドの Web 検索、IoT コントロール、カスタマー サポートなどです。
  • 架空のコンテンツで使用するエンターテイメント メディア。 たとえば、映画、ビデオゲーム、テレビ、録音された音楽、オーディオ ブックなどです。
  • 認定教育機関または教育メディア。 たとえば、対話型のレッスンプランやガイド付き博物館ツアーなどです。
  • 支援技術とリアルタイム翻訳。 たとえば、ALS に苦しむ個人が声を維持しているとします。
  • 架空のペルソナを使用したパブリック サービスのお知らせ。 たとえば、空港や列車のターミナルのお知らせなどです。
  • 広告/ライブ ストリーミング: 広告コンテンツ、製品のマーケティングまたは販売に関連するライブ ストリーミング。