Important
英語以外の翻訳は便宜上のみ提供されています。 明確なバージョンについては、このドキュメントの EN-US バージョン を参照してください。
透過性のためのメモとは
AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。 Microsoft の透過性のためのメモは、AI テクノロジがどのように機能するか、システム所有者が選択できる、システムのパフォーマンスと動作に影響する選択肢、およびテクノロジ、人、環境を含むシステム全体について考える重要性を理解する助けとなるように用意されています。 透過性メモは、独自のシステムを開発または展開するときに使用したり、システムを使用したり、システムの影響を受けるユーザーと共有したりできます。
Microsoft の透過性のためのメモは、AI の原則を実践に移すための Microsoft の広範な取り組みの一環です。 詳細については、 Microsoft AI の原則を参照してください。
text to speechの基本
イントロダクション
Text to speech は、Foundry Tools の Azure Speech の一部であり、書き込まれたテキストを自然な音声オーディオに変換できる汎用性の高いツールです。 この機能は、テキスト形式の入力を受け取り、デバイスで再生できる高品質の音声オーディオ出力を生成します。 音声オーディオ出力では、text to speechは、事前構築済みのニューラル音声の範囲を提供します。また、限られたAccessのお客様の場合は、製品またはブランドのカスタム ニューラル音声を作成するオプションを提供します。
Text to speechには視覚的な機能もあります。 text to speechアバターを使用すると、ユーザーはテキストを入力し、アバターを話す合成ビデオを作成できます。 事前構築済みのtext to speechアバターとカスタム text to speech アバターの両方を使用できますが、一部の機能は、Limited Access ユーザーのみが使用できますが、事前構築済みのニューラル音声とカスタム ニューラル音声の両方で使用できます。
text to speech システムでは、書き込まれた情報を可聴音声に変え、ユーザーのアクセシビリティを向上させることができます。 ドキュメントを聞いたり、合成された音声でユーザー エクスペリエンスを向上させたりする場合でも、text to speechはテキストを自然に聞こえる音声に変換します。
キーワード
| 任期 | Definition |
|---|---|
| リアルタイム音声合成 | |
| 音声モデル | text to speech システムでは、音声モデルは、書き込まれたテキストから合成音声を生成するmachine learningベースのモデルまたはアルゴリズムを指します。 このモデルは、テキスト入力を音声言語出力に変換するようにトレーニングされ、ピッチ、トーン、発音など、人間の音声の特性を模倣します。 |
| 韻律 | プロソディとは、ピッチ、継続時間、音量、一時停止などの音声要素の変調を指し、合成音声を自然で表現力豊かな品質で吹き込み、感情的な微妙な意味とコンテキスト的な意味を伝え、生成された音声のロボットの品質を低下させ、リスナーに対してより魅力的で理解しやすくします。 |
| 音声合成マークアップ言語 ("SSML") | 音声合成マークアップ言語 (SSML) は、text to speech出力をカスタマイズするために使用される XML ベースのマークアップ言語です。 SSML を使用して、ピッチの調整、一時停止の追加、発音の改善、話す速度の変更、音量の調整、単一のドキュメントへの複数の音声の割り当てを行うことができます。 SSML を使用して、独自の辞書を定義したり、さまざまな話し方に切り替えたりできます。 |
| 長いオーディオの非同期合成 | バッチ合成 API (プレビュー) を使用して、10 分を超えるtext to speech ファイル (オーディオ ブックや講義など) を非同期的に合成します。 Speech SDK または Speech to Text REST API を使用して実行される合成とは異なり、応答はリアルタイムで返されません。 要求が非同期に送信され、応答がポーリングされること、および合成音声がサービスから利用可能になったときにダウンロードされることを想定しています。 |
| ビセーム (Visemes) | 口形素は、特定の音素を生成するときの唇、顎、舌の位置などの観察されたスピーチにおける主要な姿勢です。 口形素は、音声と音素との強い相関関係を持っています。 |
イントロダクション
事前構築済みのニューラル音声は、140 を超える言語とロケールで 400 を超えるオプションを提供する幅広い音声を提供します。 これらのtext to speech音声を使用すると、読み上げ機能をアプリケーションにすばやく統合して、アクセシビリティを強化できます。
キーワード
| 任期 | Definition |
|---|---|
| あらかじめ構築されたニューラル音声 | Microsoft では、ディープ ニューラル ネットワークを使用して、音声言語でのストレスとイントネーションに関する従来の音声合成の限界を克服する、事前構築済みのニューラル音声のセットを提供しています。 韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。 事前構築済みの各ニューラル音声モデルは、24kHz および高忠実度 48 kHz で利用でき、出力は他の形式にアップサンプリングまたはダウンサンプリングできます。 |
能力
システムの動作
音声合成
Text to speechテキストを自然な音声に変換します。
text to speech サービスを呼び出すための主なオプションを次に示します。
リアルタイム音声合成API
これは、Speech SDK または REST API を介してテキスト入力を送信し、リアルタイムでオーディオ出力を受信する一般的な API 呼び出しです。 音声システムでは、text to speech音声モデルを使用して、テキストを人間のような合成音声に変換します。 出力オーディオは、ファイルとして保存することも、スピーカーなどの出力デバイスに再生することもできます (
Text to speech モデルは、一般的な使用シナリオおよび幅広いスピーカーにまたがる多様なオーディオを大量に学習されています。 たとえば、text to speech サービスは、音声対応チャット ボットやオーディオ コンテンツの作成によく使用されます。
バッチ合成 API
バッチ合成は、別の種類の API 呼び出しです。 通常は、大きなテキスト ファイルを送信し、オーディオ出力を非同期的に受信するために使用されます (つまり、後で)。 この API を使用するには、複数のテキスト ファイルの場所を指定できます。 text to speech テクノロジは、ファイルからテキスト入力を読み取り、指定したstorageの場所に返されるオーディオ ファイルを生成します。 この機能は、エンド ユーザーにリアルタイムでオーディオ出力を提供する必要がない大規模な音声合成ジョブをサポートするために使用されます。 たとえば、オーディオ ブックを作成します。
Text to speech – カスタム ニューラル音声
カスタム ニューラル音声は、text to speech 機能です。これにより、制限付きAccessのお客様は、選択した音声タレントの独自のオーディオ データを提供することで、アプリケーション用に独自のカスタマイズされた合成音声を作成できます。
カスタム ニューラル音声を使用すると、Speech Studio 内で Microsoft が提供するスクリプトを貴社のボイス タレントが読み上げるように伝えて彼らの音声を録音し、Lite プロジェクト (プレビュー) を使用してボイス タレントの音声に似た合成音声を素早く作成することができます。 軽量プロジェクトは、簡単な試用や概念実証に最適です。
プロジェクトを使用すれば、選んだボイスタレントのスタジオ録音された高品質の音声データをアップロードして、リアルに聞こえる音声を作成できます。 Pro では、音声タレントの声にさらに近い自然な音声トレーニングがサポートされており、感情固有または言語固有のトレーニング データを追加する必要なく、複数の感情や言語間で話すように調整できます。
カスタム ニューラル音声が作成されたら、一意のエンドポイントを使用して音声モデルをデプロイし、そのモデルを使用して、リアルタイム合成 API または前述のバッチ合成 API を使用して合成音声を生成できます。
カスタム ニューラル音声の詳細については、「 カスタム ニューラル音声の概要」を参照してください。
パーソナルボイス
個人用音声機能を使用すると、制限付きAccessのお客様は、短い人間の音声サンプルから音声モデルを作成できます。 この機能では、プロンプトに基づいて数秒で音声モデルを作成できます。 通常、この機能は、ビジネスユーザーのアプリケーション向けにパーソナライズされた音声エクスペリエンスを実現するために使用されます。 個人の音声モデルは、100 言語近くで話すことができる現実的な音声を作成できます。
Watermarks は、個人用音声機能で作成されたカスタム ニューラル音声に追加されます。 透かしを使用すると、ユーザーは、音声が Azure Speech を使用して合成されたかどうか、具体的にはどの音声が使用されたかを識別できます。 対象のお客様は、Azure 音声透かし検出機能を使用できます。 透かし検出をアプリケーションに追加したい場合は、mstts[at]microsoft.comにお問い合わせください。
個人の声の詳細については、「 個人の声」を参照してください。
音声合成アバター
テキスト読み上げアバターは、テキストを、フォトリアリスティック (写実的) な人間 (事前構築済みアバターまたはカスタム アバター) のデジタル ビデオに変換し、事前構築済みニューラル音声またはカスタム ニューラル音声のようなテキスト読み上げ機能を活用して自然な響きの音声で話します。 音声合成アバタービデオは、非同期またはリアルタイムで合成できます。 開発者は、API を使用してtext to speechアバターと統合されたアプリケーションを構築したり、Speech Studio のコンテンツ作成ツールを使用して、コーディングなしでビデオ コンテンツを作成したりできます。
text to speechアバターの高度なニューラル ネットワーク モデルを使用すると、この機能により、ユーザーはさまざまなアプリケーションに対して、生き生きとした高品質の合成会話アバター ビデオを配信できます。
Text to speechアバターは、コンテンツの実証と信頼性 (C2PA) Standard の連合を採用し、アバターによって作成されたビデオ コンテンツのソースと履歴に関するより明確な分析情報を対象ユーザーに提供します。 この標準では、AI によるビデオ コンテンツの生成に関する透過的な情報が提供されます。 C2PA と text to speech アバターの統合の詳細については、「Azure Text to Speech Avatar の
さらに、アバターの出力には自動的に透かしが入れられます。 透かしを使用すると、承認されたユーザーは、Azure Speech のアバター機能を使用してビデオを合成するかどうかを識別できます。 透かしの検出を要求するには、avatarvoice[at]microsoft.com にお問い合わせください。
ビデオの翻訳
ビデオ翻訳を使用すると、世界中の多様な視聴者に対応するために、ビデオ コンテンツを効率的にローカライズできます。 ビデオ翻訳は、アクセシビリティを向上させるために正確な字幕を使用して、ダイアログオーディオを自動的に抽出し、文字起こしし、事前構築済みまたは個人的な音声でコンテンツをターゲット言語に翻訳し、ダビングします。 マルチスピーカー機能は、話している個人の数を特定し、適切な音声を推奨するのに役立ちます。 人間を介したプロセスによるコンテンツ編集により、顧客の好みに正確に調整できます。 翻訳品質の向上により、GPT 統合による正確なオーディオとビデオのアラインメントが保証されます。 ビデオ翻訳は、個人の声で本物でパーソナライズされたダビング体験を可能にします。
活用事例
Text to speechでは、さまざまな業界やドメインで幅広い用途に対応できるさまざまな機能が用意されています。 ビデオ翻訳を含むすべてのtext to speech機能は、お客様のAzureサブスクリプションに適用される使用条件 (Azure許容使用ポリシー、 Azure Speech text to speech の行動コードを含む) に従います。
さらに、カスタム ニューラル音声、個人の音声、カスタム text to speech アバターなどのカスタム text to speech機能は、以下に示す特定のシナリオで概説されているように、承認済みのユース ケースに限定されます。
カスタム ニューラル音声 Pro とカスタム ニューラル音声ライトの用途
カスタム ニューラル音声 Pro とカスタム ニューラル音声ライトの承認されたユース ケースを次に示します。
- 教育的またはインタラクティブな学習: 架空のブランドやキャラクターの声を作成して、教材の読み上げや話し方、オンライン学習、対話型レッスン計画、シミュレーション学習、またはガイド付き博物館ツアーを作成します。
- メディア: エンターテイメント: ビデオゲーム、映画、テレビ、録音された音楽、ポッドキャスト、オーディオ ブック、または拡張または仮想現実のエンターテイメント コンテンツを読んだり話したりするための架空のブランドやキャラクターの声を作成する。
- メディア: マーケティング: マーケティングおよび製品またはサービス メディア、製品の紹介、ビジネスプロモーション、広告を読んだり話したりするための架空のブランドまたはキャラクターの声を作成します。
- 自己編集コンテンツ: ボイス タレントが作成したコンテンツを読み上げるための音声を作成します。
- アクセシビリティ機能: 架空のブランドやキャラクターの音声を含む、オーディオ記述システムやナレーションで使用したり、音声障蕓のあるユーザーによるコミュニケーションを容易にしたりします。
- 対話型音声応答 (IVR) システム: 通話センターの運用、テレフォニー システム、または電話操作の応答のために、架空のブランドやキャラクターの音声を含む音声を作成します。
- 公共サービスと情報のお知らせ: 公共の会場のお知らせや、交通、天気、イベント情報、スケジュールなどの情報放送など、公共サービス情報を伝達するための架空のブランドまたはキャラクターの声を作成します。 このユース ケースは、ジャーカニックコンテンツやニュースコンテンツを対象としたものではありません。
- 翻訳とローカライズ: さまざまな言語で会話を翻訳したり、オーディオ メディアを翻訳したりするための翻訳アプリケーションで使用します。
- Virtual Assistantまたはチャットボット: スマートアシスタントや仮想ウェブアシスタント、アプライアンス、自動車、家庭用機器、おもちゃ、IoTデバイスの制御、ナビゲーションシステム、個人メッセージの朗読、仮想コンパニオン、またはカスタマーサービスのシナリオ向けの架空のブランドまたはキャラクターの声を作成するために。
個人用音声の用途
個人用音声 API (詳細については、Personal voice を参照) は、Limited Access プレビューで入手できます。 個人の音声 API をアプリケーションと統合できるのは、制限付きAccess資格基準を満たすお客様だけです。 これらの対象となるお客様は、次のユース ケースでのみ個人の声を使用できます。
- アプリケーション: 音声出力が制限され、顧客によって定義され、音声がユーザー生成またはオープンエンドコンテンツを読み取らないアプリケーションで使用します。 音声モデルの使用はアプリケーション内に残る必要があり、出力をアプリケーションから公開または共有することはできません。 この説明に適合するアプリケーションの例としては、スマート デバイスの音声アシスタントやゲームでのキャラクター音声のカスタマイズがあります。
- メディア、映画、テレビ: エンターテイメント シナリオでのみ映画、テレビ、ビデオ、オーディオをダビングするために、お客様は音声モデルとその出力の作成、access、および使用を単独で制御できます。
- ビジネス コンテンツ: 製品情報、マーケティング資料、ビジネス プロモーション コンテンツ、および社内のビジネスコミュニケーションを伝えるビジネス シナリオ用のオーディオおよびビデオ コンテンツを作成します。
- ビデオ翻訳にバンドルされた特別な用途:ビデオ内の各スピーカーの音声を合成します。 お客様は、ターゲット言語でリップ同期オーディオ コンテンツを編集および生成することもできます。 お客様は、このシナリオではビデオコンテンツに関してMicrosoftに追加の音声に関する同意を提出する必要はありませんが、音声モデルとその出力の作成、アクセス、および使用をお客様が単独で管理する必要があります。
カスタム ニューラル音声 Pro、Custom Neural Voice Lite、個人用音声など、カスタム ニューラル音声の他のすべての使用は禁止されています。 さらに、カスタム ニューラル音声は制限付きAccess サービスであり、このサービスへのaccessには登録が必要です。 Microsoft の制限付きAccess ポリシーの詳細については、Foundry Tools の Limited Access機能を参照してください。 一部の機能は、Microsoft が管理する顧客とパートナーのみが利用でき、登録時に Microsoft によって承認された特定のユース ケースに対してのみ使用できます。
事前構築済みのニューラル音声は、上記のカスタム ニューラル音声ユース ケースや、お客様が選択した追加のユース ケースにも使用でき、Azure許容される使用ポリシーと Azure Speech text to speech の行動コードと一致します。 適用されるすべての使用条件を満たす事前構築済みのニューラル音声の追加のユース ケースでは、登録や事前承認は必要ありません。
ビデオ翻訳の目的のユース ケース
ビデオ翻訳は、映画、テレビ、その他のビジュアル (ビデオやアニメーションを含むがこれらに限定されません) やオーディオ アプリケーションに使用できます。このアプリケーションでは、お客様が音声モデルとその出力の作成、access、使用を単独で制御できます。 個人の音声とリップの同期は、制限付きAccessフレームワークの対象となります。対象となるお客様は、ビデオ翻訳でこれらの機能を使用できます。 ビデオ翻訳サービスで承認されたユース ケースを次に示します。
- 教育と学習: 多言語学習者のための教育ビジュアル、オンラインコース、トレーニングモジュール、シミュレーションベースの学習、またはガイド付き博物館ツアービジュアルでオーディオを翻訳します。
- メディア: エンターテインメント: 映画、映画、テレビ番組、ドキュメンタリー、ビデオゲーム、ミニシリーズ、ショートプレイ、AR/VRコンテンツのオーディオを世界中の視聴者に翻訳し、言語間でシームレスなストーリーテリングを実現します。
- メディア:マーケティング:プロモーションビジュアル、製品デモ、広告、ブランディングキャンペーンのオーディオを翻訳して、国際市場や文化に共感する。
- 自己作成コンテンツ: ビデオブログ、短編ビジュアル、インフルエンサーコンテンツ、旅行ガイド、目的地のプロモーションビデオ、ソーシャルメディアの画像、文化のハイライト映像でオーディオを翻訳し、アクセスしやすく魅力的なものにします。
- 企業のトレーニングとコミュニケーション: 社内コミュニケーション ビジュアル、従業員のオンボーディング資料、コンプライアンス トレーニング、国際的なチーム向けのグローバルな企業発表で音声を翻訳します。
Eコマース&製品プレゼンテーション : 製品の開封ビジュアル、チュートリアル、顧客の声、説明動画の音声を翻訳して、国際的な買い物客に対応します。- 公共サービスと情報に関するお知らせ: パブリックアウェアネス ビジュアル、イベント スケジュール、安全に関するお知らせ、および多言語アクセシビリティのための政府の情報ブロードキャストでオーディオを翻訳します。
- アクセシビリティ機能: 多言語の音声と字幕を通じてビデオ コンテンツのアクセシビリティを広げるため。
- ニュースとジャーニシング コンテンツ: さまざまな言語対象ユーザー向けに、ニュース セグメント、インタビュー、プレス リリース、ニュース速報の音声を翻訳します。 ニュース ソースを翻訳しようとしているお客様には、追加のレビューが必要です。
カスタム text to speech アバターと事前構築済みのtext to speechアバターの用途
カスタム text to speech アバターに対して承認されたユース ケースを次に示します。
- Virtual Assistant または Chatbot: 仮想アシスタント、仮想コンパニオン、仮想セールス アシスタント、またはcustomer service アプリケーション用に作成します。
- エンタープライズ コンテキストのコンテンツ生成: 製品情報、マーケティング資料、ビジネス プロモーション コンテンツ、および社内のビジネスコミュニケーションを伝えるために使用します。 たとえば、ブランドを宣伝するためのビジネス リーダーのキャラクター アバターやデジタル ツインなどがあります。
- 教育的またはインタラクティブな学習:教材、オンライン学習、対話型レッスン計画、シミュレーション学習、またはガイド付き博物館ツアーを提示するための架空のブランドまたはキャラクターアバターを作成します。
- メディア: エンターテイメント: 更新情報を提示したり、知識を共有したり、対話型メディアを作成したり、ビデオ、ゲーム、拡張現実や仮想現実などのエンターテイメント シナリオに向けて話すヘッド ビデオを作成したりします。
- アクセシビリティ機能: 音声障害のあるユーザーによるコミュニケーションを容易にするために使用します。
- 自己編集コンテンツ: アバター タレントによって作成されたコンテンツを読み取るためのアバターを作成します。
- 公共サービスと情報のお知らせ: 公共の会場のお知らせや、交通、天気、イベント情報、スケジュールなどの情報放送など、公共サービス情報を伝達するための架空のブランドまたはキャラクターイメージを作成します。 このユース ケースは、ジャーカニックコンテンツやニュースコンテンツを対象としたものではありません。
- 翻訳とローカライズ: さまざまな言語で会話を翻訳したり、オーディオ メディアをビデオ形式で翻訳したりするための翻訳アプリケーションで使用します。
カスタムtext to speechアバターの他のすべての使用は禁止されています。 さらに、カスタム テキスト読み上げアバターは限定アクセスのサービスであり、この機能にアクセスするには登録が必要です。 Microsoft の制限付きAccess ポリシーの詳細については、aka.ms/limitedaccesscogservicesを参照してください。 一部の機能は、Microsoft が管理する顧客とパートナーのみが利用でき、登録時に Microsoft によって承認された特定のユース ケースに対してのみ使用できます。
事前構築済みのtext to speechアバターは、上記のカスタム アバターのユース ケースや、顧客が選択した追加のユース ケースにも使用でき、Azure許容される使用ポリシーと Azure Speech text to speech の行動コードと一致します。 適用されるすべての使用条件を満たす事前構築済みのtext to speechアバターの追加のユース ケースでは、登録や事前承認は必要ありません。
ユース ケースを選択するときの考慮事項
革新的なソリューションやアプリケーションでtext to speech機能を使用することをお勧めします。 すべての音声合成機能は、Azure許容使用ポリシーとAzure音声合成用の行動規範に従う必要があります。 さらに、カスタム ニューラル音声とカスタム text to speech アバターは、Limited Access登録フォームを通じて承認されたユース ケースにのみ使用できます。 さらに、text to speech機能のユース ケースを選択する際の考慮事項をいくつか次に示します。
- ユース ケースの配置: text to speech機能の使用目的が、text to speech機能の機能と意図した目的と一致していることを確認します。
- 責任ある AI に関する考慮事項: 誤解を招く、または有害なコンテンツが作成されないようにすることで、責任ある AI プラクティスに優先順位を付けます。 text to speech機能を使用する場合は、プライバシー、データ保護、法的規制に従ってください。
- 行動規範を確認する: Microsoft は、すべてのtext to speech機能の特定の使用を禁止する行動規範を確立しました。 text to speech サービスのユース ケースを選択するときは、行動規範に準拠していることを確認します。
- 編集コントロールの演習: 合成音声は人間に似た音を鳴らす可能性があり、誤ったコンテンツや誤解を招くコンテンツの効果を増幅できるため、適切な編集制御が欠けているコンテンツで合成音声を使用することを慎重に検討してください。
- 開示: 音声、画像、ビデオの合成的性質をユーザーに開示し、ユーザーが詐欺にあったり、他の人をだましたりして、実際の人と対話していると誤解する可能性を低くします。
- 法的および規制上の考慮事項: 組織は、Foundry Tools とソリューションを使用する際に、特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用には適していない可能性があります。 さらに、Foundry Tools またはソリューションは、該当するサービス利用規約および関連する行動規範で禁止されている方法で設計されておらず、使用されない場合があります。
これらの考慮事項に従うことで、ユーザーは、事前構築済みのニューラル音声とカスタム ニューラル音声の両方を責任を持って活用できます。
制限事項
text to speechの制限事項は、テクノロジーとその使用や影響に影響を与える人間、社会、組織的要因が交わるところで考慮する必要があります。 text to speechは高度な音声合成機能を提供しますが、潜在的なエラーを最小限に抑えるために責任を持ってデプロイする際に注意すべきいくつかの制限があります。
技術的な制限事項、運用上の要因、範囲
text to speechを使用する場合の技術的な制限には、発音とイントネーションの精度が含まれます。 text to speechは自然に聞こえる音声を生成するように設計されていますが、特定の単語、名前、または一般的でないフレーズで困難が発生する可能性があります。 ユーザーは、特にニッチまたはドメイン固有のボキャブラリを扱う場合に、システムが誤って単語を誤って発音または強調する可能性がある場合があることに注意する必要があります。
特定の母集団は、これらの技術的な制限によってより悪影響を受ける可能性があることに注意することが重要です。 たとえば、合成音声に大きく依存する聴覚障碍のある個人は、音声出力の不明確または歪んだ理解において課題に直面する可能性があります。 同様に、認知障碍や言語関連の障碍を持つユーザーは、不自然なイントネーションや誤発音の単語で音声を理解することが困難な場合があります。
- 言語的制限: 特に性別、民族性、または地域のアクセントに関連する偏りを最小限に抑えるためにトレーニング データを慎重にキュレーションおよび準備しますが、text to speechでは複数の言語とアクセントをサポートしていますが、異なる言語間での音声の品質と可用性にばらつきがある可能性があります。 お客様は、特定の言語または方言に固有の発音精度、イントネーション、言語的な微妙な違いについて、潜在的な制限事項に注意する必要があります。
- コンテキストと感情: 音声合成は、コンテキスト情報や感情を正確に伝えることに制限がある場合があります。 お客様は、システムが入力テキストに含まれる感情のニュアンスや微妙な手掛かりを理解できないことに注意する必要があります。 追加のコンテキストを提供したり、他の方法を利用して感情を効果的に伝えたりするために考慮する必要があります。
- 可用性: Microsoft は、セキュリティ、法的、またはシステムのパフォーマンスに関する考慮事項で迅速な削除が必要な場合を除き、事前構築済みのニューラル音声をカタログから削除する前に、12 か月の通知をお客様に提供します。 これはプレビューには適用されません。
各アプリケーションは異なり、基本モデルがコンテキストと一致しない場合や、ユース ケースに必要なすべてのシナリオに対応している場合があります。 開発者の皆さんに、テキスト読み上げ合成音声やビデオの品質を、徹底的に評価することをお勧めします。さまざまな人口統計グループのユーザーや異なる音声特性を持つユーザーを含めた、ユースケースを反映した実際のデータを使用して検証してください。 高品質の音声モデルを構築するためのベスト プラクティスについては、「トレーニング済みの音声モデルの品質」セクションを参照してください。
パフォーマンスの確保に加えて、合成音声とアバターによるステレオタイピングと消去のリスクを最小限に抑える方法を検討することが重要です。 たとえば、スマート音声アシスタント用のカスタム ニューラル音声を作成する場合は、作成に適した音声を慎重に検討し、さまざまな背景から個人から多様な視点を求めます。 システムを構築して評価するときは、常に多様な入力を求めます。
公平性に関する考慮事項
Microsoft では、地球上のすべての人がもっと多くのことをできるように力を与えることを目指しています。 この目標の重要な部分は、公平で包括的なテクノロジと製品の作成に取り組んでいます。 公平性は多次元の社会技術のトピックであり、製品開発のさまざまな側面に影響を与えます。 公平性に対する Microsoft のアプローチの詳細については、 こちらをご覧ください。
text to speechを含む AI システムを使用する際に考慮すべき重要なディメンションの 1 つは、システムがさまざまなグループのユーザーに対してどの程度のパフォーマンスを発揮するかです。 調査によると、すべてのグループのパフォーマンスの向上に重点を置いた意識的な取り組みがなければ、AI システムは、人種、民族性、性別、年齢など、さまざまな人口統計要因にわたってさまざまなレベルのパフォーマンスを示すことができます。
Azure AI text to speechの評価の一環として、潜在的な公平性の害を評価するための分析を実施しました。 私たちは、存在する可能性があり、公平性に影響を与える可能性のある差異や相違を特定することを目的として、さまざまな人口統計グループ間のシステムのパフォーマンスを調べました。
場合によっては、パフォーマンスの差異が残っている可能性があります。 これらの不一致が目標を超える可能性があることに注意することが重要であり、潜在的な偏りやパフォーマンスのギャップに対処し、最小限に抑え、アクターの人口統計グループの選択を慎重に検討し、さまざまな背景から多様な視点を求めることに積極的に取り組んでいます。
ステレオタイピング、軽蔑、消去などの表現上の損害については、これらの問題に関連するリスクを認識します。 評価プロセスではこのようなリスクを軽減することを目的としていますが、ユーザーは特定のユース ケースを慎重に検討し、必要に応じて追加の軽減策を実装することをお勧めします。 人間をループに加えることで、潜在的なバイアスや意図しない結果に対処するための監視の追加レイヤーを提供します。 ブロックリストまたは許可リストを使用すると、合成された音声が目的の標準と一致し、有害または不適切なコンテンツを回避するのにも役立ちます。
私たちは、さまざまな人口統計グループ全体のシステムのパフォーマンスと潜在的な公平性の懸念をより深く理解するために、公平性評価を継続的に改善することに取り組んでいます。 評価プロセスは進行中であり、公平性と包摂性を強化し、特定された差異を軽減するために積極的に取り組んでいます。 私たちは、公平性に関する考慮事項に対処することの重要性を理解し、text to speechが信頼性と公平な合成音声出力を提供するように努めています。
この情報は、公平性評価に関するこれまでの知識を表しており、評価手法の改善と、発生する可能性のある公平性の懸念への対処に引き続き専念しています。
システム パフォーマンス
text to speech システムのパフォーマンスとは、書き込まれたテキストを合成音声に変換できる正確かつ自然な方法を指します。 これは、生成されたオーディオ出力の品質と有効性を評価するために、さまざまなメトリックを使用して測定されます。 使用される一般的なパフォーマンス メトリックには、次のようなものがあります。
- 平均オピニオン スコア (MOS): ジャッジが合成された音声とアバター ビデオの全体的な品質を表すスコアを提供する評価システム。 MOS が高いほど、品質が向上します。
- MOS ギャップ: 人間の録音の MOS スコアと生成されたオーディオ トラック/ビデオの違い。 小さい MOS ギャップは、人間の音声や人間の類似性に近い点を示します。
- 類似性 MOS (SMOS): 生成されたオーディオ トラック/ビデオと人間の録音の類似性を測定します。 SMOS が高いほど、類似性が向上します。
- Intelligibility: 合成された音声における正しく理解可能な単語の割合。
最新のモデルであっても、text to speechのような AI システムではエラーが発生する可能性があります。 たとえば、システムでは、微妙な不自然なイントネーションや発音エラーを含む合成音声が生成され、理想的ではないユーザー エクスペリエンスが得られる場合や、システムがテキストの解釈を誤ったり、異常な言語構造に苦労したりして、不自然または理解不能な音声になる可能性があります。
システム パフォーマンスを向上させるためのベスト プラクティス
システムのパフォーマンスを向上させ、text to speechでシステムの動作を調整するには、いくつかのベスト プラクティスに従うことができます。 これらのプラクティスでは、トレードオフを最適化し、特定のユース ケース要件を満たすために、さまざまなコンポーネントとパラメーターを調整する必要があります。 ただし、公平性と包摂性を確保するために、異なる母集団に対する潜在的な影響を考慮することが重要です。
SSML (音声合成マークアップ言語) の使用は、text to speech出力品質を向上させるベスト プラクティスと見なされます。 SSML を使用すると、ユーザーは合成された音声をより細かく制御でき、発音、イントネーション、強調、その他のプロソディック機能のカスタマイズが可能になります。 ユーザーは、テキストに SSML タグを組み込むことで、一時停止の追加、音声レートの調整、発音の指定、ピッチと音量の制御などを行うことができます。 このレベルの微調整は、より自然で表現力豊かな音声を作成し、text to speech出力をより人間的で魅力的なものにするのに役立ちます。 すべての SSML マークアップを API に直接渡すことができます。 また、お客様が直感的なユーザー インターフェイスを使用して微調整できるオンライン ツールであるオーディオ コンテンツ作成も提供しています。
ユース ケースに特殊なボキャブラリやドメイン固有のコンテンツが含まれている場合は、カスタム辞書機能を使用して、ドメイン固有の用語または語句を正確に発音して伝達するシステムの機能を向上することを検討してください。
text to speechの評価
評価方法
システム全体のパフォーマンスtext to speech評価するためによく使用されるメトリックには、次のようなものがあります。
- 人間の録音との平均オピニオン スコア (MOS) ギャップ: 通常、text to speech音声モデルの品質を人間の録音と比較するために使用されます。 カスタムニューラル音声によって作成された音声モデルの品質は、人間の録音に匹敵することが期待されており、MOSスコアでの差は0.5以下であると予測されています。
- カスタム ニューラル音声の場合は、Similarity MOS (SMOS) を使用して、カスタム音声が元の人間の録音とどのように類似しているかを測定することもできます。 SMOSの研究では、ジャッジはペアのオーディオトラックのセットを聴くように求められます。1つはカスタム音声を使用して生成され、もう1つはトレーニングデータ内の元の人間の録音から生成され、各ペアの2つのオーディオトラックが同じ人によって話された場合のレートは、5ポイントスケール(1は最低、 5 番目に高い値)。 平均スコアは SMOS スコアとして報告されます。 優れたカスタム ニューラル音声では、4.0 より高い SMOS を実現することをお勧めします。
- MOS と SMOS を使用して自然性を測定するだけでなく、生成された音声の発音精度を確認することで、音声モデルの明瞭度を評価することもできます。 これは、ジャッジが一連のテスト サンプルを聞いて、意味を理解して理解できない単語を示すことができるかどうかを判断することで行われます。 Intelligibility 率は、テストされた単語の合計数 (つまり、理解可能な単語の数/テストされた単語の合計数 * 100%) のうち、正しく理解可能な単語の割合を使用して計算されます。 通常、実用的な音声合成エンジンは、理解度98%のスコアに到達する必要があります。
評価結果
Text to speechは、多様な業界や分野の要件を満たす、高品質で自然な音声合成を一貫して提供します。 評価には、システムのトレーニングデータとテストデータの広範なテストが含まれており、実際のシナリオで発生する意図された用途と運用要因を表していること、合成された音声出力のテストサンプルが含まれます。
評価結果は、ケースの最大サイズや必要なトレーニング データの最小量など、システムの設計における制約に関する決定に影響を与えました。 さまざまなデータ セット、設定、パラメーターにわたってシステムのパフォーマンスを分析することで、システムの動作、信頼性、安全性を最適化するための適切な制約が設定されています。
評価は幅広いユース ケースを対象としますが、評価の直接の一部ではないユース ケース間で結果がある程度一般化可能であることに注意することが重要です。 システムの堅牢性とパフォーマンスは、明示的にテストされていない可能性があるシナリオを含め、さまざまなシナリオを処理する能力に自信を持っています。
エクスペリエンスに基づいて、推奨されるテストとスコア範囲を次に示します。
| 測定 | Definition | 計算方法 | 推奨されるテキスト サイズ | 推奨スコア |
|---|---|---|---|---|
| MOS | オーディオ トラックの品質の平均オピニオン スコア | 各オーディオの各ジャッジの評価スコアの平均 | > 生成された 30 のオーディオ トラック | > 4.0 (通常、人間の記録の MOS が 4.5 より高い必要があります) |
| MOS ギャップ | 人間の録音と生成されたオーディオ トラックの MOS スコアの違い | 人間の録音の MOS スコアから生成されたオーディオ トラックの MOS スコアを引いた値 | >10人の録音、>30の生成されたオーディオトラック、各オーディオで20人のジャッジ> | < 0.5 |
| SMOS | 生成されたオーディオ トラックと人間の録音の類似性 | オーディオ トラックの各ペアの類似性レベルの評価スコアの平均 | > 40組、 > 各ペアで20人のジャッジ | > 4.0、 > 3.5 (セカンダリ言語) |
| 明瞭性 | 生成された音声の単語レベルでの発音精度 | テストされた単語の合計数に対する正しく理解可能な単語の割合 | > 生成された60のオーディオトラック、 > 各オーディオで10人のジャッジ | > 98% |
お客様が使用するテキスト読み上げ機能の評価と統合
text to speech機能をユース ケースに責任を持って統合するのに役立つベスト プラクティスを次に示します。
音声が合成されたときに開示する
音声がコンピューターによって生成されることを開示すると、詐欺による有害な結果のリスクを最小限に抑えるだけでなく、音声を配信する組織の信頼も高まります。 詳しくは、開示方法をご覧ください。
Microsoft では、お客様にtext to speech音声の合成的性質をユーザーに開示するよう求めます。
- 特に既知の人物の声を使用する場合は、対象ユーザーに適切な開示を行ってください。 人は、情報を提供する人の一部に基づいて、意識的に、または無意識に判断します。 たとえば、ブロードキャストの開始時に開示を口頭で共有できます。 詳細については、の秘密保持パターンを参照してください。
- 未成年者や子供が関与する状況に対して設計された、または使用される可能性のあるユース ケースを持つ親または他の当事者に対して適切な開示を検討してください。 ユース ケースが未成年者または子供を対象としている場合は、保護者または法的保護者が合成メディアの役割を理解し、エクスペリエンスを使用するかどうかについて未成年者または子供に代わって情報に基づいた意思決定を行うことができるように、開示が明確かつ透過的であることを確認する必要があります。
アバター ビデオが合成されている場合に開示する
アバターを話すビデオがコンピューターによって生成されることを開示すると、詐欺による有害な結果のリスクを最小限に抑えるだけでなく、ビデオを配信する組織への信頼も高まります。 詳しくは、開示方法をご覧ください。
Microsoft では、text to speechアバターの合成的性質をユーザーに開示するようお客様に求めます。
- 特に既知の人物の画像 (および音声) を使用する場合は、対象ユーザーに適切な開示を行ってください。 人は、情報を提供する人の一部に基づいて、意識的に、または無意識に判断します。 たとえば、"このビデオの音声と画像は AI によって生成されます" などの透かしを使用して、テキストで開示したり、ビデオの開始時に口頭で共有したりできます。 詳細については、の秘密保持パターンを参照してください。
- 未成年者や子供が関与する状況に対して設計された、または使用される可能性のあるユース ケースを持つ親または他の当事者に対して適切な開示を検討してください。 ユース ケースが未成年者または子供を対象としている場合は、保護者または法的保護者が合成メディアの役割を理解し、エクスペリエンスを使用するかどうかについて未成年者または子供に代わって情報に基づいた意思決定を行うことができるように、開示が明確かつ透過的であることを確認する必要があります。
シナリオに適した音声の種類を選択する
使用のコンテキストと、text to speechの音声やアバターの使用に関連する潜在的な損害を慎重に検討してください。 たとえば、高忠実度の合成音声は、個人のメッセージング、金融取引、人間の適応性や共感を必要とする複雑な状況など、リスクの高いシナリオでは適切でない場合があります。
また、ユーザーは、コンテキストに応じて、音声の種類やアバターの表現やジェスチャに対して異なる期待を持つ場合もあります。 たとえば、合成音声で読み上げられる機密性の高いニュースを聞くと、より共感的で人間的なトーンを好むユーザーもあれば、ニュートラルな音声を好むユーザーもいます。 ユーザー設定をより深く理解するために、アプリケーションのテストを検討してください。
機能と制限事項について透過的にする
ユーザーは、忠実度の高い合成音声エージェントとやり取りするときに、より高い期待を持つ可能性が高くなります。 システム機能がそれらの期待を満たさない場合、信頼が損なわれ、不快な、または有害なエクスペリエンスが発生する可能性があります。
オプションの人間サポートを提供する
あいまいなトランザクション シナリオ (コール サポート センターなど) では、ユーザーは常にコンピューター エージェントを信頼して要求に適切に応答するとは限りません。 このような状況では、システムの音声や機能の現実的な品質に関係なく、人間のサポートが必要になる場合があります。
ボイス タレントに関する考慮事項
顧客が音声タレントと協力してカスタム ニューラル音声を作成する場合は、以下のガイドラインが適用されます。
- 音声タレントは、音声モデルを制御し (使用する方法と場所)、その使用に対して補償を受ける必要があります。 Microsoft では、カスタム ニューラル音声のお客様に対し、音声タレントから合成音声の作成に必要な明確な書面による許可を取得し、各個人との顧客契約において、期間、使用、およびコンテンツの制限が考慮されていることを確実にする必要があります。 よく知られている人物の合成音声を作成する場合は、音声モデルで生成する予定の出力の内容をボイス タレントが編集または承認する方法を提供する必要があります。
- 一部の音声タレントは、潜在的な悪意のあるテクノロジの使用を認識できない可能性があり、テクノロジの機能についてシステム所有者から教育を受ける必要があります。 Microsoft では、音声およびアバタータレントのための Microsoft の告知を、音声タレントに直接、あるいは音声タレントの承認された担当者を通じて共有し、合成音声がどのように開発され、テキスト・トゥ・スピーチ サービスと連携して動作するかを説明することが必要です。
アバター タレントに関する考慮事項
顧客がアバタータレントと協力してカスタムアバターを作成する場合は、以下のガイドラインが適用されます。
- アバタータレントは、自分のアバターモデル(使用方法と使用場所)を制御し、その使用に対して補償を受ける必要があります。 Microsoft では、カスタムアバターのお客様が、アバタータレントから合成音声アバターを作成するための明示的な書面による許可を取得し、顧客と各個人との契約において期間、使用、およびコンテンツの制限を考慮することを確認する必要があります。 既知の人物のカスタム アバターを作成する場合は、アバター タレントが音声モデルで生成する予定の出力の内容を編集または承認する方法を提供する必要があります。
- 一部のアバター タレントは、潜在的な悪意のあるテクノロジの使用を認識できない可能性があり、テクノロジの機能についてシステム所有者から教育を受ける必要があります。 Microsoft では、お客様に対して、直接、またはアバター タレントの承認された担当者を通じて、音声およびアバター タレント向けの Microsoft の
Disclosure を共有して、合成アバター ビデオを開発し、text to speech サービスと連携して動作させる方法を説明する必要があります。
音声障害を持つユーザーに関する考慮事項
音声障害のある個人と協力して合成音声テクノロジを作成または展開する場合は、次のガイドラインが適用されます。
アクセシビリティ シナリオでタレントとの契約に関するガイドラインを提供する
お客様は、話す際に合成音声を使用する個人との契約を確立するためのガイドラインを策定する必要があります。 お客様は、個人との契約で、使用期間、所有権の譲渡やライセンスの条件、音声モデルを削除するための手順、未承認のaccessを防止する方法を指定することを検討する必要があります。
音声パターンの不整合を考慮する
自分の音声フォントを録音する音声障碍のある個人の場合、音声パターンの不整合 (特定の単語をスラーリングまたは発音できない) が録音プロセスを複雑にする可能性があります。 このような場合、合成音声テクノロジと録音セッションは、顧客によって決定された適切な宿泊施設を使用して設計する必要があります (たとえば、中断や追加の録音セッションを提供します)。
時間の経過に伴う変更を許可する
音声障害を持つ個人は、老化やその他の要因による変化を反映するように合成音声を更新したい場合があります。 個人には、時間の経過と伴って変化するスタイルの好みがあり、ピッチ、アクセント、その他の音声特性に変更を加えたい場合もあります。