Audio Content Creation ツールを使用するテキスト読み上げ

2025-02-07

Speech Studio の Audio Content Creation ツールを使用すると、コードを記述せずにテキストの読み上げを行うことができます。 Audio Content Creation ツールで、求めている音声オーディオの完成版を作成することもできます。出力オーディオをそのまま使用することも、さらにカスタマイズするための開始点として使用することもできます。

オーディオブック、ニュース放送、ビデオナレーション、チャットボットなどのさまざまなシナリオ向けの非常に自然なオーディオコンテンツをビルドします。 Audio Content Creation を使用すると、テキスト読み上げ音声を効率的に微調整したり、カスタマイズされたオーディオエクスペリエンスを設計したりできます。

このツールは、音声合成マークアップ言語 (SSML) に基づいています。これにより、音声の特徴、音声スタイル、話す速度、発音、韻律などのテキスト読み上げ出力属性をリアルタイムまたはバッチ合成で調整できます。

コードなしアプローチ: Audio Content Creation ツールを使用すると、コードを記述せずにテキスト読み上げ合成を行うことができます。出力オーディオは、必要な最終的な成果物になる場合があります。たとえば、ポッドキャストやビデオナレーションに出力オーディオを使用できます。
開発者にやさしい: 出力オーディオを聴き、SSML を調整して音声合成を向上させることができます。その後、 Speech SDK または Speech CLI を使用して、SSML をアプリケーションに統合できます。

幅広い言語と音声のポートフォリオに簡単にアクセスできます。これらの音声には、最新の標準音声とカスタム音声 (作成した場合) が含まれます。

作業の開始

Speech Studio の Audio Content Creation ツールには無料でアクセスできますが、Speech サービスの使用料は課金されます。このツールを使用するには、Azure アカウントでサインインし、音声リソースを作成する必要があります。

以降のセクションでは、Azure アカウントを作成し、音声リソースを取得する方法の手順について説明します。

手順 1: Azure アカウントを作成する

Audio Content Creation を使用するには、Microsoft アカウントと Azure アカウントが必要です。

Azure portal は、お使いの Azure アカウントを管理するための一元的な場所です。音声リソースを作成し、製品アクセスを管理し、単純な Web アプリから複雑なクラウドデプロイまで、あらゆるものを監視できます。

手順 2: 音声リソースを作成する

Azure アカウントにサインアップしたら、音声サービスにアクセスするために、Azure アカウントで音声リソースを作成する必要があります。 Azure portal で音声リソースを作成します。詳細については、「 AI Foundry リソースの作成」を参照してください。

新しい音声リソースを展開するまでに少し時間がかかります。展開が完了したら、Audio Content Creation ツールの使用を開始できます。

注

ニューラル音声を使用する予定の場合は、ニューラル音声をサポートするリージョンでリソースを作成するようにしてください。

Azure アカウントと音声リソースを取得したら、Speech Studio にサインインし、Audio Content Creation を選択します。
操作しようとしている Azure サブスクリプションと音声リソースを選択し、[リソースの使用] を選択します。

次に Audio Content Creation にサインインすると、現在の音声リソースの下にあるオーディオ作業ファイルに直接リンクされます。 Azure サブスクリプションの詳細と状態は、Azure portal で確認できます。

Azure サブスクリプションの所有者または管理者であれば、使用できる音声リソースがない場合に、Speech Studio で [新しいリソースの作成] をクリックして音声リソースを作成することができます。

特定の Azure サブスクリプションのユーザーロールを持っている場合、新しい音声リソースを作成するためのアクセス許可を持っていない可能性があります。アクセスを取得するには、管理者に問い合わせください。

任意の時点で音声リソースに切り替えるには、ページ上部の [設定] を選択します。

ディレクトリを切り替えるには、[設定] を選択するか、自分のプロファイルに移動します。

ツールの使用

次の図は、テキスト読み上げ出力を微調整するプロセスを示したものです。

テキスト読み上げの出力の微調整を行う一連の流れを示した図。

以下では、前の図の各手順について説明します。

操作しようとしている音声リソースを選択します。
プレーンテキストまたは SSML スクリプトを使用して、音声チューニングファイルを作成します。 Audio Content Creation にコンテンツを入力するか、アップロードします。
スクリプトの内容の音声と言語を選択します。オーディオコンテンツの作成には、すべての標準的なテキスト読み上げ音声が含まれます。標準音声またはカスタム音声を使用できます。

注

ゲートアクセスはカスタム音声で使用できます。これにより、自然な音声に似た高精細な音声を作成できます。詳細については、ゲートプロセスに関するページを参照してください。
プレビューするコンテンツを選択してから、[再生] (三角形のアイコン) を選択して、既定の合成出力をプレビューします。

テキストに何らかの変更を加えた場合は、[停止] アイコンを選択し、もう一度 [再生] を選択して、変更したスクリプトを使用してオーディオを再生成します。

発音、切れ目、ピッチ、速さ、抑揚、音声スタイルなどを調整して、出力を改善します。オプションの完全な一覧については、「音声合成マークアップ言語 (SSML)」を参照してください。

音声出力の調整方法の詳細については、YouTube でテキスト読み上げ変換方法の動画を参照してください。ただし、この動画は一部の地域では利用できない場合があり、視聴時には最新ではない可能性もあります。
チューニングした音声を保存してエクスポートします。

チューニングトラックをシステムに保存すると、作業を続行して出力を反復処理することができます。出力に問題がなければ、エクスポート機能を使用して音声作成タスクを作成できます。エクスポートタスクの状態を監視し、ご使用のアプリや製品で使用するための出力をダウンロードすることができます。

音声チューニングファイルを作成する

コンテンツは、2 つの方法のいずれかで Audio Content Creation ツールに取り込むことができます。

オプション 1: 新しいオーディオチューニングファイルを作成する

[新規]>[テキストファイル] をクリックして新しい音声チューニングファイルを作成します。
編集ウィンドウに内容を入力するか貼り付けます。各ファイルで使用できる文字数は 20,000 以下です。スクリプトに含まれる文字数が 20,000 より多い場合は、オプション 2 を使用して、内容を複数のファイルに自動的に分割できます。
[保存] を選択します。

オプション 2: オーディオチューニングファイルをアップロードする

[アップロード]>[テキストファイル] を選択して、1 つ以上のテキストファイルをインポートします。プレーンテキストと SSML の両方がサポートされています。

スクリプトファイルが 20,000 文字を超えている場合は、段落、文字、または正規表現によって内容を分割します。

テキストファイルをアップロードするときには、それらが以下の要件を満たしていることを確認してください。

プロパティ	説明
ファイル形式	プレーンテキスト (.txt) または SSML テキスト (.txt) ZIP ファイルはサポートされていません。
エンコード形式	UTF-8
ファイル名	各ファイルには一意の名前が必要です。重複するファイルはサポートされていません。
テキストの長さ	文字数の制限は 20,000 字です。ファイルがこの制限を超えている場合は、ツールの指示に従って分割します。
SSML の制限	各 SSML ファイルに含めることができる SSML は 1 つだけです。

プレーンテキストの例を以下に示します。

Welcome to use Audio Content Creation to customize audio output for your products.

SSML の例を次に示します。

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

チューニングした音声をエクスポートする

音声出力を確認し、チューニングと調整に問題がなければ、音声をエクスポートできます。

[エクスポート] をクリックして音声作成タスクを作成します。

クラウドでオーディオ出力を簡単に保存、検索するには、[オーディオライブラリにエクスポート] をお勧めします。 Azure BLOB ストレージを使用するとアプリケーションとより効果的に統合できます。ローカルのディスクにオーディオを直接ダウンロードすることもできます。

チューニングした音声の出力形式を選択します。次の表に、サポートされているオーディオ形式とサンプルレートを示します。

フォーマット	8 kHz サンプルレート	16 kHz サンプルレート	24 kHz サンプルレート	48 kHz サンプルレート
wav	リフ形式の音声ファイル - 8kHz、16ビット、モノラル、PCM	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	該当なし	オーディオ-16khz-128kビットレート-モノラル-MP3	オーディオ-24kHz-160kビットレート-モノラル-mp3	オーディオ-48キロヘルツ-192キロビットレート-モノラル-MP3

タスクの状態を表示するには、[タスク一覧] タブを選択します。

タスクが失敗した場合は、詳細情報のページで詳細なレポートを確認してください。
タスクが完了すると、[オーディオライブラリ] ペインでオーディオをダウンロードできるようになります。
ダウンロードするファイルと、[ダウンロード] を選択します。

これで、カスタムのチューニングされた音声をご使用のアプリや製品で使用する準備ができました。

BYOS と、BLOB の匿名パブリック読み取りアクセスを構成する

Bring Your Own Storage (BYOS) へのアクセス許可が失われると、ファイルの表示、作成、編集、または削除を実行できなくなります。アクセスを再開するには、Azure portal で現在のストレージを削除し、BYOS を再構成する必要があります。 BYOS を構成する方法の詳細については、「App Service でローカル共有として Azure Storage をマウントする」を参照してください。

BYOS のアクセス許可を構成したら、関連するコンテナーと BLOB の匿名パブリック読み取りアクセスを構成する必要があります。そうしない場合、BLOB データをパブリックアクセスで利用できず、BLOB 内の辞書ファイルにアクセスできなくなります。既定では、コンテナーのパブリックアクセス設定は無効になっています。匿名ユーザーにコンテナーとその BLOB に対する読み取りアクセスを許可するには、まず [BLOB パブリックアクセスを許可する] を [有効] に設定してストレージアカウントのパブリックアクセスを許可し、次にコンテナー (名前は acc-public-files) のパブリックアクセスレベル (BLOB 専用の匿名読み取りアクセス) を設定します。匿名パブリック読み取りアクセスを構成する方法の詳細については、「コンテナーと BLOB の匿名パブリック読み取りアクセスを構成する」を参照してください。

Audio Content Creation ユーザーを追加または削除する

複数のユーザーが Audio Content Creation を使用する場合は、それらのユーザーに Azure サブスクリプションと音声リソースへのアクセスを付与できます。 Azure サブスクリプションに追加したユーザーは、Azure サブスクリプションの下のすべてのリソースにアクセスできます。しかし、音声リソースにのみユーザーを追加した場合は、音声リソースにのみアクセスできるようになり、この Azure サブスクリプションの下にある他のリソースにはアクセスできません。音声リソースにアクセスできるユーザーは、Audio Content Creation を使用できます。

アクセスの付与対象のユーザーは、Microsoft アカウントを設定する必要があります。 Microsoft アカウントを持っていない場合は、わずか数分で作成できます。既存のメールアドレスを使用して、それを Microsoft アカウントにリンクすることも、Outlook のメールアドレスを作成して Microsoft アカウントとして使用することもできます。

ユーザーを音声リソースに追加する

ユーザーが Audio Content Creation を使用できるように、音声リソースにユーザーを追加するには、以下を実行します。

Azure portal で、左側のウィンドウで [すべてのサービス] を選択し、Azure AI サービスまたは Speech を検索します。
音声リソースを選択します。

注

また、リソースグループ、サブスクリプション、または管理グループ全体に対して Azure RBAC を設定することもできます。これを行うには、目的のスコープレベルを選択し、目的の項目に移動します (たとえば、[リソースグループ] を選択し、目的のリソースグループを選択します)。
左側のウィンドウで [アクセス制御 (IAM)] を選択します。
[追加]>[ロール割り当ての追加] の順に選択します。
次の画面の [ロール] タブで、追加するロール ([所有者] など) を選択します。
[メンバー] タブでユーザーのメールアドレスを入力し、ディレクトリ内のユーザーの名前を選択します。メールアドレスは、Microsoft Entra ID によって信頼されている Microsoft アカウントにリンクされている必要があります。ユーザーは、自分個人のメールアドレスを使用して、Microsoft アカウントに簡単にサインアップできます。
[確認と割り当て] タブで、 [確認と割り当て] を選択してロールを割り当てます。

以下では、次に何が行われるかを説明します。

ユーザーにメールでの招待が自動的に送信されます。

注

ユーザーが招待メールを受け取っていない場合は、[ロールの割り当て] で自分のアカウントを検索し、自分のプロファイルに移動できます。 [ID]>[招待が受け入れられました] を探し、[(管理)] を選択してメールでの招待を再送信します。招待リンクをコピーして彼らに送信することもできます。
メールで [招待を受諾]>[Azure への参加を承諾] を選択すると、受諾できます。
ユーザーは次に、Azure portal にリダイレクトされます。 Azure portal でさらにアクションを行う必要はありません。
しばらくすると、その音声リソースのスコープで、ユーザーにロールが割り当てられます。これで、この音声リソースへのアクセスが付与されます。

こうしてユーザーは、Audio Content Creation の製品ページへのアクセスや更新を行い、自分の Microsoft アカウントでサインインします。すべての音声製品の中から [Audio Content Creation] ブロックを選択します。ポップアップウィンドウまたは右上にある設定内で、音声リソースを選択します。

使用できる音声リソースを見つけられない場合は、それらが適切なディレクトリ内にあることを確認するために調査できます。それを行うには、右上にあるアカウントプロファイルを選択してから、[現在のディレクトリ] の横にある [切り替え] を選択します。選択できるディレクトリが複数ある場合は、複数のディレクトリにアクセスできることを意味します。別のディレクトリに切り替えて [設定] に移動すると、適切な音声リソースが使用可能かどうかを確認できます。

同じ音声リソース内にいるユーザーは、Audio Content Creation ツールでお互いの作業を見ることができます。 Audio Content Creation で、個々のユーザーが固有のプライベートワークプレースを持つようにする場合は、各ユーザーに対して新しい音声リソースを作成し、各ユーザーにその音声リソースへの一意のアクセスを付与します。

音声リソースからユーザーを削除する

音声リソースからユーザーのアクセス許可を削除するには、次の操作を行います。

Azure portal で Azure AI サービス を検索し、ユーザーを削除する音声リソースを選択します。
[アクセス制御 (IAM)] を選択してから、[ロールの割り当て] タブを選択して、この音声リソースのロールの割り当てをすべて表示します。
削除するユーザーを選択し、[削除] を選択してから、[OK] をクリックします。

ユーザーが他のユーザーにアクセスを付与できるようにする

あるユーザーが他のユーザーにアクセスを付与することを許可する場合は、そのユーザーに音声リソースの所有者ロールを割り当てて、そのユーザーを Azure ディレクトリ閲覧者として設定する必要があります。

ユーザーを音声リソースの所有者として追加します。詳細については、「ユーザーを音声リソースに追加する」を参照してください。
Azure portal で、左上にある折りたたまれたメニューを選択し、[Microsoft Entra ID] を選択してから、[ユーザー] を選択します。
ユーザーの Microsoft アカウントページを探し、ユーザーの詳細ページに移動してから、[割り当てられたロール] を選択します。
[割り当ての追加]>[ディレクトリ閲覧者] を選択します。 [割り当ての追加] ボタンを使用できない場合は、アクセスを持っていないことを意味します。ロールをユーザーに割り当てるには、所有者またはユーザーアクセス管理者のロールが付与されている必要があります。

次の方法で共有

Audio Content Creation ツールを使用するテキスト読み上げ

作業の開始

手順 1: Azure アカウントを作成する

手順 2: 音声リソースを作成する

手順 3: Azure アカウントと音声リソースを使用して Audio Content Creation にサインインする

ツールの使用

音声チューニング ファイルを作成する

オプション 1: 新しいオーディオ チューニング ファイルを作成する

オプション 2: オーディオ チューニング ファイルをアップロードする