Docker を使用したテキスト読み上げコンテナー

[アーティクル]
01/22/2024

ニューラルテキスト読み上げコンテナーでは、ディープニューラルネットワークテクノロジを使ってテキストが自然な響きの音声に変換されることで、合成音声がより自然なものになります。この記事では、テキスト読み上げコンテナーをダウンロード、インストール、実行する方法について説明します。

前提条件の詳細、コンテナーが実行されていることの検証、同じホスト上での複数コンテナーの実行、切断されたコンテナーの実行については、「Docker を使用して音声コンテナーをインストールして実行する」を参照してください。

コンテナーイメージ

サポートされているすべてのバージョンとロケールのニューラルテキスト読み上げコンテナーイメージは、Microsoft Container Registry (MCR) シンジケートにあります。 azure-cognitive-services/speechservices/ リポジトリ内にあり、neural-text-to-speech という名前が付いています。

完全修飾コンテナーイメージ名は mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech です。特定のバージョンを追加するか、:latest を追加して最新バージョンを取得します。

Version	Path
最新	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest` `latest` タグにより、`en-US` ロケールと `en-us-arianeural` 音声がプルされます。
3.1.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:3.1.0-amd64-en-us-arianeural`

latest を除くすべてのタグは次の形式であり、大文字と小文字が区別されます。

<major>.<minor>.<patch>-<platform>-<voice>-<preview>

作業を容易にするために、このタグは JSON 形式でも使用できます。本文には、コンテナーパスとタグの一覧が含まれています。タグはバージョン別に並べ替えられませんが、こちらのスニペットに示すように、"latest" は必ずリストの末尾に含まれます。

{
  "name": "azure-cognitive-services/speechservices/neural-text-to-speech",
  "tags": [
    <--redacted for brevity-->
    "3.1.0-amd64-en-us-arianeural",
    "3.1.0-amd64-en-us-guyneural",
    "3.1.0-amd64-en-us-jennymultilingualneural",
    "3.1.0-amd64-en-us-jennyneural",
    "3.1.0-amd64-en-us-michelleneural",
    "3.1.0-amd64-es-es-alvaroneural",
    "3.1.0-amd64-es-es-elviraneural",
    "3.1.0-amd64-es-mx-candelaneural",
    "3.1.0-amd64-es-mx-dalianeural",
    "3.1.0-amd64-es-mx-jorgeneural",
    <--redacted for brevity-->
    "latest"
  ]
}

重要

2021 年 8 月 31 日に、標準の音声合成の音声と標準のテキスト読み上げコンテナーを廃止しました。代わりに、ニューラルテキスト読み上げコンテナーバージョン 3.0 以上で、ニューラル音声を使用する必要があります。

2024 年 2 月 29 日以降、バージョン 2.19 以前のテキスト読み上げとニューラルテキスト読み上げコンテナーは、サポートされなくなります。アプリケーションの更新の詳細については、標準音声から事前構築済みニューラル音声への移行に関するページを参照してください。

docker pull でコンテナーイメージを取得する

必要なハードウェアを含む前提条件を満たす必要があります。また、各音声コンテナーに対して推奨されるリソースの割り当ても参照してください。

Microsoft Container Registry からコンテナーイメージをダウンロードするには、docker pull コマンドを使用します。

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest

重要

latest タグにより、en-US ロケールと en-us-arianeural 音声がプルされます。その他のロケールと音声については、テキスト読み上げコンテナーイメージに関するセクションを参照してください。

docker run でコンテナーを実行する

コンテナーを実行するには、docker run コマンドを使用します。

ニューラルテキスト読み上げ
切断状態のニューラルテキスト読み上げ

次の表は、さまざまな docker run パラメーターとその説明をまとめたものです。

パラメーター	説明
`{ENDPOINT_URI}`	測定と課金にはエンドポイントが必須です。詳細については、｢課金引数」を参照してください。
`{API_KEY}`	API キーは必須です。詳細については、｢課金引数」を参照してください。

テキスト読み上げコンテナーを実行する場合は、テキスト読み上げコンテナーの要件とレコメンデーションに従って、ポート、メモリ、CPU を構成します。

プレースホルダー値を含む docker run コマンドの例を次に示します。 ENDPOINT_URI と API_KEY の値を指定する必要があります。

docker run --rm -it -p 5000:5000 --memory 12g --cpus 6 \
mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

このコマンドは、次の操作を行います。

コンテナーイメージからニューラルテキスト読み上げコンテナーを実行します。
6 つの CPU コアと 12 GB のメモリを割り当てます。
TCP ポート 5000 を公開し、コンテナーに pseudo-TTY を割り当てます。
コンテナーの終了後にそれを自動的に削除します。ホストコンピューター上のコンテナーイメージは引き続き利用できます。

切断された (インターネットに接続されていない) コンテナーを実行するには、こちらの要求フォームを送信し、承認を待つ必要があります。切断された環境でコンテナーを使用するためのコミットメントプランの申請と購入の詳細については、Azure AI サービスドキュメントの「切断された環境での Docker コンテナーの使用」を参照してください。

次の例では、インターネットに接続されていないコンテナーの実行を承認されている場合に使用する docker run コマンドの形式とプレースホルダーの値を示します。これらのプレースホルダーの値は、実際の値に置き換えます。

docker run コマンドで DownloadLicense=True パラメーターを指定すると、ライセンスファイルがダウンロードされて、インターネットに接続されていなくても Docker コンテナーを実行できます。有効期限も含まれており、それを過ぎると、そのライセンスファイルを使用してコンテナーを実行できなくなります。ライセンスファイルは、お客様が承認されている適切なコンテナーでのみ使用できます。たとえば、speech-to-text コンテナーのライセンスファイルを neural-text-to-speech コンテナーで使用することはできません。

プレースホルダー	説明
`{IMAGE}`	使用するコンテナーイメージ。例: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{LICENSE_MOUNT}`	ライセンスがダウンロードされ、マウントされるパス。例: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	サービス要求を認証するためのエンドポイント。それは、Azure portal で、お使いのリソースの [キーとエンドポイント] ページで見つけることができます。例: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	音声リソースのキー。それは、Azure portal で、お使いのリソースの [キーとエンドポイント] ページで見つけることができます。
`{CONTAINER_LICENSE_DIRECTORY}`	コンテナーのローカルファイルシステム上のライセンスフォルダーの場所。例: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

ライセンスファイルがダウンロードされたら、接続されていない環境でコンテナーを実行できます。次の例では、使用する docker run コマンドの形式と、プレースホルダーの値を示します。これらのプレースホルダーの値は、実際の値に置き換えます。

コンテナーを実行する場所では必ず、ライセンスファイルをコンテナーにマウントする必要があり、コンテナーのローカルファイルシステム上のライセンスフォルダーの場所を Mounts:License= で指定する必要があります。課金用の使用状況レコードを書き込むことができるように、出力マウントも指定する必要があります。

プレースホルダー	値	形式または例
`{IMAGE}`	使用するコンテナーイメージ。例: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{MEMORY_SIZE}`	コンテナーに割り当てるメモリの適切なサイズ。例: `4g`
`{NUMBER_CPUS}`	コンテナーに割り当てる CPU の適切な数。例: `4`
`{LICENSE_MOUNT}`	ライセンスが配置され、マウントされるパス。例: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	ログの出力パス。例: `/host/output:/path/to/output/directory` 詳細については、Azure AI サービスドキュメントの「使用状況レコード」を参照してください。
`{CONTAINER_LICENSE_DIRECTORY}`	コンテナーのローカルファイルシステム上のライセンスフォルダーの場所。例: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	コンテナーのローカルファイルシステム上の出力フォルダーの場所。例: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

音声コンテナーには、実行時にライセンスファイルと課金ログを書き込むための既定のディレクトリが用意されています。既定のディレクトリはそれぞれ /license と /output です。

docker run -v コマンドを使用してこれらのディレクトリをコンテナーにマウントする場合は、コンテナーを実行する前に、ローカルコンピューターのディレクトリの所有権が user:group nonroot:nonroot に設定されていることを確認してください。

ファイルとディレクトリの所有権を設定するコマンドの例を以下に示します。

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

音声コンテナーでの docker run の詳細については、「Docker を使用して音声コンテナーをインストールして実行する」を参照してください。

コンテナーを使用する

音声コンテナーは、WebSocket ベースのクエリエンドポイント API シリーズを提供します。これには、Speech SDK および Speech CLI を介してアクセスします。既定では、Speech SDK と Speech CLI ではパブリック音声サービスが使用されます。コンテナーを使用するには、初期化方法を変更する必要があります。

重要

コンテナーで音声サービスを使用する場合は、必ずホスト認証を使用してください。キーとリージョンを構成すると、要求はパブリック音声サービスに送信されます。音声サービスからの結果は、期待どおりではない場合があります。切断されたコンテナーからの要求は失敗します。

この Azure クラウド初期化構成は使用しません。

var config = SpeechConfig.FromSubscription(...);

コンテナーホストで、この構成を使用します。

var config = SpeechConfig.FromHost(
    new Uri("http://localhost:5000"));

この Azure クラウド初期化構成は使用しません。

auto speechConfig = SpeechConfig::FromSubscription(...);

コンテナーホストで、この構成を使用します。

auto speechConfig = SpeechConfig::FromHost("http://localhost:5000");

この Azure クラウド初期化構成は使用しません。

speechConfig, err := speech.NewSpeechConfigFromSubscription(...)

コンテナーホストで、この構成を使用します。

speechConfig, err := speech.NewSpeechConfigFromHost("http://localhost:5000")

この Azure クラウド初期化構成は使用しません。

SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);

コンテナーホストで、この構成を使用します。

SpeechConfig speechConfig = SpeechConfig.fromHost("http://localhost:5000");

この Azure クラウド初期化構成は使用しません。

const speechConfig = sdk.SpeechConfig.fromSubscription(...);

コンテナーホストで、この構成を使用します。

const speechConfig = sdk.SpeechConfig.fromHost("http://localhost:5000");

この Azure クラウド初期化構成は使用しません。

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];

コンテナーホストで、この構成を使用します。

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"http://localhost:5000"];

この Azure クラウド初期化構成は使用しません。

let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");

コンテナーホストで、この構成を使用します。

let speechConfig = SPXSpeechConfiguration(host: "http://localhost:5000");

この Azure クラウド初期化構成は使用しません。

speech_config = speechsdk.SpeechConfig(
    subscription=speech_key, region=service_region)

コンテナーエンドポイントで、この構成を使用します。

speech_config = speechsdk.SpeechConfig(
    host="http://localhost:5000")

コンテナーで Speech CLI を使用する場合は、--host http://localhost:5000/ オプションを含めます。 CLI が認証に音声キーを使用しないようにするには、--key none も指定する必要があります。 Speech CLI を構成する方法については、「Azure AI Speech CLI の概要」をご覧ください。

キーとリージョンの代わりにホスト認証を使用して、テキスト読み上げのクイックスタートをお試しください。

SSML 音声要素

ニューラルテキスト読み上げ HTTP POST を構築する場合、SSML メッセージには name 属性を含む voice 要素が必要です。音声のロケールは、コンテナーモデルのロケールに対応している必要があります。

たとえば、latest タグ (既定値は "en-US") を使用してダウンロードされたモデルの音声名は en-US-AriaNeural になります。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaNeural">
        This is the text that is spoken.
    </voice>
</speak>

次のステップ

「音声コンテナーの概要」を参照する
構成設定について、コンテナーの構成を確認します。
より多くの Azure AI コンテナーを使用する

Docker を使用したテキスト読み上げコンテナー

コンテナー イメージ

docker pull でコンテナー イメージを取得する

docker run でコンテナーを実行する

コンテナーを使用する

SSML 音声要素

次のステップ

その他のリソース

コンテナーイメージ

docker pull でコンテナーイメージを取得する