Docker を使用した音声テキスト変換コンテナー

[アーティクル]
01/22/2024

音声テキスト変換コンテナーは、リアルタイム音声、または中間結果を含むバッチ音声録音の文字起こしを行います。この記事では、音声テキスト変換コンテナーをダウンロード、インストール、実行する方法について説明します。

前提条件の詳細、コンテナーが実行されていることの検証、同じホスト上での複数コンテナーの実行、切断されたコンテナーの実行については、「Docker を使用して音声コンテナーをインストールして実行する」を参照してください。

コンテナーイメージ

サポートされているすべてのバージョンとロケールの音声テキスト変換コンテナーイメージは、Microsoft Container Registry (MCR) シンジケートにあります。 azure-cognitive-services/speechservices/ リポジトリ内にあり、speech-to-text という名前が付いています。

完全修飾コンテナーイメージ名は mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text です。特定のバージョンを追加するか、:latest を追加して最新バージョンを取得します。

Version	Path
最新	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest` `latest` タグを指定すると、`en-US` ロケールの最新のイメージがプルされます。
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.6.0-amd64-mr-in`

latest を除くすべてのタグは次の形式であり、大文字と小文字が区別されます。

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

作業を容易にするために、このタグは JSON 形式でも使用できます。本文には、コンテナーパスとタグの一覧が含まれています。タグはバージョン別に並べ替えられませんが、次のスニペットに示すように、"latest" は必ずリストの末尾に含まれます。

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    "2.10.0-amd64-ar-ae",
    "2.10.0-amd64-ar-bh",
    "2.10.0-amd64-ar-eg",
    "2.10.0-amd64-ar-iq",
    "2.10.0-amd64-ar-jo",
    <--redacted for brevity-->
    "latest"
  ]
}

docker pull でコンテナーイメージを取得する

必要なハードウェアを含む前提条件を満たす必要があります。また、各音声コンテナーに対して推奨されるリソースの割り当ても参照してください。

Microsoft Container Registry からコンテナーイメージをダウンロードするには、docker pull コマンドを使用します。

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

重要

latest タグを指定すると、en-US ロケールの最新のイメージがプルされます。その他のバージョンとロケールについては、音声テキスト変換コンテナーイメージを参照してください。

docker run でコンテナーを実行する

コンテナーを実行するには、docker run コマンドを使用します。

音声テキスト変換
切断された音声テキスト変換

次の表は、さまざまな docker run パラメーターとその説明をまとめたものです。

パラメーター	説明
`{ENDPOINT_URI}`	測定と課金にはエンドポイントが必須です。詳細については、｢課金引数」を参照してください。
`{API_KEY}`	API キーは必須です。詳細については、｢課金引数」を参照してください。

音声テキスト変換コンテナーを実行する場合は、音声テキスト変換コンテナーの要件と推奨事項に従って、ポート、メモリ、CPU を構成します。

プレースホルダー値を含む docker run コマンドの例を次に示します。 ENDPOINT_URI と API_KEY の値を指定する必要があります。

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

このコマンドは、次の操作を行います。

コンテナーイメージから speech-to-text コンテナーを実行します。
4 つの CPU コアと 8 GB のメモリを割り当てます。
TCP ポート 5000 を公開し、コンテナーに pseudo-TTY を割り当てます。
コンテナーの終了後にそれを自動的に削除します。ホストコンピューター上のコンテナーイメージは引き続き利用できます。

切断された (インターネットに接続されていない) コンテナーを実行するには、こちらの要求フォームを送信し、承認を待つ必要があります。切断された環境でコンテナーを使用するためのコミットメントプランの申請と購入の詳細については、Azure AI サービスドキュメントの「切断された環境での Docker コンテナーの使用」を参照してください。

次の例では、インターネットに接続されていないコンテナーの実行を承認されている場合に使用する docker run コマンドの形式とプレースホルダーの値を示します。これらのプレースホルダーの値は、実際の値に置き換えます。

docker run コマンドで DownloadLicense=True パラメーターを指定すると、ライセンスファイルがダウンロードされて、インターネットに接続されていなくても Docker コンテナーを実行できます。有効期限も含まれており、それを過ぎると、そのライセンスファイルを使用してコンテナーを実行できなくなります。ライセンスファイルは、お客様が承認されている適切なコンテナーでのみ使用できます。たとえば、speech-to-text コンテナーのライセンスファイルを neural-text-to-speech コンテナーで使用することはできません。

プレースホルダー	説明
`{IMAGE}`	使用するコンテナーイメージ。例: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{LICENSE_MOUNT}`	ライセンスがダウンロードされ、マウントされるパス。例: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	サービス要求を認証するためのエンドポイント。それは、Azure portal で、お使いのリソースの [キーとエンドポイント] ページで見つけることができます。例: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	音声リソースのキー。それは、Azure portal で、お使いのリソースの [キーとエンドポイント] ページで見つけることができます。
`{CONTAINER_LICENSE_DIRECTORY}`	コンテナーのローカルファイルシステム上のライセンスフォルダーの場所。例: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

ライセンスファイルがダウンロードされたら、接続されていない環境でコンテナーを実行できます。次の例では、使用する docker run コマンドの形式と、プレースホルダーの値を示します。これらのプレースホルダーの値は、実際の値に置き換えます。

コンテナーを実行する場所では必ず、ライセンスファイルをコンテナーにマウントする必要があり、コンテナーのローカルファイルシステム上のライセンスフォルダーの場所を Mounts:License= で指定する必要があります。課金用の使用状況レコードを書き込むことができるように、出力マウントも指定する必要があります。

プレースホルダー	値	形式または例
`{IMAGE}`	使用するコンテナーイメージ。例: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{MEMORY_SIZE}`	コンテナーに割り当てるメモリの適切なサイズ。例: `4g`
`{NUMBER_CPUS}`	コンテナーに割り当てる CPU の適切な数。例: `4`
`{LICENSE_MOUNT}`	ライセンスが配置され、マウントされるパス。例: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	ログの出力パス。例: `/host/output:/path/to/output/directory` 詳細については、Azure AI サービスドキュメントの「使用状況レコード」を参照してください。
`{CONTAINER_LICENSE_DIRECTORY}`	コンテナーのローカルファイルシステム上のライセンスフォルダーの場所。例: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	コンテナーのローカルファイルシステム上の出力フォルダーの場所。例: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

音声コンテナーには、実行時にライセンスファイルと課金ログを書き込むための既定のディレクトリが用意されています。既定のディレクトリはそれぞれ /license と /output です。

docker run -v コマンドを使用してこれらのディレクトリをコンテナーにマウントする場合は、コンテナーを実行する前に、ローカルコンピューターのディレクトリの所有権が user:group nonroot:nonroot に設定されていることを確認してください。

ファイルとディレクトリの所有権を設定するコマンドの例を以下に示します。

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

音声コンテナーでの docker run の詳細については、「Docker を使用して音声コンテナーをインストールして実行する」を参照してください。

コンテナーを使用する

音声コンテナーは、WebSocket ベースのクエリエンドポイント API シリーズを提供します。これには、Speech SDK および Speech CLI を介してアクセスします。既定では、Speech SDK と Speech CLI ではパブリック音声サービスが使用されます。コンテナーを使用するには、初期化方法を変更する必要があります。

重要

コンテナーで音声サービスを使用する場合は、必ずホスト認証を使用してください。キーとリージョンを構成すると、要求はパブリック音声サービスに送信されます。音声サービスからの結果は、期待どおりではない場合があります。切断されたコンテナーからの要求は失敗します。

この Azure クラウド初期化構成は使用しません。

var config = SpeechConfig.FromSubscription(...);

コンテナーホストで、この構成を使用します。

var config = SpeechConfig.FromHost(
    new Uri("ws://localhost:5000"));

この Azure クラウド初期化構成は使用しません。

auto speechConfig = SpeechConfig::FromSubscription(...);

コンテナーホストで、この構成を使用します。

auto speechConfig = SpeechConfig::FromHost("ws://localhost:5000");

この Azure クラウド初期化構成は使用しません。

speechConfig, err := speech.NewSpeechConfigFromSubscription(...)

コンテナーホストで、この構成を使用します。

speechConfig, err := speech.NewSpeechConfigFromHost("ws://localhost:5000")

この Azure クラウド初期化構成は使用しません。

SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);

コンテナーホストで、この構成を使用します。

SpeechConfig speechConfig = SpeechConfig.fromHost("ws://localhost:5000");

この Azure クラウド初期化構成は使用しません。

const speechConfig = sdk.SpeechConfig.fromSubscription(...);

コンテナーホストで、この構成を使用します。

const speechConfig = sdk.SpeechConfig.fromHost("ws://localhost:5000");

この Azure クラウド初期化構成は使用しません。

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];

コンテナーホストで、この構成を使用します。

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"ws://localhost:5000"];

この Azure クラウド初期化構成は使用しません。

let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");

コンテナーホストで、この構成を使用します。

let speechConfig = SPXSpeechConfiguration(host: "ws://localhost:5000");

この Azure クラウド初期化構成は使用しません。

speech_config = speechsdk.SpeechConfig(
    subscription=speech_key, region=service_region)

コンテナーエンドポイントで、この構成を使用します。

speech_config = speechsdk.SpeechConfig(
    host="ws://localhost:5000")

コンテナーで Speech CLI を使用する場合は、--host ws://localhost:5000/ オプションを含めます。 CLI が認証に音声キーを使用しないようにするには、--key none も指定する必要があります。 Speech CLI を構成する方法については、「Azure AI Speech CLI の概要」をご覧ください。

キーとリージョンではなく、ホスト認証を使用して、音声テキスト変換のクイックスタートをお試しください。

次のステップ

「音声コンテナーの概要」を参照する
構成設定について、コンテナーの構成を確認します。
より多くの Azure AI コンテナーを使用する

Docker を使用した音声テキスト変換コンテナー

コンテナー イメージ

docker pull でコンテナー イメージを取得する

docker run でコンテナーを実行する

コンテナーを使用する

次のステップ

その他のリソース

コンテナーイメージ

docker pull でコンテナーイメージを取得する