クイックスタート: Azure AI Speech CLI の概要

[アーティクル]
01/22/2024

この記事では、コードを記述せずに、Azure AI Speech CLI (SPX とも呼ばれます) を使用して、音声テキスト変換、テキスト読み上げ、音声翻訳などの音声サービスを利用する方法を説明します。すぐに実稼働環境で使用可能な Speech CLI で、.bat またはシェルスクリプトを使用して、音声サービスの単純なワークフローを自動化することができます。

この記事では、コマンドプロンプトウィンドウ、ターミナル、PowerShell に関する実用的な知識があることを前提としています。

Note

PowerShell では、解析中止トークン (--%) は spx に続ける必要があります。たとえば、spx --% config @region を実行すると、現在のリージョンの構成値が表示されます。

ダウンロードしてインストールする

Windows に Speech CLI をインストールするには、次の手順に従います。

お使いのプラットフォームに対応した Microsoft Visual Studio 2019 の Visual C++ 再頒布可能パッケージをインストールします。初めてインストールする場合、再起動が必要になる場合があります。
.NET 6 をインストールします。
次のコマンドを入力して、.NET CLI から Speech CLI をインストールします。
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Speech CLI を更新するには、次のコマンドを入力します。
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

「spx」または「spx help」と入力して、Speech CLI のヘルプを表示します。

フォントの制限事項

Windows の Speech CLI では、ローカルコンピューター上のコマンドプロンプトで使用できるフォントのみを表示できます。 Windows ターミナルでは、Speech CLI によって対話的に生成されるすべてのフォントがサポートされます。

ファイルに出力すると、メモ帳などのテキストエディターや、Microsoft Edge などの Web ブラウザーでも、すべてのフォントを表示できます。

注意

この記事では、間もなくサポート終了 (EOL) 状態になる Linux ディストリビューションである CentOS について説明します。適宜、使用と計画を検討してください。詳細については、「CentOS のサポート終了に関するガイダンス」を参照してください。

Speech CLI を使用する x64 アーキテクチャでは、次の Linux ディストリビューションがサポートされています。

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

注意

Speech SDK (Speech CLI ではない) では追加のアーキテクチャがサポートされています。詳細については、「Speech SDK について」を参照してください。

Linux の x64 CPU で Speech CLI をインストールするには、次の手順に従います。

.NET 6 をインストールします。
次のコマンドを入力して、.NET CLI から Speech CLI をインストールします。
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Speech CLI を更新するには、次のコマンドを入力します。
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```
RHEL または CentOS Linux で、Linux 用の OpenSSL を構成します。
Ubuntu 20.04 Linux に、GStreamer をインストールします。

Speech CLI のヘルプを表示するには、「spx」と入力します。

macOS 10.14 以降に Speech CLI をインストールするには、次の手順に従います。

.NET 6 をインストールします。
次のコマンドを入力して、.NET CLI から Speech CLI をインストールします。
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Speech CLI を更新するには、次のコマンドを入力します。
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

「spx」または「spx help」と入力して、Speech CLI のヘルプを表示します。

次の例では、パブリックコンテナーイメージを Docker Hub からプルします。匿名の pull request を行うのではなく、最初に Docker Hub アカウント (docker login) で認証を行うことをお勧めします。パブリックコンテンツを使用するときの信頼性を向上させるには、Azure のプライベートのコンテナーレジストリにイメージをインポートして管理します。パブリックイメージの操作に関する詳細を参照してください。

Docker コンテナー内に Speech CLI をインストールするには、次の手順に従います。

プラットフォームにインストールされていない場合、Docker Desktop をインストールします。
新しいコマンドプロンプトまたはターミナルで、次のコマンドを入力します。
```
docker pull msftspeech/spx
```

Speech CLI のヘルプ情報を表示するには、次のコマンドを入力します。

docker run -it --rm msftspeech/spx help

コンテナーにディレクトリをマウントする

Speech CLI ツールでは、構成設定はファイルとして保存されます。いずれかのコマンド (ヘルプコマンドを除く) を実行すると、これらのファイルが読み込まれます。

Docker コンテナー内で Speech CLI を使用している場合は、コンテナーからローカルディレクトリをマウントする必要があります。これにより、ツールで以下を実行できます。

構成設定を格納または検索します。
音声のオーディオファイルなど、コマンドで必要なファイルの読み取りまたは書き込みを行います。

Windows の場合は、次のコマンドを入力して、Speech CLI がコンテナー内から使用できるローカルディレクトリを作成します。

mkdir c:\spx-data

Linux または macOS の場合は、ターミナルでこのコマンドを入力してディレクトリを作成し、その絶対パスを確認します。

mkdir ~/spx-data
cd ~/spx-data
pwd

Speech CLI を呼び出すときは、この絶対パスを使用することになります。

コンテナーで Speech CLI を実行する

このドキュメントでは、Docker 以外のインストールで使用される Speech CLI spx コマンドについて説明します。 Docker コンテナーで spx コマンドを呼び出す場合は、コンテナー内のディレクトリを、Speech CLI が構成値を格納および検索してファイルを読み書きできるファイルシステムにマウントする必要があります。

Windows の場合、コマンドは次のように始まります。

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

Linux または macOS では、コマンドは次の例のようになります。 ABSOLUTE_PATH をマウントされたディレクトリの絶対パスに置き換えます。このパスは、前のセクションで pwd コマンドによって返されました。キーとリージョンを設定する前にこのコマンドを実行すると、キーとリージョンを設定するよう求めるエラーが表示されます。

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

コンテナーにインストールされている spx コマンドを使用するには、必ず前の例に示すように完全なコマンドを入力し、その後に要求のパラメーターを入力します。たとえば、Windows では、次のコマンドによってキーが設定されます。

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

コマンドラインツールでの、より拡張された操作については、entrypoint パラメーターを追加することで、対話型の Bash シェルでコンテナーを開始できます。 Windows では、このコマンドを入力して、対話型のコマンドラインインターフェイスを公開するコンテナーを起動します。ここでは、複数の spx コマンドを入力できます。

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

これを AZ Login と組み合わせて、SPX Init で、音声キーの作成および一致するデータ領域の選択をガイドすることができます。この場合、Azure portal を使用する必要はありません。キーは、後で使用できるように自動的に保存されます。

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

開始するには、Speech リソースキーとリージョン識別子 (eastus、westus など) が必要です。 Azure portal で音声リソースを作成します。詳細については、「マルチサービスリソースを作成する」を参照してください。

リソースキーとリージョン識別子を構成するには、次のコマンドを実行します。

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

キーとリージョンは、今後の Speech CLI コマンド用に格納されます。現在の構成を表示するには、次のコマンドを実行します。

spx config @key
spx config @region

必要に応じて、clear オプションを含めて、格納されている値のいずれかを削除します。

spx config @key --clear
spx config @region --clear

Speech リソースキーとリージョン識別子を構成するには、次のコマンドを PowerShell で実行します。

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

キーとリージョンは、今後の SPX コマンド用に格納されます。現在の構成を表示するには、次のコマンドを実行します。

spx --% config @key
spx --% config @region

必要に応じて、clear オプションを含めて、格納されている値のいずれかを削除します。

spx --% config @key --clear
spx --% config @region --clear

基本的な使用方法

重要

コンテナーで Speech CLI を使用する場合は、--host オプションを含めます。 CLI が認証に音声キーを使用しないようにするには、--key none も指定する必要があります。たとえば、音声テキスト変換コンテナーで spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav を実行してオーディオファイルの音声を認識します。

このセクションでは、初めてのテストと実験に役立つことが多いいくつかの基本的な SPX コマンドについて説明します。ツール内ヘルプを表示するには、次のコマンドを実行します。

spx

キーワードでヘルプトピックを検索することができます。たとえば、Speech CLI の使用例の一覧を表示するために、次のコマンドを実行します。

spx help find --topics "examples"

recognize コマンドのオプションを表示するには、次のコマンドを実行します。

spx help recognize

コンソール出力には、その他のヘルプコマンドが一覧表示されます。これらのコマンドを入力すると、サブコマンドについての詳しいヘルプを表示できます。

Speech to Text (音声認識)

Note

Docker コンテナー内で Speech CLI を実行するときは、コンピューターのマイクを使用することはできません。ただし、ローカルにマウントされたディレクトリ内のオーディオファイルを読み取って保存することができます。

システムの既定のマイクを使用して音声をテキストに変換するために、次のコマンドを実行します。

spx recognize --microphone

コマンドを実行すると、アクティブな状態の入力デバイスで、SPX によってオーディオのリッスンが開始されます。 Enter キーを押すと、リッスンが停止されます。読み上げた音声が認識され、コンソール出力でテキストに変換されます。

Speech CLI を使用すると、オーディオファイルから音声を認識することもできます。次のコマンドを実行します。

spx recognize --file /path/to/file.wav

ヒント

手順がわからなくなった場合や、Speech CLI の認識オプションの詳細を調べる場合は、spx help recognize を実行します。

Text to Speech (音声合成)

次のコマンドを実行すると、テキストが入力として取得され、合成された音声が、アクティブな状態の出力デバイス (コンピューターのスピーカーなど) に出力されます。

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

また、合成された出力をファイルに保存することもできます。この例では、コマンドを実行しているディレクトリに、my-sample.wav というファイルを作成します。

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

これらの例では、英語でテストしていると想定しています。ただし、Speech サービスでは、多くの言語の音声合成がサポートされています。次のコマンドを実行するか、または言語サポートページにアクセスすると、すべての音声の一覧を取得できます。

spx synthesize --voices

次に、検出された音声のいずれかを使用するためのコマンドを示します。

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

ヒント

手順がわからなくなった場合や、Speech CLI の認識オプションの詳細を調べる場合は、spx help synthesize を実行します。

音声テキスト変換の翻訳

Speech CLI を使用すると、音声テキスト変換の翻訳も実行できます。次のコマンドを実行して、既定のマイクから音声をキャプチャし、翻訳をテキストとして出力します。 translate コマンドを使用し、source と target の各言語を指定する必要があることに注意してください。

spx translate --microphone --source en-US --target ru-RU

複数の言語に翻訳している場合は、言語コードをセミコロン (;) で区切ります。

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

翻訳の出力を保存する場合は、--output フラグを使用します。この例では、ファイルからの読み取りも行います。

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

ヒント

手順がわからなくなった場合や、Speech CLI の認識オプションの詳細を調べる場合は、spx help translate を実行します。