Azure Percept Studio でコードなしの音声アシスタントを作成する

[アーティクル]
11/29/2022

重要

Azure Percept DK の提供終了:

2022 年 11 月 9 日の更新: DK での Vision SoM と Audio SOM の機能を廃止日以降も維持できるファームウェア更新プログラムは、廃止日前に利用可能になります。

Azure Percept パブリックプレビューは、新しいエッジデバイスプラットフォームと開発者エクスペリエンスをサポートするために進化する予定です。この進化の一環として、Azure Percept DK と Azure Percept Audio アクセサリ、Percept DK に関連するサポート Azure サービスは、2023 年 3 月 30 日に廃止されます。

2023 年 3 月 30 日より、Azure Percept DK と Azure Percept Audio アクセサリは、Azure Percept Studio、OS の更新プログラム、コンテナーの更新、Web ストリームの表示、Custom Vision 統合などの Azure サービスでサポートされなくなります。カスタマーサクセスサポートおよび関連するサポートサービスが Microsoft から提供されなくなります。詳しくは、廃止の通知に関するブログ記事をご覧ください。

このチュートリアルでは、Azure Percept DK と Azure Percept Audio で使用する音声アシスタントをテンプレートから作成します。音声アシスタントのデモは Azure Percept Studio 内で動作し、音声で制御される選りすぐりの仮想オブジェクトを含んでいます。オブジェクトを制御するには、まずキーワード (デバイスを目覚めさせる単語または短いフレーズ) を発話し、続けてコマンドを発話します。それぞれのテンプレートは、具体的な一連のコマンドに応答します。

このガイドでは、デバイスのセットアップから、音声アシスタントと必要な Speech Services リソースの作成、音声アシスタントのテスト、キーワードの構成、カスタムキーワードの作成までのプロセスを紹介します。

前提条件

Azure Percept DK (開発キット)
Azure Percept Audio
3\.5 mm オーディオジャックに接続できるスピーカーまたはヘッドホン (オプション)
Azure サブスクリプション
Azure Percept DK セットアップエクスペリエンス: 開発キットを Wi-Fi ネットワークに接続し、IoT ハブを作成して、開発キットを IoT ハブに接続済みであること
Azure Percept Audio の設定

提供されているテンプレートを使用して音声アシスタントを作成する

Azure Percept Studio に移動します。
[Demos & tutorials](デモとチュートリアル) タブを開きます。
[Speech tutorials and demos](音声のチュートリアルとデモ) の [Try out voice assistant templates](音声アシスタントテンプレートを試す) をクリックします。画面の右側にウィンドウが開きます。
このウィンドウで次の操作を行います。
1. [IoT Hub] ドロップダウンメニューで、開発キットの接続先となる IoT ハブを選択します。
2. [Device](デバイス) ドロップダウンメニューから自分の開発キットを選択します。
3. 提供されているいずれかの音声アシスタントテンプレートを選択します。
4. [I agree to terms & conditions for this project](このプロジェクトの使用条件に同意する) チェックボックスをオンにします。
5. Create をクリックしてください。
[作成] をクリックすると、音声のテーマリソースを作成するための別のウィンドウが開きます。このウィンドウで次の操作を行います。
1. [サブスクリプション] ボックスで Azure サブスクリプションを選択します。
2. [リソースグループ] ドロップダウンメニューから任意のリソースグループを選択します。音声アシスタントで使用する新しいリソースグループを作成する場合は、ドロップダウンメニューの下にある [作成] をクリックしてプロンプトに従います。
3. [Application prefix](アプリケーションのプレフィックス) に名前を入力します。これが、プロジェクトとカスタムコマンド名のプレフィックスになります。
4. [リージョン] で、リソースのデプロイ先となるリージョンを選択します。
5. [LUIS prediction pricing tier](LUIS 予測価格レベル) で [Standard] を選択します (Free レベルでは音声要求はサポートされません)。
6. [作成] ボタンをクリックします。音声アシスタントアプリケーションのリソースは、ご利用のサブスクリプションにはデプロイされません。
  
  警告
  
  ポータルによってリソースのデプロイが完了するまで、ウィンドウは閉じないでください。ウィンドウを途中で閉じると、音声アシスタントに予期しない動作が生じる可能性があります。リソースがデプロイされると、デモが表示されます。

音声アシスタントをテストする

音声アシスタントと対話するには、キーワードに続けてコマンドを発話します。そのキーワードを Ear SoM が認識すると、デバイスはチャイム (スピーカーまたはヘッドホンが接続されている場合に聞こえます) を出力し、LED が青色で点滅します。コマンドが処理されている間は LED が濃い青色に変わります。コマンドに対する音声アシスタントの応答は、デモウィンドウにテキストで出力されるほか、スピーカーまたはヘッドホンから音声で出力されます。既定のキーワード ( [Custom Keyword](カスタムキーワード) の横に表示されます) は "Computer" に設定され、各テンプレートには、対応している一連のコマンドが含まれています。これらのコマンドを使用することで、デモウィンドウの仮想オブジェクトと対話することができます。たとえば、Hospitality (接客) デモまたは Healthcare (医療) デモを使用している場合、"Computer, turn on TV (コンピューター、テレビを付けて)" と発話すると、仮想テレビがオンになります。

Hospitality (接客) デモウィンドウのスクリーンショット。

Hospitality (接客) デモと Healthcare (医療) デモのコマンド

Healthcare (医療) と Hospitality (接客) のデモにはどちらも、対話できる仮想テレビ、ライト、ブラインド、サーモスタットがあります。次のコマンド (およびその他のバリエーション) がサポートされています。

"Turn on/off the lights. (照明を付けて、照明を消して)"
"Turn on/off the TV. (テレビを付けて、テレビを消して)"
"Turn on/off the AC. (エアコンを付けて、エアコンを消して)"
"Open/close the blinds. (ブラインドを開いて、ブラインドを閉じて)"
"Set temperature to X degrees. (温度を X 度に設定して)" (X は 75 など、目的の温度です。)

Healthcare (医療) デモウィンドウのスクリーンショット。

Automotive (自動車) デモのコマンド

Automotive (自動車) デモには、対話的に操作可能な仮想シートヒーター、デフロスター、サーモスタットが備わっています。次のコマンド (およびその他のバリエーション) がサポートされています。

"Turn on/off the defroster. (デフロスターをオンにして、デフロスターをオフにして)"
"Turn on/off the seat warmer. (シートヒーターをオンにして、シートヒーターをオフにして)"
"Set temperature to X degrees. (温度を X 度に設定して)" (X は 75 など、目的の温度です。)
"Increase/decrease the temperature by Y degrees. (温度を Y 度上げて、温度を Y 度下げて)"

Automotive (自動車) デモウィンドウのスクリーンショット。

Inventory (在庫) デモのコマンド

Inventory (在庫) デモには、仮想在庫アプリと共に、対話的に操作することができる青、黄、緑の各仮想ボックスが含まれています。次のコマンド (およびその他のバリエーション) がサポートされています。

"Add/remove X boxes. (X 箱追加して、X 箱移動して)" (X は 4 など、箱の数です。)
"Order/ship X boxes. (X 箱注文して、X 箱出荷して)"
"How many boxes are in stock? (在庫に残っている箱はいくつ?)"
"Count Y boxes. (Y 色の箱を数えて)" (Y は黄など、箱の色です。)
"Ship everything in stock. (在庫に残っているものをすべて出荷して)"

Inventory (在庫) デモウィンドウのスクリーンショット。

キーワードを構成する

音声アシスタントアプリケーション用にキーワードをカスタマイズできます。

デモウィンドウの [カスタムキーワード] の横にある [変更] をクリックします。
使用可能なキーワードの 1 つを選択します。一連のサンプルキーワードと、自分で作成したカスタムキーワードの中から選択できます。
[保存] をクリックします。

カスタムキーワードを作成する

音声アプリケーション用に独自のキーワードを作成できます。カスタムキーワードのトレーニングは、わずか数分で完了します。

デモウィンドウの上部の近くの [カスタムキーワードの作成] をクリックします。
目的のキーワードを入力します。1 つの単語または短い語句を指定できます。
[音声リソース] (これは、デモウィンドウの [カスタムコマンド] の横に一覧表示され、アプリケーションのプレフィックスを含みます) を選択します。
[保存] をクリックします。

カスタムコマンドを作成する

ポータルには、既存の音声リソースを使用してカスタムコマンドを作成するための機能も用意されています。 "カスタムコマンド" とは、既存のアプリケーション内の特定のコマンドではなく、音声アシスタントアプリケーション自体を指します。カスタムコマンドを作成すると、新しい音声プロジェクトが作成されます。このプロジェクトは、Speech Studio でさらに開発を行う必要があります。

デモウィンドウ内から新しいカスタムコマンドを作成するには、ページの上部にある [+ Create Custom Command](+ カスタムコマンドの作成) をクリックし、次の手順を実行します。

カスタムコマンドの名前を入力します。
プロジェクトの説明を入力します (省略可)。
優先する言語を選択します。
音声リソースを選択します。
LUIS リソースを選択します。
LUIS 作成リソースを選択するか、新たに作成します。
Create をクリックしてください。

カスタムコマンドの作成ウィンドウのスクリーンショット。

カスタムコマンドを作成したら、Speech Studio に移動して、さらに開発を行う必要があります。 Speech Studio を開いてもカスタムコマンドが表示されない場合は、次の手順を実行します。

Azure Percept Studio の左側のメニューパネルで、 [AI プロジェクト] の [Speech](音声) をクリックします。
[Commands](コマンド) タブを選択します。
開発するカスタムコマンドを選択します。 Speech Studio でプロジェクトが開きます。

カスタムコマンドの開発について詳しくは、Speech Service のドキュメントを参照してください。

トラブルシューティング

音声アシスタントは作成されましたが、コマンドに応答しません

インターポーザーボードの LED ライトを確認してください。

青色の 3 つのライトが点灯状態である場合、音声アシスタントの準備が完了し、キーワードを待機していることを示します。
中心の LED (L02) が白色である場合、開発キットの初期化は完了していますが、キーワードを使用した構成が必要です。
中央の LED (L02) が白色で点滅している場合、Audio SoM はまだ初期化を完了していません。初期化は、完了までに数分かかる場合があります。

LED インジケーターの詳細については、LED に関する記事を参照してください。

Speech Studio で作成したカスタムキーワードに音声アシスタントが応答しません

音声モジュールが古いと、この症状が発生することがあります。次の手順に従って、音声モジュールを最新バージョンに更新してください。

Azure Percept Studio ホームページの左側のメニューパネルにある [Devices](デバイス) をクリックします。
デバイスを探して選択します。
デバイスウィンドウで [Speech](音声) タブを選択します。
音声モジュールのバージョンを確認します。更新プログラムが利用可能な場合は、バージョン番号の横に [Update](更新) ボタンが表示されます。
[Update](更新) をクリックして、音声モジュールの更新プログラムをデプロイします。通常、更新プロセスは、完了までに 2 分から 3 分かかります。

リソースをクリーンアップする

音声アシスタントアプリケーションの作業が完了したら、次の手順に従って、このチュートリアルでデプロイした音声リソースをクリーンアップしてください。

Azure portal の左側のメニューパネルから [リソースグループ] を選択するか、検索バーにそのように入力します。
リソースグループを選択します。
アプリケーションのプレフィックスが含まれている 6 つのリソースをすべて選択し、上部のメニューパネルにある [削除] アイコンをクリックします。
削除を確定するには、確認ボックスに「yes」と入力し、正しいリソースが選択されていることを確認して、 [削除] をクリックします。

警告

削除する音声リソースと共に作成されたカスタムキーワードがすべて削除され、音声アシスタントのデモは機能しなくなります。

次の手順

コーディングなしで音声ソリューションを作成したら、Azure Percept DK 向けに、コーディングなしでビジョンソリューションを作成してみましょう。