クイックスタート: Azure portal でスキルセットを作成する

[アーティクル]
03/06/2024

このクイックスタートでは、Azure AI 検索のスキルセットが、検索インデックスにテキスト検索可能なコンテンツを生成するために、光学式文字認識 (OCR)、画像分析、言語検出、テキスト翻訳、エンティティ認識を追加するしくみを学びます。

Azure portal で [データのインポート] ウィザードを実行して、インデックス作成中にテキスト形式のコンテンツを作成および変換するスキルを適用します。入力は生データであり、通常は Azure Storage の BLOB です。出力は、AI によって生成された画像テキスト、キャプション、エンティティを含む検索可能なインデックスです。生成されたコンテンツは、Search エクスプローラーを使用してポータルでクエリを実行できます。

準備として、ウィザードを実行する前に、いくつかのリソースを作成してサンプルファイルをアップロードします。

前提条件

作業を開始する前に、次の前提条件を満たしておく必要があります。

アクティブなサブスクリプションが含まれる Azure アカウント。無料でアカウントを作成できます。
Azure AI Cognitive Search。サービスを作成するか、既存のサービスを検索します。このクイックスタート用には、無料のサービスを使用できます。
Blob Storage を持つ Azure Storage アカウント。

Note

このクイックスタートでは、AI 変換に Azure AI サービスを使用します。ワークロードは非常に小さいので、最大 20 トランザクションの処理を無料で使用するために Azure AI サービスを内部で利用しています。 Azure AI マルチサービスリソースを作成しなくても、この演習を完了できます。

自分のデータを設定する

次の手順では、異種コンテンツファイルを格納するために Azure Storage で BLOB コンテナーを設定します。

さまざまなタイプの小さいファイルセットで構成されているサンプルデータをダウンロードします。
Azure アカウントで Azure Portal にサインインします。
Azure Storage アカウントを作成するか、既存のアカウントを検索してください。
- 帯域幅料金を回避するには、Azure AI Search と同じリージョンを選択します。
- StorageV2 (汎用 V2) を選択します。
Azure portal で、Azure Storage ページを開き、コンテナーを作成します。既定のアクセスレベルを使用できます。
コンテナーで、[アップロード] を選択してサンプルファイルをアップロードしてください。ネイティブ形式ではフルテキスト検索ができない画像やアプリケーションファイルなどの、広範な種類のコンテンツがあります。

これでデータのインポートウィザードに進む準備が整いました。

データインポートウィザードを実行する

Azure アカウントで Azure Portal にサインインします。
ご自分の検索サービスを見つけ、[概要] ページで、コマンドバーの [データのインポート] を選び、4 つのステップで検索可能なコンテンツを作成します。

手順 1:データソースを作成する

[データへの接続] で、 [Azure Blob Storage] を選択します。
ストレージアカウントと作成したコンテナーへの既存の接続を選択します。データソースの名前を指定し、残りの部分には既定値を使用します。

次のページに進みます。

"データソースからのインデックススキーマの検出でエラーが発生しました" と表示された場合、ウィザードの電源を入れるインデクサーがデータソースに接続できません。ほとんどの場合、データソースにはセキュリティ保護があります。次の解決策を試してから、ウィザードを再実行してください。

セキュリティ機能	解決策
リソースに Azure ロールが必要であるか、そのアクセスキーが無効になっている	信頼されたサービスとして接続するか、マネージド ID を使用して接続します
リソースが IP ファイアウォールの内側にある	検索および Azure portal 用の受信規則を作成する
リソースにプライベートエンドポイント接続が必要である	プライベートエンドポイント経由で接続する

手順 2: コグニティブスキルを追加する

次に、OCR、画像分析、自然言語処理を呼び出すための AI エンリッチメントを構成します。

このクイックスタートでは、無料の Azure AI サービスリソースを使用します。サンプルデータは 14 個のファイルで構成されているため、このクイックスタートでは、Azure AI サービスの無料枠である 20 トランザクションで十分間に合います。
[エンリッチメントの追加] を展開して、選択項目 6 か所について設定を行います。

画像分析スキルをウィザードページに追加するために OCR を有効にします。

エンティティの認識 (人物、組織、場所) と画像分析スキルを選択します (タグ、キャプション)。

次のページに進みます。

手順 3:インデックスの構成

検索可能なコンテンツがインデックスに格納され、データインポート ウィザードでは通常、データソースをサンプリングするとスキーマを自動的に作成することができます。この手順では、生成されたスキーマを確認し、必要であれば設定に変更を加えます。

このクイックスタートでは、ウィザードによって妥当な既定値が適切に設定されます。

既定のフィールドは、既存の BLOB のメタデータプロパティに加え、エンリッチメントの出力用の新しいフィールド (people、organizations、locations など) を基にしています。データ型は、メタデータとデータのサンプリングから推定されます。
既定のドキュメントキーは metadata_storage_path です (このフィールドが選択されるのは一意の値が含まれるため)。
これらのフィールドの既定の属性は [取得可能] と [検索可能] です。 [検索可能] は、フィールドのフルテキスト検索を許可します。 [取得可能] は、フィールド値を結果で取得できることを意味します。これらのフィールドはスキルセットを介して作成されていることから、取得可能かつ検索可能にするのがユーザーの意図であると見なされます。フィルター式でフィールドを使用する場合は、[フィルター可能] を選択します。

フィールドを [取得可能] としてマークしたからといって、このフィールドが検索結果に必ず存在するという意味ではありません。検索結果の構成は、対象となるフィールドを select クエリパラメーターを使用して指定することで、制御することができます。

次のページに進みます。

手順 4: インデクサーを構成する

インデクサーは、インデックス作成プロセスを進めます。これは、データソース名、ターゲットインデックス、および実行の頻度を指定します。 データインポート ウィザードでは、いくつかのオブジェクトが作成され、繰り返しリセットおよび実行できるインデクサーが常に含まれます。

[インデクサー] ページで、既定の名前をそのまま使用し、[1 回] を選択してください。
[送信] を選択して、インデクサーを作成し、同時に実行します。

状態を監視する

左側のナビゲーションウィンドウから [インデクサー] を選択して状態を監視し、インデクサーを選択してください。スキルベースのインデックス作成は、テキストベースのインデックス作成 (特にOCRと画像分析) よりも時間がかかります。

実行状態の詳細を表示するには、[成功] (または [失敗]) を選択して実行の詳細を表示します。

このデモには、警告がいくつかあります。"Could not execute skill because one or more skill input was invalid." はデータソース内の PNG ファイルがエンティティ認識へのテキスト入力を提供しないことを示します。この警告は、アップストリームの OCR スキルが画像内のテキストを認識せず、ダウンストリームエンティティ認識スキルにテキスト入力を提供できなかったために発生します。

スキルセットの実行では警告が一般的です。スキルがデータを反復処理する方法に慣れるにつれて、パターンに気付き、無視しても安全な警告を学習するかもしれません。

Search エクスプローラーでクエリを実行する

インデックスが作成されたら、Search エクスプローラーを使用して結果を返します。

左側の [インデックス] を選択し、ブックのインデックスを選択してください。 Search エクスプローラーは最初のタブにあります。
インデックスのクエリを実行する検索文字列 (satya nadella など) を入力します。検索バーでは、キーワード、引用符で囲まれた語句、演算子 ("Satya Nadella" +"Bill Gates" +"Steve Ballmer") を使用できます。

結果は詳細 JSON として返されます。これは、特に大きいドキュメントでは、読み取りにくい場合があります。このツールで検索するためのいくつかのヒントを次に示します。

JSON ビューに切り替えて、結果を整形するパラメーターを指定してください。
結果のフィールドを制限するために、select を追加してください。
一致の数を表示するために count を追加してください。
JSON 内で特定のプロパティまたは用語を検索するには、Ctrl + F キーを押します。

ビューに貼り付けることができる JSON を次に示します。

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

ヒント

クエリ文字列は大文字と小文字が区別されます。"不明なフィールド" というメッセージが返された場合は、 [フィールド] または [インデックス定義 (JSON)] をチェックして名前と大文字と小文字の区別を確認してください。

重要なポイント

これで、最初のスキルセットを作成し、スキルベースのインデックス作成の基本的な手順を学習しました。

習得していただきたい主な概念に、依存関係が含まれます。スキルセットはインデクサーにバインドされ、インデクサーは Azure とソースに固有です。このクイックスタートでは Azure Blob Storage を使用していますが、他の Azure データソースも使用可能です。詳細については、「Azure AI Searchでのインデクサー」を参照してください。

もう 1 つの重要な概念は、スキルがさまざまな種類のコンテンツにわたって動作するため、異種コンテンツで使用すると、いくつかの入力がスキップされるということです。また、ファイルまたはフィールドが大きいと、ご利用のサービスレベルのインデクサーの制限を超過してしまう可能性があります。そうした状況で警告が発生するのは異常ではありません。

出力は、検索インデックスに送られます。また、インデックス作成中に作成される名前と値の組と、インデックス内の個々のフィールドとの間にはマッピングが存在します。内部的には、ウィザードがエンリッチメントツリーを設定し、スキルセットを定義して、操作と一般的なフローの順序を確立します。これらの手順はウィザードには表示されませんが、コードの記述を開始するときは、これらの概念が重要になります。

最後に、インデックスに対してクエリを実行することで内容を確認できることを学習しました。最後に、Azure AI Search で提供されるインデックスは検索可能なインデックスであり、単純なクエリ構文を使用してクエリを実行することも、完全に拡張されたクエリ構文を使用してクエリを実行することもできます。エンリッチされたフィールドを含むインデックスは、他のフィールドと同様です。標準またはのカスタムアナライザー、スコアリングプロファイル、同意語、ファセットナビゲーション、geo 検索、またはその他の Azure AI Search フィーチャーを組み込む場合は、確実にこれを行うことができます。

リソースをクリーンアップする

独自のサブスクリプションを使用している場合は、プロジェクトの最後に、作成したリソースがまだ必要かどうかを確認してください。リソースを実行したままにすると、お金がかかる場合があります。リソースは個別に削除することも、リソースグループを削除してリソースのセット全体を削除することもできます。

ポータルの左側のナビゲーションウィンドウにある [All resources](すべてのリソース) または [Resource groups](リソースグループ) リンクを使って、リソースを検索および管理できます。

無料サービスをお使いの場合は、インデックス、インデクサー、データソースが 3 つに制限されることにご注意ください。ポータルで個別の項目を削除して、制限を超えないようにすることができます。

次のステップ

スキルセットは、ポータル、.NET SDK、または REST API を使用して作成できます。さらに知識を深めるには、REST クライアントと他のサンプルデータを使って REST API を試してみてください。

チュートリアル:REST API を使用して JSON BLOB からテキストと構造を抽出する

次の方法で共有

クイックスタート: Azure portal でスキルセットを作成する

前提条件

自分のデータを設定する