Azure AI Search のデバッグセッション

[アーティクル]
09/03/2024

デバッグセッションは、Azure portal の既存のスキルセットと連携するビジュアルエディターです。セッションの間に、インデクサーとスキルセットによって生成された 1 つのエンリッチされたドキュメントの構造と内容が表示されます。実際のドキュメントを使っているので、このセッションは対話形式です。エラーの特定、スキルの実行の変更と呼び出し、結果の検証をリアルタイムで行うことができます。変更によって問題が解決した場合は、公開されているスキルセットにコミットして、修正をグローバルに適用することができます。

この記事では、サポートされているシナリオとエディターの構成について説明します。エディターのタブとセクションでは、スキルセットのさまざまなレイヤーが展開され、スキルセットの構造、フロー、実行時に生成されるコンテンツを確認できます。

サポートされるシナリオ

デバッグセッションを使用して、次の問題を調査して解決します。

OCR、画像分析、エンティティ認識、キーワード抽出などの、AI エンリッチメントに使用される組み込みのスキル。
テキスト分割によるデータチャンキング、および埋め込みスキルによるベクター化を使用する、垂直統合に使用される組み込みのスキル。
指定した外部処理を統合するために使用されるカスタムスキル。

最初の 2 つのシナリオを表している、以下のデバッグセッションの画像を比較してみましょう。どちらのシナリオでも、表示領域には、ソースドキュメントから検索インデックスに至る過程で実行されるコンテンツの生成スキルや変換スキルの流れが表示されています。このフローにはインデックスマッピングオプションが含まれており、矢印をたどって処理の流れを追うことができます。右側の詳細ペインは、状況に合わせて変化します。ここには、エンリッチされたドキュメントの表現、またはスキルやマッピングの詳細が表示されます。

最初の画像は、AI エンリッチメントの応用パターンを示しています。スキルは順番実行することも、依存関係がなければ並列で実行することもできます。出力フィールドマッピングでは、エンリッチされたコンテンツまたは生成されたコンテンツを、インメモリデータ構造からインデックス内のフィールドに送信します。

2 番目の画像は、垂直統合の典型的なパターンを示しています。垂直統合のスキルには通常、テキスト分割と埋め込みスキルが含まれます。テキスト分割スキルは、ドキュメントをページ単位のチャンクに分割します。埋め込みスキルはベクター化を行います。プロジェクションマッピングは、コンテンツのチャンクがどのようにインデックスされるかを制御します。この特定のスキルセットは、親インデックスをスキップし、メタデータを使用してチャンクのソースを識別して、チャンクされたコンテンツのみのインデックスを作成します。

制限事項

デバッグセッションは、一般提供されているすべてのインデクサーデータソースとほとんどのプレビューデータソースで機能しますが、次の例外があります。

SharePoint Online インデクサー。
Azure Cosmos DB for MongoDB インデクサー。
Azure Cosmos DB for NoSQL では、インデックス中に行が失敗し、対応するメタデータがない場合、デバッグセッションで正しい行が選択されない可能性があります。
Azure Cosmos DB の SQL API の場合、パーティション分割されたコレクションが以前にパーティション分割されていなかった場合、デバッグセッションではドキュメントが見つかりません。
カスタムスキルの場合、Azure Storage へのデバッグセッション接続では、ユーザー割り当てマネージド ID はサポートされていません。前提条件に記載されているように、システムマネージド ID を使用するか、キーを含むフルアクセス接続文字列を指定することができます。詳細については、「マネージド ID を使用して他の Azure リソースに検索サービスを接続する」を参照してください。

デバッグセッションのしくみ

セッションを開始すると、検索サービスによって、スキルセット、インデクサー、データソース (スキルセットのテストに使われる 1 つのドキュメントを含む) のコピーが作成されます。すべてのセッション状態は、指定した Azure Storage アカウントの Azure AI Search Service よって作成された新しい BLOB コンテナーに保存されます。生成されたコンテナーの名前には、プレフィックス ms-az-cognitive-search-debugsession が付きます。プレフィックスを使用すると、セッションデータを誤ってアカウント内の別のコンテナーにエクスポートする可能性を軽減できるため、これを使用することは必須です。

エンリッチされたドキュメントとスキルセットのキャッシュコピーがビジュアルエディターに読み込まれるので、エンリッチされたドキュメントの内容とメタデータを調べることができます。また、各ドキュメントノードを確認し、スキルセット定義のあらゆる側面を編集する機能があります。セッション内で加えられた変更はすべてキャッシュされます。これらの変更は、コミットしない限り、公開済みのスキルセットには影響しません。変更をコミットすると、運用スキルセットが上書きされます。

エンリッチメントパイプラインにエラーがない場合は、デバッグセッションを使用してドキュメントを段階的にエンリッチし、変更をコミットする前に各変更をテストして確認することができます。

デバッグセッションレイアウト

ビジュアルエディターは、ドキュメント解析から始まり、スキル、マッピング、インデックスというように、操作の流れを示す領域として構成されます。

任意のスキルまたはマッピングを選択すると、関連する情報を表示するペインが横に表示されます。

リンクを辿ると、スキル処理をさらに詳しく調べられます。たとえば、次のスクリーンショットは、Text Split スキルの最初のイテレーションの出力を示しています。

スキルの詳細ウィンドウ

[スキルの詳細] ペインには、次のセクションがあります。

イテレーション: スキルの実行回数が表示されます。それぞれの入力と出力を確認できます。
スキル設定: JSON スキルセット定義を表示または編集します。
エラーと警告: このスキルに固有のエラーまたは警告を表示します。

エンリッチされたデータ構造ペイン

矢印記号の表示/非表示を切り替えると、エンリッチされたデータ構造ペインが横にスライドして表示されます。これは、エンリッチされたドキュメントに含まれる内容を人間が判読できる表現にしたものです。この記事の前のスクリーンショットは、エンリッチされたデータ構造の例を示しています。

次のステップ

デバッグセッションの要素を理解したので、既存のスキルセットで最初のデバッグセッションを開始します。

スキルセットをデバッグする方法

次の方法で共有

Azure AI Search のデバッグセッション

サポートされるシナリオ

制限事項

デバッグセッションのしくみ

デバッグセッションレイアウト

スキルの詳細ウィンドウ

エンリッチされたデータ構造ペイン

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure AI Search のデバッグ セッション

サポートされるシナリオ

制限事項

デバッグ セッションのしくみ

デバッグ セッション レイアウト

スキルの詳細ウィンドウ

エンリッチされたデータ構造ペイン

次のステップ

フィードバック

その他のリソース

Azure AI Search のデバッグセッション

デバッグセッションのしくみ

デバッグセッションレイアウト