スキルセットを使用してエンリッチメント パイプラインを定義する

完了

AI エンリッチメントとは、フルテキスト検索用にインデックスを作成できないテキストや情報をコンテンツから抽出するパイプラインにおける埋め込み画像と自然言語処理を指します。

AI 処理は、スキルセットにスキルを追加して組み合わせることによって実現されます。 スキルセットは、データを抽出して、データを検索できるようにする操作を定義します。 これらの AI スキルは、テキスト翻訳や光学式文字認識 (OCR) などの組み込みのスキル、またはユーザーが提供するカスタム スキルのいずれかになります。

組み込みのスキル

組み込みのスキルは、Microsoft の事前トレーニング済みのモデルに基づいており、これは独自のトレーニング データを使用してモデルをトレーニングできないことを意味します。 Azure AI サービス API を呼び出すスキルは、それらのサービスに対する依存関係を持ち、リソースをアタッチするときに Azure AI サービスの従量課金制の料金で課金されます。 その他のスキルは、Azure AI 検索によって測定されるか、無料で利用できるユーティリティ スキルです。

組み込みのスキルは、次のカテゴリに分類されます。

自然言語処理スキル: これらのスキルを使用すると、非構造化テキストはインデックス内の検索可能およびフィルター可能なフィールドとしてマップされます。

次に例をいくつか示します。

  • キー フレーズ抽出: 事前トレーニングされたモデルを使用して、用語の配置、言語ルール、その他の用語との類似性、ソース データ内での用語の独自性に基づいて、重要なフレーズを検出します。

  • テキスト翻訳スキル: 事前トレーニングされたモデルを使用して、正規化またはローカライズのユース ケースに合わせて、入力テキストをさまざまな言語に翻訳します。

画像処理スキル: 画像コンテンツのテキスト表現を作成し、Azure AI 検索のクエリ機能を使用して検索できるようにします。

次に例をいくつか示します。

  • 画像分析スキル: 画像検出アルゴリズムを使用して、画像のコンテンツを識別し、テキストの説明を生成します。

  • 光学式文字認識スキル: 道路標識や製品の写真などの画像や、送り状、請求書、財務報告書、記事などのドキュメントから、印刷または手書きのテキストを抽出できます。