次の方法で共有


テキスト マージ コグニティブ スキル

テキスト マージスキルは、文字列の配列からのテキストを 1 つのフィールドに統合します。

Note

このスキルは Azure AI サービスにバインドされていません。 これは課金対象外で、Azure AI サービスの重要な要件はありません。

@odata.type

Microsoft.Skills.Text.MergeSkill

スキルのパラメーター

パラメーターの大文字と小文字は区別されます。

パラメーター名 説明
insertPreTag 各挿入前に含まれる文字列。 既定値は " " です。 スペースを省略するには、値を "" に設定します。
insertPostTag 各挿入後に含まれる文字列。 既定値は " " です。 スペースを省略するには、値を "" に設定します。

スキルの入力

入力名 説明
itemsToInsert マージする文字列の配列。
text (省略可能) 挿入するメイン テキスト本文。 text が指定されていない場合、itemsToInsert の要素は連結されます。
offsets (省略可能) text 内の配列の位置。ここで、itemsToInsert を挿入する必要があります。 指定する場合、textToInsert の要素の数は text の要素数と等しくする必要があります。 それ以外の場合は、すべての項目が text の末尾に追加されます。

スキルの出力

出力名 説明
mergedText 結果としてマージされたテキスト。
mergedOffsets mergedText 内の配列の位置。これは、itemsToInsert の要素が挿入された場所です。

サンプル入力

このスキルに使用可能な入力を提供する JSON ドキュメントは、次のようになります。

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

サンプル出力

この例は、insertPreTag" " に設定され、insertPostTag"" に設定されているという想定で、以前の入力の出力を示しています。

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

拡張サンプル スキルの定義

テキスト マージ使用の一般的なシナリオは、イメージのテキスト表現 (OCR スキルからのテキストかイメージのキャプション) をドキュメントの content フィールドにマージすることです。

次のサンプル スキルセットでは、OCR スキルを使用して、ドキュメントに埋め込まれた画像からテキストを抽出します。 次に、merged_text フィールドを作成して、元のテキストと各イメージから OCR されたテキストの両方を格納します。 OCR スキルについて詳しくは、こちらをご覧ください。

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

上記のサンプル スキルセットは、normalized-images フィールドが存在していることを前提としています。 normalized-images フィールドを取得するには、以下に示すように、インデクサー定義内の imageAction 構成を generateNormalizedImages に設定します。

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

関連項目