Kognitiv skicklighet för textsammanslagning

2024-09-01

Kunskaper för sammanslagning av text konsoliderar text från en matris med strängar till ett enda fält.

Kommentar

Den här färdigheten är inte kopplad till Azure AI-tjänster. Den kan inte faktureras och har inga nyckelkrav för Azure AI-tjänster.

@odata.type

Microsoft.Skills.Text.MergeSkill

Kompetensparametrar

Parametrar är skiftlägeskänsliga.

Parameternamn	beskrivning
`insertPreTag`	Sträng som ska inkluderas före varje infogning. Standardvärdet är `" "`. Om du vill utelämna utrymmet anger du värdet till `""`.
`insertPostTag`	Sträng som ska inkluderas efter varje infogning. Standardvärdet är `" "`. Om du vill utelämna utrymmet anger du värdet till `""`.

Kunskapsindata

Indatanamn	beskrivning
`itemsToInsert`	Matris med strängar som ska sammanfogas.
`text`	(valfritt) Huvudtexttext som ska infogas i. Om `text` inte anges sammanfogas elementen `itemsToInsert` i.
`offsets`	(valfritt) Matris med positioner inom `text` där `itemsToInsert` ska infogas. Om det anges måste antalet element `text` i vara lika med antalet element `textToInsert`i . Annars läggs alla objekt till i slutet av `text`.

Kunskapsutdata

Utdatanamn	beskrivning
`mergedText`	Den resulterande sammanfogade texten.
`mergedOffsets`	Matris med positioner inom `mergedText` där element i `itemsToInsert` infogades.

Exempelindata

Ett JSON-dokument som tillhandahåller användbara indata för den här färdigheten kan vara:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Exempelutdata

Det här exemplet visar utdata från föregående indata, förutsatt att insertPreTag är inställt på " ", och insertPostTag är inställt på "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definition av utökad exempelkunskapsuppsättning

Ett vanligt scenario för att använda textsammanslagning är att sammanfoga textrepresentationen av bilder (text från en OCR-färdighet eller bildtexten för en bild) till innehållsfältet i ett dokument.

I följande exempelkunskaper används OCR-färdigheten för att extrahera text från bilder som är inbäddade i dokumentet. Därefter skapas ett merged_text fält som innehåller både originaltext och OCRed-text från varje bild. Du kan lära dig mer om OCR-kompetensen här.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

Exemplet ovan förutsätter att det finns ett normaliserat bildfält. Om du vill hämta fältet normalized-images ställer du in imageAction-konfigurationen i indexerarens definition för att genereraNormalizedImages enligt nedan:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Dela via