Cognitieve vaardigheid tekst samenvoegen

Artikel
10/26/2023

De vaardigheid Tekst samenvoegen consolideert tekst uit een matrix met tekenreeksen in één veld.

Notitie

Deze vaardigheid is niet gebonden aan Azure AI-services. Het is niet factureerbaar en heeft geen sleutelvereiste voor Azure AI-services.

@odata.type

Microsoft.Skills.Text.MergeSkill

Vaardigheidsparameters

Parameters zijn hoofdlettergevoelig.

Parameternaam	Beschrijving
`insertPreTag`	Tekenreeks die vóór elke invoeging moet worden opgenomen. De standaardwaarde is `" "`. Als u de ruimte wilt weglaten, stelt u de waarde in op `""`.
`insertPostTag`	Tekenreeks die na elke invoeging moet worden opgenomen. De standaardwaarde is `" "`. Als u de ruimte wilt weglaten, stelt u de waarde in op `""`.

Invoer van vaardigheden

Invoernaam	Beschrijving
`itemsToInsert`	Matrix van tekenreeksen die moeten worden samengevoegd.
`text`	(optioneel) Hoofdtekst die moet worden ingevoegd. Indien `text` niet opgegeven, worden elementen samengevoegd `itemsToInsert` .
`offsets`	(optioneel) Matrix van posities waarbinnen `textitemsToInsert` moet worden ingevoegd. Indien opgegeven, moet het aantal elementen `text` gelijk zijn aan het aantal elementen van `textToInsert`. Anders worden alle items toegevoegd aan het einde van `text`.

Uitvoer van vaardigheden

Uitvoernaam	Beschrijving
`mergedText`	De resulterende samengevoegde tekst.
`mergedOffsets`	Matrix van posities binnen `mergedText` waar elementen van `itemsToInsert` zijn ingevoegd.

Voorbeeldinvoer

Een JSON-document dat bruikbare invoer biedt voor deze vaardigheid kan het volgende zijn:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Voorbeelduitvoer

In dit voorbeeld ziet u de uitvoer van de vorige invoer, ervan uitgaande dat insertPreTag is ingesteld op " "en insertPostTag is ingesteld op "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definitie van uitgebreide voorbeeldvaardighedenset

Een veelvoorkomend scenario voor het gebruik van Tekst samenvoegen is het samenvoegen van de tekstuele weergave van afbeeldingen (tekst uit een OCR-vaardigheid of het onderschrift van een afbeelding) in het inhoudsveld van een document.

In de volgende voorbeeldvaardighedenset wordt de OCR-vaardigheid gebruikt om tekst te extraheren uit afbeeldingen die in het document zijn ingesloten. Vervolgens wordt er een merged_text veld gemaakt dat zowel oorspronkelijke als OCRed-tekst uit elke afbeelding bevat. Hier vindt u meer informatie over de OCR-vaardigheid.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

In het bovenstaande voorbeeld wordt ervan uitgegaan dat er een genormaliseerd afbeeldingsveld bestaat. Als u het veld normalized-images wilt ophalen, stelt u de imageAction-configuratie in uw indexeerfunctiedefinitie in omNormalizedImages te genereren, zoals hieronder wordt weergegeven:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Share via