Share via


Cognitieve vaardigheid tekst samenvoegen

De vaardigheid Tekst samenvoegen consolideert tekst uit een matrix met tekenreeksen in één veld.

Notitie

Deze vaardigheid is niet gebonden aan Azure AI-services. Het is niet factureerbaar en heeft geen sleutelvereiste voor Azure AI-services.

@odata.type

Microsoft.Skills.Text.MergeSkill

Vaardigheidsparameters

Parameters zijn hoofdlettergevoelig.

Parameternaam Beschrijving
insertPreTag Tekenreeks die vóór elke invoeging moet worden opgenomen. De standaardwaarde is " ". Als u de ruimte wilt weglaten, stelt u de waarde in op "".
insertPostTag Tekenreeks die na elke invoeging moet worden opgenomen. De standaardwaarde is " ". Als u de ruimte wilt weglaten, stelt u de waarde in op "".

Invoer van vaardigheden

Invoernaam Beschrijving
itemsToInsert Matrix van tekenreeksen die moeten worden samengevoegd.
text (optioneel) Hoofdtekst die moet worden ingevoegd. Indien text niet opgegeven, worden elementen samengevoegd itemsToInsert .
offsets (optioneel) Matrix van posities waarbinnen textitemsToInsert moet worden ingevoegd. Indien opgegeven, moet het aantal elementen text gelijk zijn aan het aantal elementen van textToInsert. Anders worden alle items toegevoegd aan het einde van text.

Uitvoer van vaardigheden

Uitvoernaam Beschrijving
mergedText De resulterende samengevoegde tekst.
mergedOffsets Matrix van posities binnen mergedText waar elementen van itemsToInsert zijn ingevoegd.

Voorbeeldinvoer

Een JSON-document dat bruikbare invoer biedt voor deze vaardigheid kan het volgende zijn:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Voorbeelduitvoer

In dit voorbeeld ziet u de uitvoer van de vorige invoer, ervan uitgaande dat insertPreTag is ingesteld op " "en insertPostTag is ingesteld op "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definitie van uitgebreide voorbeeldvaardighedenset

Een veelvoorkomend scenario voor het gebruik van Tekst samenvoegen is het samenvoegen van de tekstuele weergave van afbeeldingen (tekst uit een OCR-vaardigheid of het onderschrift van een afbeelding) in het inhoudsveld van een document.

In de volgende voorbeeldvaardighedenset wordt de OCR-vaardigheid gebruikt om tekst te extraheren uit afbeeldingen die in het document zijn ingesloten. Vervolgens wordt er een merged_text veld gemaakt dat zowel oorspronkelijke als OCRed-tekst uit elke afbeelding bevat. Hier vindt u meer informatie over de OCR-vaardigheid.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

In het bovenstaande voorbeeld wordt ervan uitgegaan dat er een genormaliseerd afbeeldingsveld bestaat. Als u het veld normalized-images wilt ophalen, stelt u de imageAction-configuratie in uw indexeerfunctiedefinitie in omNormalizedImages te genereren, zoals hieronder wordt weergegeven:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Zie ook