Der kognitive Skill „Text zusammenführen“

2024-09-01

Der Textzusammenführungsskill konsolidiert Text aus einem Array von Zeichenfolgen in einem einzigen Feld.

Hinweis

Dieser Skill ist nicht an Azure KI Services gebunden. Er ist nicht gebührenpflichtig und weist keine Azure KI Services-Schlüsselanforderungen auf.

@odata.type

Microsoft.Skills.Text.MergeSkill

Skillparameter

Bei den Parametern wird zwischen Groß- und Kleinschreibung unterschieden.

Parametername	Beschreibung
`insertPreTag`	Zeichenfolge, die vor jedem Einfügen hinzugefügt wird. Der Standardwert ist `" "`. Um das Leerzeichen wegzulassen, setzen Sie den Wert auf `""`.
`insertPostTag`	Zeichenfolge, die nach jedem Einfügen hinzugefügt wird. Der Standardwert ist `" "`. Um das Leerzeichen wegzulassen, setzen Sie den Wert auf `""`.

Skilleingaben

Eingabename	Beschreibung
`itemsToInsert`	Array von Zeichenfolgen, die zusammengeführt werden sollen.
`text`	(optional) Haupttext, in den eingefügt werden soll. Wenn `text` nicht angegeben wird, werden Elemente von `itemsToInsert` verkettet.
`offsets`	(optional) Array von Positionen innerhalb von `text`, an denen `itemsToInsert` eingefügt werden soll. Wenn diese Option angegeben wird, muss die Anzahl der Elemente von `text` gleich der Anzahl der Elemente von `textToInsert` sein. Andernfalls werden alle Elemente am Ende von `text` angefügt.

Skillausgaben

Ausgabename	Beschreibung
`mergedText`	Der resultierende zusammengeführte Text.
`mergedOffsets`	Array von Positionen innerhalb von `mergedText`, an denen Elemente von `itemsToInsert` eingefügt wurden.

Beispieleingabe

So könnte ein JSON-Dokument aussehen, das hilfreiche Eingabewerte für diesen Skill enthält:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Beispielausgabe

Dieses Beispiel zeigt die Ausgabe der vorherigen Eingabe, vorausgesetzt, dass insertPreTag auf " " und insertPostTag auf "" gesetzt ist.

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Erweiterte Beispiel für die Definition eines Skillsets

Ein gängiges Szenario für die Verwendung von „Text zusammenführen“ ist das Zusammenführen der Textdarstellung von Bildern (Text aus einem OCR-Skill oder der Titel eines Bildes) im Inhaltsfeld eines Dokuments.

Im folgenden Beispiel für ein Skillset wird der OCR-Skill verwendet, um Text aus in das Dokument eingebetteten Bildern zu extrahieren. Als nächstes wird ein Feld merged_text erstellt, das sowohl Original- als auch OCR-Text aus jedem Bild enthält. Weitere Informationen zur OCR-Qualifikation finden Sie hier.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

Im oben gezeigten Beispiel wird davon ausgegangen, dass ein Feld mit normalisierten Bildern vorhanden ist. Um ein Feld mit normalisierten Bildern zu erhalten, legen Sie die Konfiguration imageAction in Ihrer Indexerdefinition auf generateNormalizedImages fest, wie unten gezeigt:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Freigeben über