Compétence cognitive Fusion de texte

Article
10/26/2023

La compétence Fusion de texte consolide le texte d’un tableau de chaînes en un seul champ.

Remarque

Cette compétence n’est pas liée aux services Azure AI. Elle n’est pas facturable et aucune clé Azure AI services n’est requise.

@odata.type

Microsoft.Skills.Text.MergeSkill

Paramètres de la compétence

Les paramètres respectent la casse.

Nom du paramètre	Description
`insertPreTag`	Chaîne à inclure avant chaque insertion. La valeur par défaut est `" "`. Pour omettre l’espace, choisissez la valeur `""`.
`insertPostTag`	Chaîne à inclure après chaque insertion. La valeur par défaut est `" "`. Pour omettre l’espace, choisissez la valeur `""`.

Entrées de la compétence

Nom de l'entrée	Description
`itemsToInsert`	Tableau de chaînes à fusionner.
`text`	(facultatif) Corps de texte principal dans lequel effectuer l’insertion. Si `text` n’est pas fourni, les éléments de `itemsToInsert` sont concaténés.
`offsets`	(facultatif) Tableau de positions dans `text` où `itemsToInsert` doit être inséré. S’il est fourni, le nombre d’éléments de `text` doit être égal au nombre d’éléments de `textToInsert`. Sinon, tous les éléments sont ajoutés à la fin de `text`.

Sorties de la compétence

Nom de sortie	Description
`mergedText`	Texte fusionné résultant.
`mergedOffsets`	Tableau de positions dans `mergedText` où les éléments de `itemsToInsert` ont été insérés.

Exemple d’entrée

Voici un exemple de document JSON fournissant des données d’entrée exploitables pour cette compétence :

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Exemple de sortie

Cet exemple montre la sortie de l’entrée précédente, à supposer que insertPreTag ait la valeur " " et insertPostTag la valeur "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Exemple étendu de définition de compétences

La fusion de texte permet notamment de fusionner la représentation textuelle d’images (du texte issu d’une compétence OCR ou la légende d’une image) dans le champ de contenu d’un document.

L’exemple de compétences suivant utilise la reconnaissance optique des caractères pour extraire du texte à partir d’images incorporées dans le document. Ensuite, il crée un champ merged_text qui contiendra le texte avant et après reconnaissance de chaque image. Vous trouverez plus d'informations sur la reconnaissance optique des caractères ici.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

L’exemple ci-dessus suppose l’existence d’un champ normalized-images. Pour obtenir ce champ, définissez la configuration imageAction dans la définition de votre indexeur sur generateNormalizedImages comme ci-dessous :

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Partage via