Partager via


Compétence cognitive Fusion de texte

La compétence Fusion de texte consolide le texte d’un tableau de chaînes en un seul champ.

Remarque

Cette compétence n’est pas liée aux services Azure AI. Elle n’est pas facturable et aucune clé Azure AI services n’est requise.

@odata.type

Microsoft.Skills.Text.MergeSkill

Paramètres de la compétence

Les paramètres respectent la casse.

Nom du paramètre Description
insertPreTag Chaîne à inclure avant chaque insertion. La valeur par défaut est " ". Pour omettre l’espace, choisissez la valeur "".
insertPostTag Chaîne à inclure après chaque insertion. La valeur par défaut est " ". Pour omettre l’espace, choisissez la valeur "".

Entrées de la compétence

Nom de l'entrée Description
itemsToInsert Tableau de chaînes à fusionner.
text (facultatif) Corps de texte principal dans lequel effectuer l’insertion. Si text n’est pas fourni, les éléments de itemsToInsert sont concaténés.
offsets (facultatif) Tableau de positions dans textitemsToInsert doit être inséré. S’il est fourni, le nombre d’éléments de text doit être égal au nombre d’éléments de textToInsert. Sinon, tous les éléments sont ajoutés à la fin de text.

Sorties de la compétence

Nom de sortie Description
mergedText Texte fusionné résultant.
mergedOffsets Tableau de positions dans mergedText où les éléments de itemsToInsert ont été insérés.

Exemple d’entrée

Voici un exemple de document JSON fournissant des données d’entrée exploitables pour cette compétence :

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Exemple de sortie

Cet exemple montre la sortie de l’entrée précédente, à supposer que insertPreTag ait la valeur " " et insertPostTag la valeur "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Exemple étendu de définition de compétences

La fusion de texte permet notamment de fusionner la représentation textuelle d’images (du texte issu d’une compétence OCR ou la légende d’une image) dans le champ de contenu d’un document.

L’exemple de compétences suivant utilise la reconnaissance optique des caractères pour extraire du texte à partir d’images incorporées dans le document. Ensuite, il crée un champ merged_text qui contiendra le texte avant et après reconnaissance de chaque image. Vous trouverez plus d'informations sur la reconnaissance optique des caractères ici.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

L’exemple ci-dessus suppose l’existence d’un champ normalized-images. Pour obtenir ce champ, définissez la configuration imageAction dans la définition de votre indexeur sur generateNormalizedImages comme ci-dessous :

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Voir aussi