Compétence cognitive Fusion de texte
La compétence Fusion de texte consolide le texte d’un tableau de chaînes en un seul champ.
Remarque
Cette compétence n’est pas liée aux services Azure AI. Elle n’est pas facturable et aucune clé Azure AI services n’est requise.
@odata.type
Microsoft.Skills.Text.MergeSkill
Paramètres de la compétence
Les paramètres respectent la casse.
Nom du paramètre | Description |
---|---|
insertPreTag |
Chaîne à inclure avant chaque insertion. La valeur par défaut est " " . Pour omettre l’espace, choisissez la valeur "" . |
insertPostTag |
Chaîne à inclure après chaque insertion. La valeur par défaut est " " . Pour omettre l’espace, choisissez la valeur "" . |
Entrées de la compétence
Nom de l'entrée | Description |
---|---|
itemsToInsert |
Tableau de chaînes à fusionner. |
text |
(facultatif) Corps de texte principal dans lequel effectuer l’insertion. Si text n’est pas fourni, les éléments de itemsToInsert sont concaténés. |
offsets |
(facultatif) Tableau de positions dans text où itemsToInsert doit être inséré. S’il est fourni, le nombre d’éléments de text doit être égal au nombre d’éléments de textToInsert . Sinon, tous les éléments sont ajoutés à la fin de text . |
Sorties de la compétence
Nom de sortie | Description |
---|---|
mergedText |
Texte fusionné résultant. |
mergedOffsets |
Tableau de positions dans mergedText où les éléments de itemsToInsert ont été insérés. |
Exemple d’entrée
Voici un exemple de document JSON fournissant des données d’entrée exploitables pour cette compétence :
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The brown fox jumps over the dog",
"itemsToInsert": ["quick", "lazy"],
"offsets": [3, 28]
}
}
]
}
Exemple de sortie
Cet exemple montre la sortie de l’entrée précédente, à supposer que insertPreTag ait la valeur " "
et insertPostTag la valeur ""
.
{
"values": [
{
"recordId": "1",
"data":
{
"mergedText": "The quick brown fox jumps over the lazy dog"
}
}
]
}
Exemple étendu de définition de compétences
La fusion de texte permet notamment de fusionner la représentation textuelle d’images (du texte issu d’une compétence OCR ou la légende d’une image) dans le champ de contenu d’un document.
L’exemple de compétences suivant utilise la reconnaissance optique des caractères pour extraire du texte à partir d’images incorporées dans le document. Ensuite, il crée un champ merged_text qui contiendra le texte avant et après reconnaissance de chaque image. Vous trouverez plus d'informations sur la reconnaissance optique des caractères ici.
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
L’exemple ci-dessus suppose l’existence d’un champ normalized-images. Pour obtenir ce champ, définissez la configuration imageAction dans la définition de votre indexeur sur generateNormalizedImages comme ci-dessous :
{
//...rest of your indexer definition goes here ...
"parameters":{
"configuration":{
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}