Aptitud cognitiva Combinación de texto

Artículo
09/01/2024

La aptitud Combinación de texto consolida el texto de una colección de cadenas en un solo campo.

Nota:

Esta aptitud no está enlazada a los servicios de Azure AI. No es facturable y no tiene ningún requisito de clave de los servicios de Azure AI.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parámetros de la aptitud

Los parámetros distinguen mayúsculas de minúsculas.

Nombre de parámetro	Descripción
`insertPreTag`	Cadena que se incluirá antes de cada inserción. El valor predeterminado es `" "`. Para omitir el espacio, establezca el valor en `""`.
`insertPostTag`	Cadena que se incluirá después de cada inserción. El valor predeterminado es `" "`. Para omitir el espacio, establezca el valor en `""`.

Entradas de la aptitud

Nombre de entrada	Descripción
`itemsToInsert`	Matriz de cadenas que se va a combinar.
`text`	(opcional) Cuerpo del texto principal en el que se va a insertar. Si `text` no se proporciona, se concatenarán los elementos de `itemsToInsert`.
`offsets`	(opcional) Matriz de posiciones dentro de `text`, donde se debe insertar `itemsToInsert`. Si se proporciona, el número de elementos de `text` debe ser igual al número de elementos de `textToInsert`. De lo contrario, todos los elementos se anexarán al final de `text`.

Salidas de la aptitud

Nombre de salida	Descripción
`mergedText`	Texto combinado resultante.
`mergedOffsets`	Matriz de posiciones dentro de `mergedText` donde han insertado los elementos de `itemsToInsert`.

Entrada de ejemplo

Un documento JSON con una entrada útil para esta aptitud podría ser:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Salida de muestra

Este ejemplo muestra la salida de la entrada anterior, suponiendo que insertPreTag esté establecido en " " y insertPostTag esté establecido en "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definición del conjunto de aptitudes de ejemplo extendido

Un escenario común a la hora de utilizar Combinación de texto es combinar la representación textual de imágenes (el texto de una aptitud de OCR o la leyenda de una imagen) en el campo de contenido de un documento.

El siguiente conjunto de aptitudes de ejemplo utiliza la aptitud OCR para extraer el texto de las imágenes insertadas en el documento. A continuación, crea un campo merged_text para que contenga el texto original y el texto de OCR de cada imagen. Puede aprender más sobre la habilidad de OCR aquí.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

En el ejemplo anterior se asume que existe un campo de imágenes normalizadas. Para obtener este campo de imágenes normalizadas, establezca la configuración imageAction en la definición del indexador en generateNormalizedImages, tal como se muestra a continuación:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Compartir vía