Compartir vía


Aptitud cognitiva Combinación de texto

La aptitud Combinación de texto consolida el texto de una colección de cadenas en un solo campo.

Nota:

Esta aptitud no está enlazada a los servicios de Azure AI. No es facturable y no tiene ningún requisito de clave de los servicios de Azure AI.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parámetros de la aptitud

Los parámetros distinguen mayúsculas de minúsculas.

Nombre de parámetro Descripción
insertPreTag Cadena que se incluirá antes de cada inserción. El valor predeterminado es " ". Para omitir el espacio, establezca el valor en "".
insertPostTag Cadena que se incluirá después de cada inserción. El valor predeterminado es " ". Para omitir el espacio, establezca el valor en "".

Entradas de la aptitud

Nombre de entrada Descripción
itemsToInsert Matriz de cadenas que se va a combinar.
text (opcional) Cuerpo del texto principal en el que se va a insertar. Si text no se proporciona, se concatenarán los elementos de itemsToInsert.
offsets (opcional) Matriz de posiciones dentro de text, donde se debe insertar itemsToInsert. Si se proporciona, el número de elementos de text debe ser igual al número de elementos de textToInsert. De lo contrario, todos los elementos se anexarán al final de text.

Salidas de la aptitud

Nombre de salida Descripción
mergedText Texto combinado resultante.
mergedOffsets Matriz de posiciones dentro de mergedText donde han insertado los elementos de itemsToInsert.

Entrada de ejemplo

Un documento JSON con una entrada útil para esta aptitud podría ser:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Salida de muestra

Este ejemplo muestra la salida de la entrada anterior, suponiendo que insertPreTag esté establecido en " " y insertPostTag esté establecido en "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definición del conjunto de aptitudes de ejemplo extendido

Un escenario común a la hora de utilizar Combinación de texto es combinar la representación textual de imágenes (el texto de una aptitud de OCR o la leyenda de una imagen) en el campo de contenido de un documento.

El siguiente conjunto de aptitudes de ejemplo utiliza la aptitud OCR para extraer el texto de las imágenes insertadas en el documento. A continuación, crea un campo merged_text para que contenga el texto original y el texto de OCR de cada imagen. Puede aprender más sobre la habilidad de OCR aquí.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

En el ejemplo anterior se asume que existe un campo de imágenes normalizadas. Para obtener este campo de imágenes normalizadas, establezca la configuración imageAction en la definición del indexador en generateNormalizedImages, tal como se muestra a continuación:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Consulte también