Aptitud cognitiva Extracción de documentos

2025-05-28

La aptitud Extracción de documentos extrae contenido de un archivo dentro de la canalización de enriquecimiento. De forma predeterminada, la extracción o recuperación de contenido está integrada en la canalización del indexador. Sin embargo, mediante la aptitud Extracción de documentos, puede controlar cómo se establecen los parámetros y cómo se denomina contenido extraído en el árbol de enriquecimiento.

Para la búsqueda vectorial y vectorial, la extracción de documentos combinada con la aptitud División de texto es más asequible que otros enfoques de fragmentación de datos. En los tutoriales siguientes se muestra el uso de aptitudes para distintos escenarios:

Nota:

Esta aptitud no está enlazada a los servicios de Azure AI y no tiene ningún requisito clave de los servicios de Azure AI.

Esta aptitud extrae texto e imágenes. La extracción de texto es libre. Azure AI Search factura la extracción de imágenes. En un servicio de búsqueda gratuito, el costo de 20 transacciones por indexador al día se absorbe para que pueda completar inicios rápidos, tutoriales y proyectos pequeños sin cargo alguno. En el caso de los niveles básicos y superiores, la extracción de imágenes es facturable.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Formatos de documento admitidos

DocumentExtractionSkill puede extraer texto de los siguientes formatos de documento:

CSV (consulte Indexación de blobs CSV)
EML
EPUB
GZ
HTML
JSON (vea Indexación de blobs JSON)
KML (XML para representaciones geográficas)
Formatos de Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (correos electrónicos de Outlook), XML (WORD XML 2003 y 2006)
Formatos de Open Document: ODT, ODS, ODP
PDF
Archivos de texto sin formato (vea también Indexing plain text (Indexación de texto sin formato))
RTF
XML
archivo ZIP / código postal

Parámetros de la aptitud

Los parámetros distinguen mayúsculas de minúsculas.

Entradas Valores permitidos Descripción

Entradas	Valores permitidos	Descripción
`parsingMode`	`default` `text` `json`	`default` Establézcalo en para la extracción de documentos de archivos que no sean texto puro o json. Para los archivos de código fuente que contienen marcado (como archivos PDF, HTML, RTF y Microsoft Office), use el valor predeterminado para extraer solo el texto, menos cualquier lenguaje de marcado o etiquetas. Si `parsingMode` no se define explícitamente, se establecerá en `default`. Establézcalo en `text` si los archivos de origen son TXT. Este modo de análisis mejora el rendimiento de los archivos de texto sin formato. Si los archivos incluyen marcado, este modo conservará las etiquetas en la salida final. Establézcalo en `json` para extraer contenido estructurado de archivos json.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Establézcalo en `contentAndMetadata` para extraer todos los metadatos y el contenido textual de cada archivo. Si `dataToExtract` no se define explícitamente, se establecerá en `contentAndMetadata`. `allMetadata` Establézcalo en para extraer solo las propiedades de metadatos del tipo de contenido (por ejemplo, metadatos únicos para solo .png archivos).
`configuration`	Véalo a continuación.	Diccionario de parámetros opcionales que ajustan cómo se realiza la extracción de documentos. Consulte la tabla siguiente para obtener descripciones de las propiedades de configuración admitidas.

parsingMode

default
text
json

default Establézcalo en para la extracción de documentos de archivos que no sean texto puro o json. Para los archivos de código fuente que contienen marcado (como archivos PDF, HTML, RTF y Microsoft Office), use el valor predeterminado para extraer solo el texto, menos cualquier lenguaje de marcado o etiquetas. Si parsingMode no se define explícitamente, se establecerá en default.

Establézcalo en text si los archivos de origen son TXT. Este modo de análisis mejora el rendimiento de los archivos de texto sin formato. Si los archivos incluyen marcado, este modo conservará las etiquetas en la salida final.

Establézcalo en json para extraer contenido estructurado de archivos json.

dataToExtract

contentAndMetadata
allMetadata

Establézcalo en contentAndMetadata para extraer todos los metadatos y el contenido textual de cada archivo. Si dataToExtract no se define explícitamente, se establecerá en contentAndMetadata.

allMetadata Establézcalo en para extraer solo las propiedades de metadatos del tipo de contenido (por ejemplo, metadatos únicos para solo .png archivos).

configuration Véalo a continuación. Diccionario de parámetros opcionales que ajustan cómo se realiza la extracción de documentos. Consulte la tabla siguiente para obtener descripciones de las propiedades de configuración admitidas.

Parámetro de configuración Valores permitidos Descripción

Parámetro de configuración	Valores permitidos	Descripción
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Establézcalo `none` en para omitir las imágenes incrustadas o los archivos de imagen del conjunto de datos, o si los datos de origen no incluyen archivos de imagen. Este es el valor predeterminado. Para el análisis de imágenes y OCR, establézcalo en `generateNormalizedImages` para que la aptitud cree una matriz de imágenes normalizadas como parte del descifrado de documentos. Esta acción requiere que `parsingMode` se establezca `default` en y `dataToExtract` se establezca en `contentAndMetadata`. Una imagen normalizada hace referencia al procesamiento adicional, lo que da como resultado una salida uniforme de imagen, el tamaño y la rotación para promover la representación coherente cuando se incluyen imágenes en los resultados de búsqueda visual (por ejemplo, fotografías de mismo tamaño en un control de gráfico, como se ve en la demostración de JFK). Esta información se genera para cada imagen cuando se usa esta opción. Si establece `generateNormalizedImagePerPage`en , los archivos PDF se tratan de forma diferente en que en lugar de extraer imágenes incrustadas, cada página se representa como una imagen y se normaliza en consecuencia. Los tipos de archivo no PDF se tratan igual que si `generateNormalizedImages` se hubiera establecido.
`normalizedImageMaxWidth`	Cualquier entero entre 50 y 10000	Ancho máximo (en píxeles) para las imágenes normalizadas generadas. El valor predeterminado es 2000.
`normalizedImageMaxHeight`	Cualquier entero entre 50 y 10000	Alto máximo (en píxeles) para las imágenes normalizadas generadas. El valor predeterminado es 2000.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Establézcalo none en para omitir las imágenes incrustadas o los archivos de imagen del conjunto de datos, o si los datos de origen no incluyen archivos de imagen. Este es el valor predeterminado.

Para el análisis de imágenes y OCR, establézcalo en generateNormalizedImages para que la aptitud cree una matriz de imágenes normalizadas como parte del descifrado de documentos. Esta acción requiere que parsingMode se establezca default en y dataToExtract se establezca en contentAndMetadata. Una imagen normalizada hace referencia al procesamiento adicional, lo que da como resultado una salida uniforme de imagen, el tamaño y la rotación para promover la representación coherente cuando se incluyen imágenes en los resultados de búsqueda visual (por ejemplo, fotografías de mismo tamaño en un control de gráfico, como se ve en la demostración de JFK). Esta información se genera para cada imagen cuando se usa esta opción.

Si establece generateNormalizedImagePerPageen , los archivos PDF se tratan de forma diferente en que en lugar de extraer imágenes incrustadas, cada página se representa como una imagen y se normaliza en consecuencia. Los tipos de archivo no PDF se tratan igual que si generateNormalizedImages se hubiera establecido.

normalizedImageMaxWidth Cualquier entero entre 50 y 10000 Ancho máximo (en píxeles) para las imágenes normalizadas generadas. El valor predeterminado es 2000.

normalizedImageMaxHeight Cualquier entero entre 50 y 10000 Alto máximo (en píxeles) para las imágenes normalizadas generadas. El valor predeterminado es 2000.

Nota:

El valor predeterminado es de 2000 píxeles para el ancho máximo de las imágenes normalizadas, y la altura se basa en los tamaños máximos admitidos por la habilidad de OCR y la habilidad de análisis de imágenes. La aptitud de OCR admite un ancho y un alto máximos de 4200 para los idiomas distintos del inglés y 10 000 para el inglés. Si aumenta los límites máximos, el procesamiento podría generar un error en imágenes de mayor tamaño en función de la definición del conjunto de aptitudes y del idioma de los documentos.

Entradas de la aptitud

Nombre de entrada	Descripción
`file_data`	Archivo del que se debe extraer el contenido.

La entrada "file_data" debe ser un objeto definido así:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Como alternativa, se puede definir como:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

El objeto de referencia de archivo se puede generar de tres maneras:

Establecer el parámetro en la definición del allowSkillsetToReadFileData indexador en "true". Esto crea una ruta de acceso /document/file_data que es un objeto que representa los datos de archivo originales descargados del origen de datos del blob. Este parámetro solo se aplica a los archivos de Blob Storage.
Establecer el parámetro en la imageAction definición del indexador en un valor distinto de none. Esto crea una matriz de imágenes que sigue la convención necesaria para la entrada a esta aptitud si se pasa individualmente (es decir, /document/normalized_images/*).
Tener una aptitud personalizada devuelve un objeto json definido exactamente como se ha indicado anteriormente. El $type parámetro debe establecerse en exactamente file y el data parámetro debe ser los datos de matriz de bytes codificados en base 64 del contenido del archivo o el url parámetro debe ser una dirección URL con formato correcto con acceso para descargar el archivo en esa ubicación.

Salidas de la aptitud

Nombre de salida	Descripción
`content`	Contenido textual del documento.
`normalized_images`	`imageAction` Cuando se establece en un valor distinto `none`de , el nuevo campo normalized_images contiene una matriz de imágenes. Consulte Extracción de texto e información de imágenes para obtener más información sobre el formato de salida.

Definición de ejemplo

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Entrada de ejemplo

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Salida de ejemplo

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}