Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La aptitud Extracción de documentos extrae contenido de un archivo dentro de la canalización de enriquecimiento. De forma predeterminada, la extracción o recuperación de contenido está integrada en la canalización del indexador. Sin embargo, mediante la aptitud Extracción de documentos, puede controlar cómo se establecen los parámetros y cómo se denomina contenido extraído en el árbol de enriquecimiento.
Para la búsqueda vectorial y vectorial, la extracción de documentos combinada con la aptitud División de texto es más asequible que otros enfoques de fragmentación de datos. En los tutoriales siguientes se muestra el uso de aptitudes para distintos escenarios:
Nota:
Esta aptitud no está enlazada a los servicios de Azure AI y no tiene ningún requisito clave de los servicios de Azure AI.
Esta aptitud extrae texto e imágenes. La extracción de texto es libre. Azure AI Search factura la extracción de imágenes. En un servicio de búsqueda gratuito, el costo de 20 transacciones por indexador al día se absorbe para que pueda completar inicios rápidos, tutoriales y proyectos pequeños sin cargo alguno. En el caso de los niveles básicos y superiores, la extracción de imágenes es facturable.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Formatos de documento admitidos
DocumentExtractionSkill puede extraer texto de los siguientes formatos de documento:
- CSV (consulte Indexación de blobs CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (vea Indexación de blobs JSON)
- KML (XML para representaciones geográficas)
- Formatos de Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (correos electrónicos de Outlook), XML (WORD XML 2003 y 2006)
- Formatos de Open Document: ODT, ODS, ODP
- Archivos de texto sin formato (vea también Indexing plain text (Indexación de texto sin formato))
- RTF
- XML
- archivo ZIP / código postal
Parámetros de la aptitud
Los parámetros distinguen mayúsculas de minúsculas.
Entradas | Valores permitidos | Descripción |
---|---|---|
parsingMode |
default
text
json
|
default Establézcalo en para la extracción de documentos de archivos que no sean texto puro o json. Para los archivos de código fuente que contienen marcado (como archivos PDF, HTML, RTF y Microsoft Office), use el valor predeterminado para extraer solo el texto, menos cualquier lenguaje de marcado o etiquetas. Si parsingMode no se define explícitamente, se establecerá en default . Establézcalo en text si los archivos de origen son TXT. Este modo de análisis mejora el rendimiento de los archivos de texto sin formato. Si los archivos incluyen marcado, este modo conservará las etiquetas en la salida final. Establézcalo en json para extraer contenido estructurado de archivos json. |
dataToExtract |
contentAndMetadata
allMetadata
|
Establézcalo en contentAndMetadata para extraer todos los metadatos y el contenido textual de cada archivo. Si dataToExtract no se define explícitamente, se establecerá en contentAndMetadata .
allMetadata Establézcalo en para extraer solo las propiedades de metadatos del tipo de contenido (por ejemplo, metadatos únicos para solo .png archivos). |
configuration |
Véalo a continuación. | Diccionario de parámetros opcionales que ajustan cómo se realiza la extracción de documentos. Consulte la tabla siguiente para obtener descripciones de las propiedades de configuración admitidas. |
Parámetro de configuración | Valores permitidos | Descripción |
---|---|---|
imageAction |
none
generateNormalizedImages
generateNormalizedImagePerPage
|
Establézcalo none en para omitir las imágenes incrustadas o los archivos de imagen del conjunto de datos, o si los datos de origen no incluyen archivos de imagen. Este es el valor predeterminado. Para el análisis de imágenes y OCR, establézcalo en generateNormalizedImages para que la aptitud cree una matriz de imágenes normalizadas como parte del descifrado de documentos. Esta acción requiere que parsingMode se establezca default en y dataToExtract se establezca en contentAndMetadata . Una imagen normalizada hace referencia al procesamiento adicional, lo que da como resultado una salida uniforme de imagen, el tamaño y la rotación para promover la representación coherente cuando se incluyen imágenes en los resultados de búsqueda visual (por ejemplo, fotografías de mismo tamaño en un control de gráfico, como se ve en la demostración de JFK). Esta información se genera para cada imagen cuando se usa esta opción. Si establece generateNormalizedImagePerPage en , los archivos PDF se tratan de forma diferente en que en lugar de extraer imágenes incrustadas, cada página se representa como una imagen y se normaliza en consecuencia. Los tipos de archivo no PDF se tratan igual que si generateNormalizedImages se hubiera establecido. |
normalizedImageMaxWidth |
Cualquier entero entre 50 y 10000 | Ancho máximo (en píxeles) para las imágenes normalizadas generadas. El valor predeterminado es 2000. |
normalizedImageMaxHeight |
Cualquier entero entre 50 y 10000 | Alto máximo (en píxeles) para las imágenes normalizadas generadas. El valor predeterminado es 2000. |
Nota:
El valor predeterminado es de 2000 píxeles para el ancho máximo de las imágenes normalizadas, y la altura se basa en los tamaños máximos admitidos por la habilidad de OCR y la habilidad de análisis de imágenes. La aptitud de OCR admite un ancho y un alto máximos de 4200 para los idiomas distintos del inglés y 10 000 para el inglés. Si aumenta los límites máximos, el procesamiento podría generar un error en imágenes de mayor tamaño en función de la definición del conjunto de aptitudes y del idioma de los documentos.
Entradas de la aptitud
Nombre de entrada | Descripción |
---|---|
file_data |
Archivo del que se debe extraer el contenido. |
La entrada "file_data" debe ser un objeto definido así:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Como alternativa, se puede definir como:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
El objeto de referencia de archivo se puede generar de tres maneras:
Establecer el parámetro en la definición del
allowSkillsetToReadFileData
indexador en "true". Esto crea una ruta de acceso/document/file_data
que es un objeto que representa los datos de archivo originales descargados del origen de datos del blob. Este parámetro solo se aplica a los archivos de Blob Storage.Establecer el parámetro en la
imageAction
definición del indexador en un valor distinto denone
. Esto crea una matriz de imágenes que sigue la convención necesaria para la entrada a esta aptitud si se pasa individualmente (es decir,/document/normalized_images/*
).Tener una aptitud personalizada devuelve un objeto json definido exactamente como se ha indicado anteriormente. El
$type
parámetro debe establecerse en exactamentefile
y eldata
parámetro debe ser los datos de matriz de bytes codificados en base 64 del contenido del archivo o elurl
parámetro debe ser una dirección URL con formato correcto con acceso para descargar el archivo en esa ubicación.
Salidas de la aptitud
Nombre de salida | Descripción |
---|---|
content |
Contenido textual del documento. |
normalized_images |
imageAction Cuando se establece en un valor distinto none de , el nuevo campo normalized_images contiene una matriz de imágenes. Consulte Extracción de texto e información de imágenes para obtener más información sobre el formato de salida. |
Definición de ejemplo
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Entrada de ejemplo
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Salida de ejemplo
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}