IndexingParametersConfiguration interface
Diccionario de propiedades de configuración específicas del indexador. Cada nombre es el nombre de una propiedad específica. Cada valor debe ser de un tipo primitivo.
Propiedades
allow |
Si es true, creará una ruta de acceso //document//file_data que es un objeto que representa los datos de archivo originales descargados del origen de datos de blob. Esto le permite pasar los datos de archivo originales a una aptitud personalizada para su procesamiento dentro de la canalización de enriquecimiento o a la aptitud Extracción de documentos. |
data |
Especifica los datos que se van a extraer de Azure Blob Storage e indica al indexador qué datos extraer del contenido de la imagen cuando "imageAction" está establecido en un valor distinto de "none". Esto se aplica al contenido de imagen insertado en una .PDF u otra aplicación, o archivos de imagen, como .jpg y .png, en blobs de Azure. |
delimited |
En el caso de los blobs CSV, especifica el delimitador de un solo carácter de fin de línea para los archivos CSV donde cada línea inicia un nuevo documento (por ejemplo, "|"). |
delimited |
En el caso de los blobs CSV, especifica una lista delimitada por comas de encabezados de columna, útil para asignar campos de origen a campos de destino en un índice. |
document |
En el caso de las matrices JSON, dado un documento estructurado o semiestructurado, puede especificar una ruta de acceso a la matriz mediante esta propiedad. |
excluded |
Lista delimitada por comas de extensiones de nombre de archivo que se omitirán al procesar desde Azure Blob Storage. Por ejemplo, podría excluir ".png, .mp4" para omitir esos archivos durante la indexación. |
execution |
Especifica el entorno en el que se debe ejecutar el indexador. |
fail |
En el caso de los blobs de Azure, establezca en false si desea continuar indexando si se produce un error en la indexación de un documento. |
fail |
En el caso de los blobs de Azure, establezca en false si desea continuar indexando cuando se encuentra un tipo de contenido no admitido y no conoce todos los tipos de contenido (extensiones de archivo) de antemano. |
first |
En el caso de los blobs CSV, indica que la primera línea (no en blanco) de cada blob contiene encabezados. |
image |
Determina cómo procesar imágenes incrustadas y archivos de imagen en Azure Blob Storage. Establecer la configuración "imageAction" en cualquier valor distinto de "none" requiere que también se adjunte un conjunto de aptitudes a ese indexador. |
indexed |
Lista delimitada por comas de extensiones de nombre de archivo que se van a seleccionar al procesar desde Azure Blob Storage. Por ejemplo, puede enfocar la indexación en archivos de aplicaciones específicos como ".docx, .pptx y .msg", para incluir específicamente esos tipos de archivo. |
index |
En el caso de los blobs de Azure, establezca esta propiedad en true para indexar los metadatos de almacenamiento para el contenido de blobs demasiado grande para procesar. Los blobs demasiado grandes se tratan como errores de forma predeterminada. Para conocer los límites del tamaño del blob, consulte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Representa el modo de análisis para la indexación desde un origen de datos de blobs de Azure. |
pdf |
Determina el algoritmo para la extracción de texto de archivos PDF en Azure Blob Storage. |
query |
Aumenta el tiempo de espera más allá del valor predeterminado de 5 minutos para Azure SQL orígenes de datos de base de datos, especificados en el formato "hh:mm:ss". |
Detalles de las propiedades
allowSkillsetToReadFileData
Si es true, creará una ruta de acceso //document//file_data que es un objeto que representa los datos de archivo originales descargados del origen de datos de blob. Esto le permite pasar los datos de archivo originales a una aptitud personalizada para su procesamiento dentro de la canalización de enriquecimiento o a la aptitud Extracción de documentos.
allowSkillsetToReadFileData?: boolean
Valor de propiedad
boolean
dataToExtract
Especifica los datos que se van a extraer de Azure Blob Storage e indica al indexador qué datos extraer del contenido de la imagen cuando "imageAction" está establecido en un valor distinto de "none". Esto se aplica al contenido de imagen insertado en una .PDF u otra aplicación, o archivos de imagen, como .jpg y .png, en blobs de Azure.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Valor de propiedad
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
En el caso de los blobs CSV, especifica el delimitador de un solo carácter de fin de línea para los archivos CSV donde cada línea inicia un nuevo documento (por ejemplo, "|").
delimitedTextDelimiter?: string
Valor de propiedad
string
delimitedTextHeaders
En el caso de los blobs CSV, especifica una lista delimitada por comas de encabezados de columna, útil para asignar campos de origen a campos de destino en un índice.
delimitedTextHeaders?: string
Valor de propiedad
string
documentRoot
En el caso de las matrices JSON, dado un documento estructurado o semiestructurado, puede especificar una ruta de acceso a la matriz mediante esta propiedad.
documentRoot?: string
Valor de propiedad
string
excludedFileNameExtensions
Lista delimitada por comas de extensiones de nombre de archivo que se omitirán al procesar desde Azure Blob Storage. Por ejemplo, podría excluir ".png, .mp4" para omitir esos archivos durante la indexación.
excludedFileNameExtensions?: string
Valor de propiedad
string
executionEnvironment
Especifica el entorno en el que se debe ejecutar el indexador.
executionEnvironment?: "standard" | "private"
Valor de propiedad
"standard" | "private"
failOnUnprocessableDocument
En el caso de los blobs de Azure, establezca en false si desea continuar indexando si se produce un error en la indexación de un documento.
failOnUnprocessableDocument?: boolean
Valor de propiedad
boolean
failOnUnsupportedContentType
En el caso de los blobs de Azure, establezca en false si desea continuar indexando cuando se encuentra un tipo de contenido no admitido y no conoce todos los tipos de contenido (extensiones de archivo) de antemano.
failOnUnsupportedContentType?: boolean
Valor de propiedad
boolean
firstLineContainsHeaders
En el caso de los blobs CSV, indica que la primera línea (no en blanco) de cada blob contiene encabezados.
firstLineContainsHeaders?: boolean
Valor de propiedad
boolean
imageAction
Determina cómo procesar imágenes incrustadas y archivos de imagen en Azure Blob Storage. Establecer la configuración "imageAction" en cualquier valor distinto de "none" requiere que también se adjunte un conjunto de aptitudes a ese indexador.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Valor de propiedad
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Lista delimitada por comas de extensiones de nombre de archivo que se van a seleccionar al procesar desde Azure Blob Storage. Por ejemplo, puede enfocar la indexación en archivos de aplicaciones específicos como ".docx, .pptx y .msg", para incluir específicamente esos tipos de archivo.
indexedFileNameExtensions?: string
Valor de propiedad
string
indexStorageMetadataOnlyForOversizedDocuments
En el caso de los blobs de Azure, establezca esta propiedad en true para indexar los metadatos de almacenamiento para el contenido de blobs demasiado grande para procesar. Los blobs demasiado grandes se tratan como errores de forma predeterminada. Para conocer los límites del tamaño del blob, consulte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Valor de propiedad
boolean
parsingMode
Representa el modo de análisis para la indexación desde un origen de datos de blobs de Azure.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Valor de propiedad
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Determina el algoritmo para la extracción de texto de archivos PDF en Azure Blob Storage.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Valor de propiedad
"none" | "detectAngles"
queryTimeout
Aumenta el tiempo de espera más allá del valor predeterminado de 5 minutos para Azure SQL orígenes de datos de base de datos, especificados en el formato "hh:mm:ss".
queryTimeout?: string
Valor de propiedad
string