Compartir a través de


IndexingParametersConfiguration interface

Diccionario de propiedades de configuración específicas del indexador. Cada nombre es el nombre de una propiedad específica. Cada valor debe ser de un tipo primitivo.

Propiedades

allowSkillsetToReadFileData

Si es true, creará una ruta de acceso //document//file_data que es un objeto que representa los datos de archivo originales descargados del origen de datos de blob. Esto le permite pasar los datos de archivo originales a una aptitud personalizada para su procesamiento dentro de la canalización de enriquecimiento o a la aptitud Extracción de documentos.

dataToExtract

Especifica los datos que se van a extraer de Azure Blob Storage e indica al indexador qué datos extraer del contenido de la imagen cuando "imageAction" está establecido en un valor distinto de "none". Esto se aplica al contenido de imagen insertado en una .PDF u otra aplicación, o archivos de imagen, como .jpg y .png, en blobs de Azure.

delimitedTextDelimiter

En el caso de los blobs CSV, especifica el delimitador de un solo carácter de fin de línea para los archivos CSV donde cada línea inicia un nuevo documento (por ejemplo, "|").

delimitedTextHeaders

En el caso de los blobs CSV, especifica una lista delimitada por comas de encabezados de columna, útil para asignar campos de origen a campos de destino en un índice.

documentRoot

En el caso de las matrices JSON, dado un documento estructurado o semiestructurado, puede especificar una ruta de acceso a la matriz mediante esta propiedad.

excludedFileNameExtensions

Lista delimitada por comas de extensiones de nombre de archivo que se omitirán al procesar desde Azure Blob Storage. Por ejemplo, podría excluir ".png, .mp4" para omitir esos archivos durante la indexación.

executionEnvironment

Especifica el entorno en el que se debe ejecutar el indexador.

failOnUnprocessableDocument

En el caso de los blobs de Azure, establezca en false si desea continuar indexando si se produce un error en la indexación de un documento.

failOnUnsupportedContentType

En el caso de los blobs de Azure, establezca en false si desea continuar indexando cuando se encuentra un tipo de contenido no admitido y no conoce todos los tipos de contenido (extensiones de archivo) de antemano.

firstLineContainsHeaders

En el caso de los blobs CSV, indica que la primera línea (no en blanco) de cada blob contiene encabezados.

imageAction

Determina cómo procesar imágenes incrustadas y archivos de imagen en Azure Blob Storage. Establecer la configuración "imageAction" en cualquier valor distinto de "none" requiere que también se adjunte un conjunto de aptitudes a ese indexador.

indexedFileNameExtensions

Lista delimitada por comas de extensiones de nombre de archivo que se van a seleccionar al procesar desde Azure Blob Storage. Por ejemplo, puede enfocar la indexación en archivos de aplicaciones específicos como ".docx, .pptx y .msg", para incluir específicamente esos tipos de archivo.

indexStorageMetadataOnlyForOversizedDocuments

En el caso de los blobs de Azure, establezca esta propiedad en true para indexar los metadatos de almacenamiento para el contenido de blobs demasiado grande para procesar. Los blobs demasiado grandes se tratan como errores de forma predeterminada. Para conocer los límites del tamaño del blob, consulte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

parsingMode

Representa el modo de análisis para la indexación desde un origen de datos de blobs de Azure.

pdfTextRotationAlgorithm

Determina el algoritmo para la extracción de texto de archivos PDF en Azure Blob Storage.

queryTimeout

Aumenta el tiempo de espera más allá del valor predeterminado de 5 minutos para Azure SQL orígenes de datos de base de datos, especificados en el formato "hh:mm:ss".

Detalles de las propiedades

allowSkillsetToReadFileData

Si es true, creará una ruta de acceso //document//file_data que es un objeto que representa los datos de archivo originales descargados del origen de datos de blob. Esto le permite pasar los datos de archivo originales a una aptitud personalizada para su procesamiento dentro de la canalización de enriquecimiento o a la aptitud Extracción de documentos.

allowSkillsetToReadFileData?: boolean

Valor de propiedad

boolean

dataToExtract

Especifica los datos que se van a extraer de Azure Blob Storage e indica al indexador qué datos extraer del contenido de la imagen cuando "imageAction" está establecido en un valor distinto de "none". Esto se aplica al contenido de imagen insertado en una .PDF u otra aplicación, o archivos de imagen, como .jpg y .png, en blobs de Azure.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Valor de propiedad

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

En el caso de los blobs CSV, especifica el delimitador de un solo carácter de fin de línea para los archivos CSV donde cada línea inicia un nuevo documento (por ejemplo, "|").

delimitedTextDelimiter?: string

Valor de propiedad

string

delimitedTextHeaders

En el caso de los blobs CSV, especifica una lista delimitada por comas de encabezados de columna, útil para asignar campos de origen a campos de destino en un índice.

delimitedTextHeaders?: string

Valor de propiedad

string

documentRoot

En el caso de las matrices JSON, dado un documento estructurado o semiestructurado, puede especificar una ruta de acceso a la matriz mediante esta propiedad.

documentRoot?: string

Valor de propiedad

string

excludedFileNameExtensions

Lista delimitada por comas de extensiones de nombre de archivo que se omitirán al procesar desde Azure Blob Storage. Por ejemplo, podría excluir ".png, .mp4" para omitir esos archivos durante la indexación.

excludedFileNameExtensions?: string

Valor de propiedad

string

executionEnvironment

Especifica el entorno en el que se debe ejecutar el indexador.

executionEnvironment?: "standard" | "private"

Valor de propiedad

"standard" | "private"

failOnUnprocessableDocument

En el caso de los blobs de Azure, establezca en false si desea continuar indexando si se produce un error en la indexación de un documento.

failOnUnprocessableDocument?: boolean

Valor de propiedad

boolean

failOnUnsupportedContentType

En el caso de los blobs de Azure, establezca en false si desea continuar indexando cuando se encuentra un tipo de contenido no admitido y no conoce todos los tipos de contenido (extensiones de archivo) de antemano.

failOnUnsupportedContentType?: boolean

Valor de propiedad

boolean

firstLineContainsHeaders

En el caso de los blobs CSV, indica que la primera línea (no en blanco) de cada blob contiene encabezados.

firstLineContainsHeaders?: boolean

Valor de propiedad

boolean

imageAction

Determina cómo procesar imágenes incrustadas y archivos de imagen en Azure Blob Storage. Establecer la configuración "imageAction" en cualquier valor distinto de "none" requiere que también se adjunte un conjunto de aptitudes a ese indexador.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Valor de propiedad

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Lista delimitada por comas de extensiones de nombre de archivo que se van a seleccionar al procesar desde Azure Blob Storage. Por ejemplo, puede enfocar la indexación en archivos de aplicaciones específicos como ".docx, .pptx y .msg", para incluir específicamente esos tipos de archivo.

indexedFileNameExtensions?: string

Valor de propiedad

string

indexStorageMetadataOnlyForOversizedDocuments

En el caso de los blobs de Azure, establezca esta propiedad en true para indexar los metadatos de almacenamiento para el contenido de blobs demasiado grande para procesar. Los blobs demasiado grandes se tratan como errores de forma predeterminada. Para conocer los límites del tamaño del blob, consulte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Valor de propiedad

boolean

parsingMode

Representa el modo de análisis para la indexación desde un origen de datos de blobs de Azure.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

Valor de propiedad

"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

pdfTextRotationAlgorithm

Determina el algoritmo para la extracción de texto de archivos PDF en Azure Blob Storage.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Valor de propiedad

"none" | "detectAngles"

queryTimeout

Aumenta el tiempo de espera más allá del valor predeterminado de 5 minutos para Azure SQL orígenes de datos de base de datos, especificados en el formato "hh:mm:ss".

queryTimeout?: string

Valor de propiedad

string