Поделиться через


IndexingParametersConfiguration interface

Словарь свойств конфигурации, относящихся к индексатору. Каждое имя — это имя определенного свойства. Каждое значение должно иметь примитивный тип.

Свойства

allowSkillsetToReadFileData

Если значение равно true, будет создан путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передать исходные данные файла в пользовательский навык для обработки в конвейере обогащения или в навык извлечения документов.

dataToExtract

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные следует извлекать из содержимого изображения, если для параметра imageAction задано значение, отличное от "none". Это относится к содержимому внедренного изображения в .PDF или другом приложении, а также к файлам изображений, таким как .jpg и .png, в BLOB-объектах Azure.

delimitedTextDelimiter

Для больших двоичных объектов CSV задает односимвольный разделитель конца строки для CSV-файлов, где каждая строка начинает новый документ (например, "|").

delimitedTextHeaders

Для BLOB-объектов CSV задает разделенный запятыми список заголовков столбцов, который удобно использовать для сопоставления исходных полей с полями назначения в индексе.

documentRoot

Для массивов JSON при использовании структурированного или частично структурированного документа можно указать путь к массиву с помощью этого свойства.

excludedFileNameExtensions

Разделенный запятыми список расширений имен файлов, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4", чтобы пропустить эти файлы во время индексирования.

executionEnvironment

Указывает среду, в которой должен выполняться индексатор.

failOnUnprocessableDocument

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование в случае сбоя индексирования документа.

failOnUnsupportedContentType

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента и не знаете все типы контента (расширения файлов) заранее.

firstLineContainsHeaders

Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.

imageAction

Определяет способ обработки внедренных образов и файлов образов в хранилище BLOB-объектов Azure. Установка для конфигурации imageAction любого значения, отличного от "none", требует, чтобы набор навыков также был присоединен к индексатору.

indexedFileNameExtensions

Разделенный запятыми список расширений имен файлов, которые нужно выбрать при обработке из хранилища BLOB-объектов Azure. Например, можно направить индексирование на файлы определенного приложения, указав расширения ".docx, .pptx, .msg", чтобы специально включить эти типы файлов.

indexStorageMetadataOnlyForOversizedDocuments

Для больших двоичных объектов Azure присвойте этому свойству значение true, чтобы по-прежнему индексировать метаданные хранилища для содержимого BLOB-объектов, которое слишком велико для обработки. Большие двоичные объекты слишком большого размера по умолчанию считаются ошибками. Ограничения на размер BLOB-объекта см. в разделе https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

parsingMode

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

pdfTextRotationAlgorithm

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

queryTimeout

Увеличивает время ожидания после 5-минутного значения по умолчанию для Azure SQL источников данных базы данных, указанных в формате "чч:мм:сс".

Сведения о свойстве

allowSkillsetToReadFileData

Если значение равно true, будет создан путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передать исходные данные файла в пользовательский навык для обработки в конвейере обогащения или в навык извлечения документов.

allowSkillsetToReadFileData?: boolean

Значение свойства

boolean

dataToExtract

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные следует извлекать из содержимого изображения, если для параметра imageAction задано значение, отличное от "none". Это относится к содержимому внедренного изображения в .PDF или другом приложении, а также к файлам изображений, таким как .jpg и .png, в BLOB-объектах Azure.

dataToExtract?: BlobIndexerDataToExtract

Значение свойства

delimitedTextDelimiter

Для больших двоичных объектов CSV задает односимвольный разделитель конца строки для CSV-файлов, где каждая строка начинает новый документ (например, "|").

delimitedTextDelimiter?: string

Значение свойства

string

delimitedTextHeaders

Для BLOB-объектов CSV задает разделенный запятыми список заголовков столбцов, который удобно использовать для сопоставления исходных полей с полями назначения в индексе.

delimitedTextHeaders?: string

Значение свойства

string

documentRoot

Для массивов JSON при использовании структурированного или частично структурированного документа можно указать путь к массиву с помощью этого свойства.

documentRoot?: string

Значение свойства

string

excludedFileNameExtensions

Разделенный запятыми список расширений имен файлов, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4", чтобы пропустить эти файлы во время индексирования.

excludedFileNameExtensions?: string

Значение свойства

string

executionEnvironment

Указывает среду, в которой должен выполняться индексатор.

executionEnvironment?: IndexerExecutionEnvironment

Значение свойства

failOnUnprocessableDocument

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование в случае сбоя индексирования документа.

failOnUnprocessableDocument?: boolean

Значение свойства

boolean

failOnUnsupportedContentType

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента и не знаете все типы контента (расширения файлов) заранее.

failOnUnsupportedContentType?: boolean

Значение свойства

boolean

firstLineContainsHeaders

Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.

firstLineContainsHeaders?: boolean

Значение свойства

boolean

imageAction

Определяет способ обработки внедренных образов и файлов образов в хранилище BLOB-объектов Azure. Установка для конфигурации imageAction любого значения, отличного от "none", требует, чтобы набор навыков также был присоединен к индексатору.

imageAction?: BlobIndexerImageAction

Значение свойства

indexedFileNameExtensions

Разделенный запятыми список расширений имен файлов, которые нужно выбрать при обработке из хранилища BLOB-объектов Azure. Например, можно направить индексирование на файлы определенного приложения, указав расширения ".docx, .pptx, .msg", чтобы специально включить эти типы файлов.

indexedFileNameExtensions?: string

Значение свойства

string

indexStorageMetadataOnlyForOversizedDocuments

Для больших двоичных объектов Azure присвойте этому свойству значение true, чтобы по-прежнему индексировать метаданные хранилища для содержимого BLOB-объектов, которое слишком велико для обработки. Большие двоичные объекты слишком большого размера по умолчанию считаются ошибками. Ограничения на размер BLOB-объекта см. в разделе https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Значение свойства

boolean

parsingMode

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

parsingMode?: BlobIndexerParsingMode

Значение свойства

pdfTextRotationAlgorithm

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

pdfTextRotationAlgorithm?: BlobIndexerPDFTextRotationAlgorithm

Значение свойства

queryTimeout

Увеличивает время ожидания после 5-минутного значения по умолчанию для Azure SQL источников данных базы данных, указанных в формате "чч:мм:сс".

queryTimeout?: string

Значение свойства

string