Поделиться через


IndexingParametersConfiguration interface

Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.

Свойства

allowSkillsetToReadFileData

Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов.

dataToExtract

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.

delimitedTextDelimiter

Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "|").

delimitedTextHeaders

Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе.

documentRoot

Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства.

excludedFileNameExtensions

Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования.

executionEnvironment

Указывает среду, в которой должен выполняться индексатор.

failOnUnprocessableDocument

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования.

failOnUnsupportedContentType

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее.

firstLineContainsHeaders

Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.

imageAction

Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.

indexedFileNameExtensions

Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов.

indexStorageMetadataOnlyForOversizedDocuments

Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.

markdownHeaderDepth

Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию — h6.

markdownParsingSubmode

Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию — oneToMany.

parsingMode

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

pdfTextRotationAlgorithm

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

queryTimeout

Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss.

Сведения о свойстве

allowSkillsetToReadFileData

Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов.

allowSkillsetToReadFileData?: boolean

Значение свойства

boolean

dataToExtract

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Значение свойства

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "|").

delimitedTextDelimiter?: string

Значение свойства

string

delimitedTextHeaders

Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе.

delimitedTextHeaders?: string

Значение свойства

string

documentRoot

Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства.

documentRoot?: string

Значение свойства

string

excludedFileNameExtensions

Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования.

excludedFileNameExtensions?: string

Значение свойства

string

executionEnvironment

Указывает среду, в которой должен выполняться индексатор.

executionEnvironment?: "standard" | "private"

Значение свойства

"standard" | "private"

failOnUnprocessableDocument

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования.

failOnUnprocessableDocument?: boolean

Значение свойства

boolean

failOnUnsupportedContentType

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее.

failOnUnsupportedContentType?: boolean

Значение свойства

boolean

firstLineContainsHeaders

Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.

firstLineContainsHeaders?: boolean

Значение свойства

boolean

imageAction

Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Значение свойства

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов.

indexedFileNameExtensions?: string

Значение свойства

string

indexStorageMetadataOnlyForOversizedDocuments

Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Значение свойства

boolean

markdownHeaderDepth

Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию — h6.

markdownHeaderDepth?: string

Значение свойства

string

markdownParsingSubmode

Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию — oneToMany.

markdownParsingSubmode?: string

Значение свойства

string

parsingMode

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines" | "markdown"

Значение свойства

"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines" | "markdown"

pdfTextRotationAlgorithm

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Значение свойства

"none" | "detectAngles"

queryTimeout

Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss.

queryTimeout?: string

Значение свойства

string