IndexingParametersConfiguration interface
Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.
Свойства
| allow |
Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов. |
| data |
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure. |
| delimited |
Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "|"). |
| delimited |
Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе. |
| document |
Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства. |
| excluded |
Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования. |
| execution |
Указывает среду, в которой должен выполняться индексатор. |
| fail |
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования. |
| fail |
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее. |
| first |
Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки. |
| image |
Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору. |
| indexed |
Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов. |
| index |
Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity. |
| markdown |
Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию — |
| markdown |
Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию — |
| parsing |
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure. |
| pdf |
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure. |
| query |
Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss. |
Сведения о свойстве
allowSkillsetToReadFileData
Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов.
allowSkillsetToReadFileData?: boolean
Значение свойства
boolean
dataToExtract
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Значение свойства
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "|").
delimitedTextDelimiter?: string
Значение свойства
string
delimitedTextHeaders
Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе.
delimitedTextHeaders?: string
Значение свойства
string
documentRoot
Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства.
documentRoot?: string
Значение свойства
string
excludedFileNameExtensions
Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования.
excludedFileNameExtensions?: string
Значение свойства
string
executionEnvironment
Указывает среду, в которой должен выполняться индексатор.
executionEnvironment?: "standard" | "private"
Значение свойства
"standard" | "private"
failOnUnprocessableDocument
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования.
failOnUnprocessableDocument?: boolean
Значение свойства
boolean
failOnUnsupportedContentType
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее.
failOnUnsupportedContentType?: boolean
Значение свойства
boolean
firstLineContainsHeaders
Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.
firstLineContainsHeaders?: boolean
Значение свойства
boolean
imageAction
Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Значение свойства
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов.
indexedFileNameExtensions?: string
Значение свойства
string
indexStorageMetadataOnlyForOversizedDocuments
Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Значение свойства
boolean
markdownHeaderDepth
Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию — h6.
markdownHeaderDepth?: string
Значение свойства
string
markdownParsingSubmode
Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию — oneToMany.
markdownParsingSubmode?: string
Значение свойства
string
parsingMode
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines" | "markdown"
Значение свойства
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines" | "markdown"
pdfTextRotationAlgorithm
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Значение свойства
"none" | "detectAngles"
queryTimeout
Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss.
queryTimeout?: string
Значение свойства
string