IndexingParametersConfiguration interface

Пакет:: @azure/search-documents

Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.

Свойства

allowSkillsetToReadFileData	Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов.
dataToExtract	Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.
delimitedTextDelimiter	Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "\|").
delimitedTextHeaders	Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе.
documentRoot	Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства.
excludedFileNameExtensions	Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования.
executionEnvironment	Указывает среду, в которой должен выполняться индексатор.
failOnUnprocessableDocument	Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования.
failOnUnsupportedContentType	Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее.
firstLineContainsHeaders	Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.
imageAction	Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.
indexedFileNameExtensions	Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов.
indexStorageMetadataOnlyForOversizedDocuments	Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.
markdownHeaderDepth	Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию — `h6`.
markdownParsingSubmode	Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию — `oneToMany`.
parsingMode	Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.
pdfTextRotationAlgorithm	Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.
queryTimeout	Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss.

Сведения о свойстве

allowSkillsetToReadFileData

Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов.

allowSkillsetToReadFileData?: boolean

Значение свойства

boolean

dataToExtract

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Значение свойства

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "|").

delimitedTextDelimiter?: string

Значение свойства

string

delimitedTextHeaders

Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе.

delimitedTextHeaders?: string

Значение свойства

string

documentRoot

Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства.

documentRoot?: string

Значение свойства

string

excludedFileNameExtensions

Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования.

excludedFileNameExtensions?: string

Значение свойства

string

executionEnvironment

Указывает среду, в которой должен выполняться индексатор.

executionEnvironment?: "standard" | "private"

Значение свойства

"standard" | "private"

failOnUnprocessableDocument

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования.

failOnUnprocessableDocument?: boolean

Значение свойства

boolean

failOnUnsupportedContentType

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее.

failOnUnsupportedContentType?: boolean

Значение свойства

boolean

firstLineContainsHeaders

Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.

firstLineContainsHeaders?: boolean

Значение свойства

boolean

imageAction

Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Значение свойства

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов.

indexedFileNameExtensions?: string

Значение свойства

string

indexStorageMetadataOnlyForOversizedDocuments

Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Значение свойства

boolean

markdownHeaderDepth

Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию — h6.

markdownHeaderDepth?: string

Значение свойства

string

markdownParsingSubmode

Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию — oneToMany.

markdownParsingSubmode?: string

Значение свойства

string

parsingMode

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines" | "markdown"

Значение свойства

pdfTextRotationAlgorithm

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Значение свойства

"none" | "detectAngles"

queryTimeout

Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss.

queryTimeout?: string

Значение свойства

string

Обратная связь

Были ли сведения на этой странице полезными?

Поделиться через

IndexingParametersConfiguration interface

Свойства

Сведения о свойстве

allowSkillsetToReadFileData

Значение свойства

dataToExtract

Значение свойства

delimitedTextDelimiter

Значение свойства

delimitedTextHeaders

Значение свойства

documentRoot

Значение свойства

excludedFileNameExtensions

Значение свойства

executionEnvironment

Значение свойства

failOnUnprocessableDocument

Значение свойства

failOnUnsupportedContentType

Значение свойства

firstLineContainsHeaders

Значение свойства

imageAction

Значение свойства

indexedFileNameExtensions

Значение свойства

indexStorageMetadataOnlyForOversizedDocuments

Значение свойства

markdownHeaderDepth

Значение свойства

markdownParsingSubmode

Значение свойства

parsingMode

Значение свойства

pdfTextRotationAlgorithm

Значение свойства

queryTimeout

Значение свойства

Обратная связь