Поделиться через


IndexingParametersConfiguration Класс

Словарь свойств конфигурации, относящихся к индексатору. Каждое имя — это имя определенного свойства. Каждое значение должно иметь примитивный тип.

Наследование
azure.search.documents.indexes._generated._serialization.Model
IndexingParametersConfiguration

Конструктор

IndexingParametersConfiguration(*, additional_properties: Dict[str, Any] | None = None, parsing_mode: str | _models.BlobIndexerParsingMode = 'default', excluded_file_name_extensions: str = '', indexed_file_name_extensions: str = '', fail_on_unsupported_content_type: bool = False, fail_on_unprocessable_document: bool = False, index_storage_metadata_only_for_oversized_documents: bool = False, delimited_text_headers: str | None = None, delimited_text_delimiter: str | None = None, first_line_contains_headers: bool = True, document_root: str | None = None, data_to_extract: str | _models.BlobIndexerDataToExtract = 'contentAndMetadata', image_action: str | _models.BlobIndexerImageAction = 'none', allow_skillset_to_read_file_data: bool = False, pdf_text_rotation_algorithm: str | _models.BlobIndexerPDFTextRotationAlgorithm = 'none', execution_environment: str | _models.IndexerExecutionEnvironment = 'standard', query_timeout: str = '00:05:00', **kwargs: Any)

Параметры Keyword-Only

Имя Описание
additional_properties

Несовпаденные свойства из сообщения десериализуются в этой коллекции.

parsing_mode
str или <xref:search_service_client.models.BlobIndexerParsingMode>

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объекта Azure. Известные значения: "default", "text", "delimitedText", "json", "jsonArray" и "jsonLines".

значение по умолчанию: default
excluded_file_name_extensions
str

Разделенный запятыми список расширений имен файлов, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4", чтобы пропустить эти файлы во время индексирования.

indexed_file_name_extensions
str

Разделенный запятыми список расширений имен файлов, которые нужно выбрать при обработке из хранилища BLOB-объектов Azure. Например, можно направить индексирование на файлы определенного приложения, указав расширения ".docx, .pptx, .msg", чтобы специально включить эти типы файлов.

fail_on_unsupported_content_type

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента и не знаете все типы контента (расширения файлов) заранее.

fail_on_unprocessable_document

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование в случае сбоя индексирования документа.

index_storage_metadata_only_for_oversized_documents

Для больших двоичных объектов Azure присвойте этому свойству значение true, чтобы по-прежнему индексировать метаданные хранилища для содержимого BLOB-объектов, которое слишком велико для обработки. Большие двоичные объекты слишком большого размера по умолчанию считаются ошибками. Ограничения на размер BLOB-объекта см. в разделе https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

delimited_text_headers
str

Для BLOB-объектов CSV задает разделенный запятыми список заголовков столбцов, который удобно использовать для сопоставления исходных полей с полями назначения в индексе.

delimited_text_delimiter
str

Для больших двоичных объектов CSV задает односимвольный разделитель конца строки для CSV-файлов, где каждая строка начинает новый документ (например, "|").

first_line_contains_headers

Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.

значение по умолчанию: True
document_root
str

Для массивов JSON при использовании структурированного или частично структурированного документа можно указать путь к массиву с помощью этого свойства.

data_to_extract
str или <xref:search_service_client.models.BlobIndexerDataToExtract>

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные следует извлечь из содержимого изображения, если для параметра imageAction задано значение, отличное от "none". Это относится к содержимому внедренного изображения в .PDF или другом приложении, а также к файлам изображений, таким как .jpg и .png, в BLOB-объектах Azure. Известные значения: storageMetadata, allMetadata и contentAndMetadata.

значение по умолчанию: contentAndMetadata
image_action
str или <xref:search_service_client.models.BlobIndexerImageAction>

Определяет способ обработки внедренных образов и файлов образов в хранилище BLOB-объектов Azure. При задании конфигурации imageAction любого значения, отличного от "none", необходимо, чтобы набор навыков также был присоединен к индексатору. Известные значения: none, generateNormalizedImages и generateNormalizedImagePerPage.

значение по умолчанию: none
allow_skillset_to_read_file_data

Если значение равно true, будет создан путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передать исходные данные файла в пользовательский навык для обработки в конвейере обогащения или в навык извлечения документов.

pdf_text_rotation_algorithm
str или <xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure. Известные значения: none и detectAngles.

значение по умолчанию: none
execution_environment
str или <xref:search_service_client.models.IndexerExecutionEnvironment>

Указывает среду, в которой должен выполняться индексатор. Известные значения: "standard" и "private".

значение по умолчанию: standard
query_timeout
str

Увеличивает время ожидания после 5-минутного значения по умолчанию для Azure SQL источников данных базы данных, указанных в формате "чч:мм:сс".

значение по умолчанию: 00:05:00

Переменные

Имя Описание
additional_properties

Несовпаденные свойства из сообщения десериализуются в этой коллекции.

parsing_mode
str или <xref:search_service_client.models.BlobIndexerParsingMode>

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объекта Azure. Известные значения: "default", "text", "delimitedText", "json", "jsonArray" и "jsonLines".

excluded_file_name_extensions
str

Разделенный запятыми список расширений имен файлов, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4", чтобы пропустить эти файлы во время индексирования.

indexed_file_name_extensions
str

Разделенный запятыми список расширений имен файлов, которые нужно выбрать при обработке из хранилища BLOB-объектов Azure. Например, можно направить индексирование на файлы определенного приложения, указав расширения ".docx, .pptx, .msg", чтобы специально включить эти типы файлов.

fail_on_unsupported_content_type

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента и не знаете все типы контента (расширения файлов) заранее.

fail_on_unprocessable_document

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование в случае сбоя индексирования документа.

index_storage_metadata_only_for_oversized_documents

Для больших двоичных объектов Azure присвойте этому свойству значение true, чтобы по-прежнему индексировать метаданные хранилища для содержимого BLOB-объектов, которое слишком велико для обработки. Большие двоичные объекты слишком большого размера по умолчанию считаются ошибками. Ограничения на размер BLOB-объекта см. в разделе https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

delimited_text_headers
str

Для BLOB-объектов CSV задает разделенный запятыми список заголовков столбцов, который удобно использовать для сопоставления исходных полей с полями назначения в индексе.

delimited_text_delimiter
str

Для больших двоичных объектов CSV задает односимвольный разделитель конца строки для CSV-файлов, где каждая строка начинает новый документ (например, "|").

first_line_contains_headers

Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.

document_root
str

Для массивов JSON при использовании структурированного или частично структурированного документа можно указать путь к массиву с помощью этого свойства.

data_to_extract
str или <xref:search_service_client.models.BlobIndexerDataToExtract>

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные следует извлечь из содержимого изображения, если для параметра imageAction задано значение, отличное от "none". Это относится к содержимому внедренного изображения в .PDF или другом приложении, а также к файлам изображений, таким как .jpg и .png, в BLOB-объектах Azure. Известные значения: storageMetadata, allMetadata и contentAndMetadata.

image_action
str или <xref:search_service_client.models.BlobIndexerImageAction>

Определяет способ обработки внедренных образов и файлов образов в хранилище BLOB-объектов Azure. При задании конфигурации imageAction любого значения, отличного от "none", необходимо, чтобы набор навыков также был присоединен к индексатору. Известные значения: none, generateNormalizedImages и generateNormalizedImagePerPage.

allow_skillset_to_read_file_data

Если значение равно true, будет создан путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передать исходные данные файла в пользовательский навык для обработки в конвейере обогащения или в навык извлечения документов.

pdf_text_rotation_algorithm
str или <xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure. Известные значения: none и detectAngles.

execution_environment
str или <xref:search_service_client.models.IndexerExecutionEnvironment>

Указывает среду, в которой должен выполняться индексатор. Известные значения: "standard" и "private".

query_timeout
str

Увеличивает время ожидания после 5-минутного значения по умолчанию для Azure SQL источников данных базы данных, указанных в формате "чч:мм:сс".

Методы

as_dict

Возвращает дикт, который можно сериализовать с помощью json.dump.

Дополнительное использование может использовать обратный вызов в качестве параметра:

Ключ — это имя атрибута, используемого в Python. Attr_desc — это диктовка метаданных. В настоящее время содержит "тип" с типом msrest и "key" с ключом в кодировке RestAPI. Значение — это текущее значение в этом объекте.

Возвращаемая строка будет использоваться для сериализации ключа. Если тип возвращаемого значения является списком, это считается иерархическим результирующим диктом.

См. три примера в этом файле:

  • attribute_transformer

  • full_restapi_key_transformer

  • last_restapi_key_transformer

Если требуется xml-сериализация, можно передать kwargs is_xml=True.

deserialize

Синтаксический анализ str с помощью синтаксиса RestAPI и возврат модели.

enable_additional_properties_sending
from_dict

Синтаксический анализ дикта с помощью заданного средства извлечения ключа возвращает модель.

По умолчанию рекомендуется использовать средства извлечения ключей (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor и last_rest_key_case_insensitive_extractor).

is_xml_model
serialize

Возвращает json, который будет отправлен на сервер из этой модели.

Это псевдоним для as_dict(full_restapi_key_transformer, keep_readonly=False).

Если требуется xml-сериализация, можно передать kwargs is_xml=True.

as_dict

Возвращает дикт, который можно сериализовать с помощью json.dump.

Дополнительное использование может использовать обратный вызов в качестве параметра:

Ключ — это имя атрибута, используемого в Python. Attr_desc — это диктовка метаданных. В настоящее время содержит "тип" с типом msrest и "key" с ключом в кодировке RestAPI. Значение — это текущее значение в этом объекте.

Возвращаемая строка будет использоваться для сериализации ключа. Если тип возвращаемого значения является списком, это считается иерархическим результирующим диктом.

См. три примера в этом файле:

  • attribute_transformer

  • full_restapi_key_transformer

  • last_restapi_key_transformer

Если требуется xml-сериализация, можно передать kwargs is_xml=True.

as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]

Параметры

Имя Описание
key_transformer
<xref:function>

Функция преобразователя ключей.

keep_readonly
значение по умолчанию: True

Возвращаемое значение

Тип Описание

Объект, совместимый с JSON для дикта

deserialize

Синтаксический анализ str с помощью синтаксиса RestAPI и возврат модели.

deserialize(data: Any, content_type: str | None = None) -> ModelType

Параметры

Имя Описание
data
Обязательно
str

Строка, использующий структуру RestAPI. JSON по умолчанию.

content_type
str

JSON по умолчанию задайте значение application/xml if XML.

значение по умолчанию: None

Возвращаемое значение

Тип Описание

Экземпляр этой модели

Исключения

Тип Описание
DeserializationError if something went wrong

enable_additional_properties_sending

enable_additional_properties_sending() -> None

from_dict

Синтаксический анализ дикта с помощью заданного средства извлечения ключа возвращает модель.

По умолчанию рекомендуется использовать средства извлечения ключей (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor и last_rest_key_case_insensitive_extractor).

from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType

Параметры

Имя Описание
data
Обязательно

Словарь, использующий структуру RestAPI

content_type
str

JSON по умолчанию задайте значение application/xml if XML.

значение по умолчанию: None
key_extractors
значение по умолчанию: None

Возвращаемое значение

Тип Описание

Экземпляр этой модели

Исключения

Тип Описание
DeserializationError if something went wrong

is_xml_model

is_xml_model() -> bool

serialize

Возвращает json, который будет отправлен на сервер из этой модели.

Это псевдоним для as_dict(full_restapi_key_transformer, keep_readonly=False).

Если требуется xml-сериализация, можно передать kwargs is_xml=True.

serialize(keep_readonly: bool = False, **kwargs: Any) -> MutableMapping[str, Any]

Параметры

Имя Описание
keep_readonly

Если вы хотите сериализовать атрибуты только для чтения

значение по умолчанию: False

Возвращаемое значение

Тип Описание

Объект, совместимый с JSON для дикта