IndexingParametersConfiguration Класс
Словарь свойств конфигурации, относящихся к индексатору. Каждое имя — это имя определенного свойства. Каждое значение должно иметь примитивный тип.
- Наследование
-
azure.search.documents.indexes._generated._serialization.ModelIndexingParametersConfiguration
Конструктор
IndexingParametersConfiguration(*, additional_properties: Dict[str, Any] | None = None, parsing_mode: str | _models.BlobIndexerParsingMode = 'default', excluded_file_name_extensions: str = '', indexed_file_name_extensions: str = '', fail_on_unsupported_content_type: bool = False, fail_on_unprocessable_document: bool = False, index_storage_metadata_only_for_oversized_documents: bool = False, delimited_text_headers: str | None = None, delimited_text_delimiter: str | None = None, first_line_contains_headers: bool = True, document_root: str | None = None, data_to_extract: str | _models.BlobIndexerDataToExtract = 'contentAndMetadata', image_action: str | _models.BlobIndexerImageAction = 'none', allow_skillset_to_read_file_data: bool = False, pdf_text_rotation_algorithm: str | _models.BlobIndexerPDFTextRotationAlgorithm = 'none', execution_environment: str | _models.IndexerExecutionEnvironment = 'standard', query_timeout: str = '00:05:00', **kwargs: Any)
Параметры Keyword-Only
Имя | Описание |
---|---|
additional_properties
|
Несовпаденные свойства из сообщения десериализуются в этой коллекции. |
parsing_mode
|
str или
<xref:search_service_client.models.BlobIndexerParsingMode>
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объекта Azure. Известные значения: "default", "text", "delimitedText", "json", "jsonArray" и "jsonLines". значение по умолчанию: default
|
excluded_file_name_extensions
|
Разделенный запятыми список расширений имен файлов, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4", чтобы пропустить эти файлы во время индексирования. |
indexed_file_name_extensions
|
Разделенный запятыми список расширений имен файлов, которые нужно выбрать при обработке из хранилища BLOB-объектов Azure. Например, можно направить индексирование на файлы определенного приложения, указав расширения ".docx, .pptx, .msg", чтобы специально включить эти типы файлов. |
fail_on_unsupported_content_type
|
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента и не знаете все типы контента (расширения файлов) заранее. |
fail_on_unprocessable_document
|
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование в случае сбоя индексирования документа. |
index_storage_metadata_only_for_oversized_documents
|
Для больших двоичных объектов Azure присвойте этому свойству значение true, чтобы по-прежнему индексировать метаданные хранилища для содержимого BLOB-объектов, которое слишком велико для обработки. Большие двоичные объекты слишком большого размера по умолчанию считаются ошибками. Ограничения на размер BLOB-объекта см. в разделе https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
delimited_text_headers
|
Для BLOB-объектов CSV задает разделенный запятыми список заголовков столбцов, который удобно использовать для сопоставления исходных полей с полями назначения в индексе. |
delimited_text_delimiter
|
Для больших двоичных объектов CSV задает односимвольный разделитель конца строки для CSV-файлов, где каждая строка начинает новый документ (например, "|"). |
first_line_contains_headers
|
Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки. значение по умолчанию: True
|
document_root
|
Для массивов JSON при использовании структурированного или частично структурированного документа можно указать путь к массиву с помощью этого свойства. |
data_to_extract
|
str или
<xref:search_service_client.models.BlobIndexerDataToExtract>
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные следует извлечь из содержимого изображения, если для параметра imageAction задано значение, отличное от "none". Это относится к содержимому внедренного изображения в .PDF или другом приложении, а также к файлам изображений, таким как .jpg и .png, в BLOB-объектах Azure. Известные значения: storageMetadata, allMetadata и contentAndMetadata. значение по умолчанию: contentAndMetadata
|
image_action
|
str или
<xref:search_service_client.models.BlobIndexerImageAction>
Определяет способ обработки внедренных образов и файлов образов в хранилище BLOB-объектов Azure. При задании конфигурации imageAction любого значения, отличного от "none", необходимо, чтобы набор навыков также был присоединен к индексатору. Известные значения: none, generateNormalizedImages и generateNormalizedImagePerPage. значение по умолчанию: none
|
allow_skillset_to_read_file_data
|
Если значение равно true, будет создан путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передать исходные данные файла в пользовательский навык для обработки в конвейере обогащения или в навык извлечения документов. |
pdf_text_rotation_algorithm
|
str или
<xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure. Известные значения: none и detectAngles. значение по умолчанию: none
|
execution_environment
|
str или
<xref:search_service_client.models.IndexerExecutionEnvironment>
Указывает среду, в которой должен выполняться индексатор. Известные значения: "standard" и "private". значение по умолчанию: standard
|
query_timeout
|
Увеличивает время ожидания после 5-минутного значения по умолчанию для Azure SQL источников данных базы данных, указанных в формате "чч:мм:сс". значение по умолчанию: 00:05:00
|
Переменные
Имя | Описание |
---|---|
additional_properties
|
Несовпаденные свойства из сообщения десериализуются в этой коллекции. |
parsing_mode
|
str или
<xref:search_service_client.models.BlobIndexerParsingMode>
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объекта Azure. Известные значения: "default", "text", "delimitedText", "json", "jsonArray" и "jsonLines". |
excluded_file_name_extensions
|
Разделенный запятыми список расширений имен файлов, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4", чтобы пропустить эти файлы во время индексирования. |
indexed_file_name_extensions
|
Разделенный запятыми список расширений имен файлов, которые нужно выбрать при обработке из хранилища BLOB-объектов Azure. Например, можно направить индексирование на файлы определенного приложения, указав расширения ".docx, .pptx, .msg", чтобы специально включить эти типы файлов. |
fail_on_unsupported_content_type
|
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента и не знаете все типы контента (расширения файлов) заранее. |
fail_on_unprocessable_document
|
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование в случае сбоя индексирования документа. |
index_storage_metadata_only_for_oversized_documents
|
Для больших двоичных объектов Azure присвойте этому свойству значение true, чтобы по-прежнему индексировать метаданные хранилища для содержимого BLOB-объектов, которое слишком велико для обработки. Большие двоичные объекты слишком большого размера по умолчанию считаются ошибками. Ограничения на размер BLOB-объекта см. в разделе https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
delimited_text_headers
|
Для BLOB-объектов CSV задает разделенный запятыми список заголовков столбцов, который удобно использовать для сопоставления исходных полей с полями назначения в индексе. |
delimited_text_delimiter
|
Для больших двоичных объектов CSV задает односимвольный разделитель конца строки для CSV-файлов, где каждая строка начинает новый документ (например, "|"). |
first_line_contains_headers
|
Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки. |
document_root
|
Для массивов JSON при использовании структурированного или частично структурированного документа можно указать путь к массиву с помощью этого свойства. |
data_to_extract
|
str или
<xref:search_service_client.models.BlobIndexerDataToExtract>
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные следует извлечь из содержимого изображения, если для параметра imageAction задано значение, отличное от "none". Это относится к содержимому внедренного изображения в .PDF или другом приложении, а также к файлам изображений, таким как .jpg и .png, в BLOB-объектах Azure. Известные значения: storageMetadata, allMetadata и contentAndMetadata. |
image_action
|
str или
<xref:search_service_client.models.BlobIndexerImageAction>
Определяет способ обработки внедренных образов и файлов образов в хранилище BLOB-объектов Azure. При задании конфигурации imageAction любого значения, отличного от "none", необходимо, чтобы набор навыков также был присоединен к индексатору. Известные значения: none, generateNormalizedImages и generateNormalizedImagePerPage. |
allow_skillset_to_read_file_data
|
Если значение равно true, будет создан путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передать исходные данные файла в пользовательский навык для обработки в конвейере обогащения или в навык извлечения документов. |
pdf_text_rotation_algorithm
|
str или
<xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure. Известные значения: none и detectAngles. |
execution_environment
|
str или
<xref:search_service_client.models.IndexerExecutionEnvironment>
Указывает среду, в которой должен выполняться индексатор. Известные значения: "standard" и "private". |
query_timeout
|
Увеличивает время ожидания после 5-минутного значения по умолчанию для Azure SQL источников данных базы данных, указанных в формате "чч:мм:сс". |
Методы
as_dict |
Возвращает дикт, который можно сериализовать с помощью json.dump. Дополнительное использование может использовать обратный вызов в качестве параметра: Ключ — это имя атрибута, используемого в Python. Attr_desc — это диктовка метаданных. В настоящее время содержит "тип" с типом msrest и "key" с ключом в кодировке RestAPI. Значение — это текущее значение в этом объекте. Возвращаемая строка будет использоваться для сериализации ключа. Если тип возвращаемого значения является списком, это считается иерархическим результирующим диктом. См. три примера в этом файле:
Если требуется xml-сериализация, можно передать kwargs is_xml=True. |
deserialize |
Синтаксический анализ str с помощью синтаксиса RestAPI и возврат модели. |
enable_additional_properties_sending | |
from_dict |
Синтаксический анализ дикта с помощью заданного средства извлечения ключа возвращает модель. По умолчанию рекомендуется использовать средства извлечения ключей (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor и last_rest_key_case_insensitive_extractor). |
is_xml_model | |
serialize |
Возвращает json, который будет отправлен на сервер из этой модели. Это псевдоним для as_dict(full_restapi_key_transformer, keep_readonly=False). Если требуется xml-сериализация, можно передать kwargs is_xml=True. |
as_dict
Возвращает дикт, который можно сериализовать с помощью json.dump.
Дополнительное использование может использовать обратный вызов в качестве параметра:
Ключ — это имя атрибута, используемого в Python. Attr_desc — это диктовка метаданных. В настоящее время содержит "тип" с типом msrest и "key" с ключом в кодировке RestAPI. Значение — это текущее значение в этом объекте.
Возвращаемая строка будет использоваться для сериализации ключа. Если тип возвращаемого значения является списком, это считается иерархическим результирующим диктом.
См. три примера в этом файле:
attribute_transformer
full_restapi_key_transformer
last_restapi_key_transformer
Если требуется xml-сериализация, можно передать kwargs is_xml=True.
as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]
Параметры
Имя | Описание |
---|---|
key_transformer
|
<xref:function>
Функция преобразователя ключей. |
keep_readonly
|
значение по умолчанию: True
|
Возвращаемое значение
Тип | Описание |
---|---|
Объект, совместимый с JSON для дикта |
deserialize
Синтаксический анализ str с помощью синтаксиса RestAPI и возврат модели.
deserialize(data: Any, content_type: str | None = None) -> ModelType
Параметры
Имя | Описание |
---|---|
data
Обязательно
|
Строка, использующий структуру RestAPI. JSON по умолчанию. |
content_type
|
JSON по умолчанию задайте значение application/xml if XML. значение по умолчанию: None
|
Возвращаемое значение
Тип | Описание |
---|---|
Экземпляр этой модели |
Исключения
Тип | Описание |
---|---|
DeserializationError if something went wrong
|
enable_additional_properties_sending
enable_additional_properties_sending() -> None
from_dict
Синтаксический анализ дикта с помощью заданного средства извлечения ключа возвращает модель.
По умолчанию рекомендуется использовать средства извлечения ключей (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor и last_rest_key_case_insensitive_extractor).
from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType
Параметры
Имя | Описание |
---|---|
data
Обязательно
|
Словарь, использующий структуру RestAPI |
content_type
|
JSON по умолчанию задайте значение application/xml if XML. значение по умолчанию: None
|
key_extractors
|
значение по умолчанию: None
|
Возвращаемое значение
Тип | Описание |
---|---|
Экземпляр этой модели |
Исключения
Тип | Описание |
---|---|
DeserializationError if something went wrong
|
is_xml_model
is_xml_model() -> bool
serialize
Возвращает json, который будет отправлен на сервер из этой модели.
Это псевдоним для as_dict(full_restapi_key_transformer, keep_readonly=False).
Если требуется xml-сериализация, можно передать kwargs is_xml=True.
serialize(keep_readonly: bool = False, **kwargs: Any) -> MutableMapping[str, Any]
Параметры
Имя | Описание |
---|---|
keep_readonly
|
Если вы хотите сериализовать атрибуты только для чтения значение по умолчанию: False
|
Возвращаемое значение
Тип | Описание |
---|---|
Объект, совместимый с JSON для дикта |
Azure SDK for Python