Копирование данных в индекс поиска ИИ Azure с помощью Фабрика данных Azure или Synapse Analytics

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье описывается, как использовать действие копирования в конвейере Фабрика данных Azure или Synapse Analytics для копирования данных в индекс поиска ИИ Azure. Это продолжение статьи об обзоре действия копирования, в которой представлены общие сведения о действии копирования.

Поддерживаемые возможности

Этот соединитель поиска ИИ Azure поддерживается для следующих возможностей:

Поддерживаемые возможности IR Управляемая частная конечная точка
Действие копирования (-/приемник) ① ②

① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции

Данные можно копировать из любых поддерживаемых исходных хранилищ данных в индекс поиска. Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия копирования, приведен в таблице Поддерживаемые хранилища данных и форматы.

Начало работы

Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:

Создание связанной службы для Поиска Azure с помощью пользовательского интерфейса

Выполните приведенные ниже действия, чтобы создать связанную службу для Поиска Azure с помощью пользовательского интерфейса на портале Azure.

  1. Перейдите на вкладку "Управление" в рабочей области Фабрики данных Azure или Synapse и выберите "Связанные службы", после чего нажмите "Создать":

  2. Выполните поиск по запросу Поиск и выберите соединитель "Поиск Azure".

    Select the Azure Search connector.

  3. Настройте сведения о службе, проверьте подключение и создайте связанную службу.

    Configure a linked service to Azure Search.

Сведения о конфигурации соединителя

В следующих разделах содержатся сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к соединителю поиска ИИ Azure.

Свойства связанной службы

Для связанной службы поиска ИИ Azure поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
type Для свойства type необходимо задать значение AzureSearch. Да
URL-адрес URL-адрес службы поиска. Да
key Ключ администратора службы поиска. Пометьте это поле как SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. Да
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure или локальную среду IR (если хранилище данных расположено в частной сети). Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. No

Важно!

При копировании данных из облачного хранилища данных в индекс поиска в связанной службе поиска Azure ИИ необходимо ссылаться на среду выполнения интеграции Azure с явным регионом в connactVia. Укажите тот регион, в котором размещается ваша служба поиска. Дополнительные сведения о среде IR Azure см. здесь.

Пример:

{
    "name": "AzureSearchLinkedService",
    "properties": {
        "type": "AzureSearch",
        "typeProperties": {
            "url": "https://<service>.search.windows.net",
            "key": {
                "type": "SecureString",
                "value": "<AdminKey>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства набора данных

Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. В этом разделе представлен список свойств, поддерживаемых набором данных поиска ИИ Azure.

Чтобы скопировать данные в службу поиска ИИ Azure, поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
type Свойство type для набора данных должно иметь значение: AzureSearchIndex. Да
indexName Имя индекса поиска. Эта служба не создает индекс. Индекс должен существовать в службе поиска ИИ Azure. Да

Пример:

{
    "name": "AzureSearchIndexDataset",
    "properties": {
        "type": "AzureSearchIndex",
        "typeProperties" : {
            "indexName": "products"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Azure AI Search linked service name>",
            "type": "LinkedServiceReference"
        }
   }
}

Свойства действия копирования

Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры и действия в фабрике данных Azure. В этом разделе представлен список свойств, поддерживаемых источником поиска ИИ Azure.

Поиск по искусственному интеллекту Azure в качестве приемника

Чтобы скопировать данные в поиск ИИ Azure, задайте тип источника в действии копирования в AzureSearchIndexSink. В разделе sink действия копирования поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
type Свойство type источника действия копирования должно иметь значение AzureSearchIndexSink. Да
writeBehavior Указывает действие (объединение или замена), выполняемое, если документ уже существует в индексе. Ознакомьтесь с разделом Свойство WriteBehavior.

Допустимые значения: Объединить (по умолчанию) и Отправить.
No
writeBatchSize Передает данные в индекс поиска, когда размер буфера достигает значения writeBatchSize. Ознакомьтесь с разделом Свойство WriteBatchSize.

Допустимые значения: целые числа от 1 до 1000; значение по умолчанию — 1000.
No
maxConcurrentConnections Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. No

Свойство WriteBehavior

При записи данных AzureSearchSink выполняет операцию upsert. Другими словами, при написании документа, если ключ документа уже существует в индексе поиска, поиск Azure AI обновляет существующий документ, а не создает исключение конфликта.

AzureSearchSink проявляет два типа поведения upsert (с использованием пакета SDK AzureSearch):

  • Объединение. Все столбцы в новом документе объединяются со столбцами в существующем. Для столбцов с значением null в новом документе значение столбцов в существующем документе сохраняется.
  • Отправка. Новый документ заменяет существующий. Для столбцов, не указанных в новом документе, задается значение null независимо от того, есть ли в существующем документе столбцы с значением, отличным от null.

Поведение по умолчанию — объединение.

Свойство WriteBatchSize

Azure AI служба поддерживает написание документов в виде пакета. Пакет может содержать от 1 до 1000 действий. Действие обрабатывает один документ для выполнения операции передачи или объединения.

Пример:

"activities":[
    {
        "name": "CopyToAzureSearch",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Azure AI Search output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureSearchIndexSink",
                "writeBehavior": "Merge"
            }
        }
    }
]

Поддержка типов данных

В следующей таблице указывается, поддерживается ли тип данных поиска ИИ Azure.

Тип данных поиска ИИ Azure Поддерживается в приемнике поиска ИИ Azure
Строка Y
Int32 Y
Int64 Y
Двойной Y
Логический Y
DataTimeOffset Y
Массив строк N
GeographyPoint N

Другие типы данных, например ComplexType, пока что не поддерживаются. Полный список поддерживаемых типов данных службы "Поиск ИИ Azure" см. в разделе "Поддерживаемые типы данных" (Поиск ИИ Azure).

Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия Copy, приведен в таблице Поддерживаемые хранилища данных и форматы.