Копирование данных в индекс поиска ИИ Azure с помощью Фабрика данных Azure или Synapse Analytics
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
В этой статье описывается, как использовать действие копирования в конвейере Фабрика данных Azure или Synapse Analytics для копирования данных в индекс поиска ИИ Azure. Это продолжение статьи об обзоре действия копирования, в которой представлены общие сведения о действии копирования.
Поддерживаемые возможности
Этот соединитель поиска ИИ Azure поддерживается для следующих возможностей:
Поддерживаемые возможности | IR | Управляемая частная конечная точка |
---|---|---|
Действие копирования (-/приемник) | (1) (2) | ✓ |
① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции
Данные можно копировать из любых поддерживаемых исходных хранилищ данных в индекс поиска. Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия копирования, приведен в таблице Поддерживаемые хранилища данных и форматы.
Начало работы
Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:
- средство копирования данных;
- Портал Azure
- Пакет SDK для .NET
- Пакет SDK для Python
- Azure PowerShell
- The REST API
- шаблон Azure Resource Manager.
Создание связанной службы для Поиска Azure с помощью пользовательского интерфейса
Выполните приведенные ниже действия, чтобы создать связанную службу для Поиска Azure с помощью пользовательского интерфейса на портале Azure.
Перейдите на вкладку "Управление" в рабочей области Фабрики данных Azure или Synapse и выберите "Связанные службы", после чего нажмите "Создать":
Выполните поиск по запросу Поиск и выберите соединитель "Поиск Azure".
Настройте сведения о службе, проверьте подключение и создайте связанную службу.
Сведения о конфигурации соединителя
В следующих разделах содержатся сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к соединителю поиска ИИ Azure.
Свойства связанной службы
Для связанной службы поиска ИИ Azure поддерживаются следующие свойства:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Для свойства type необходимо задать значение AzureSearch. | Да |
URL-адрес | URL-адрес службы поиска. | Да |
key | Ключ администратора службы поиска. Пометьте это поле как SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. | Да |
connectVia | Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure или локальную среду IR (если хранилище данных расположено в частной сети). Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. | No |
Внимание
При копировании данных из облачного хранилища данных в индекс поиска в связанной службе поиска Azure ИИ необходимо ссылаться на среду выполнения интеграции Azure с явным регионом в connactVia. Укажите тот регион, в котором размещается ваша служба поиска. Дополнительные сведения о среде IR Azure см. здесь.
Пример:
{
"name": "AzureSearchLinkedService",
"properties": {
"type": "AzureSearch",
"typeProperties": {
"url": "https://<service>.search.windows.net",
"key": {
"type": "SecureString",
"value": "<AdminKey>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства набора данных
Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. В этом разделе представлен список свойств, поддерживаемых набором данных поиска ИИ Azure.
Чтобы скопировать данные в службу поиска ИИ Azure, поддерживаются следующие свойства:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type для набора данных должно иметь значение: AzureSearchIndex. | Да |
indexName | Имя индекса поиска. Эта служба не создает индекс. Индекс должен существовать в службе поиска ИИ Azure. | Да |
Пример:
{
"name": "AzureSearchIndexDataset",
"properties": {
"type": "AzureSearchIndex",
"typeProperties" : {
"indexName": "products"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Azure AI Search linked service name>",
"type": "LinkedServiceReference"
}
}
}
Свойства действия копирования
Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры и действия в фабрике данных Azure. В этом разделе представлен список свойств, поддерживаемых источником поиска ИИ Azure.
Поиск по искусственному интеллекту Azure в качестве приемника
Чтобы скопировать данные в поиск ИИ Azure, задайте тип источника в действии копирования в AzureSearchIndexSink. В разделе sink действия копирования поддерживаются следующие свойства:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type источника действия копирования должно иметь значение AzureSearchIndexSink. | Да |
writeBehavior | Указывает действие (объединение или замена), выполняемое, если документ уже существует в индексе. Ознакомьтесь с разделом Свойство WriteBehavior. Допустимые значения: Объединить (по умолчанию) и Отправить. |
No |
writeBatchSize | Передает данные в индекс поиска, когда размер буфера достигает значения writeBatchSize. Ознакомьтесь с разделом Свойство WriteBatchSize. Допустимые значения: целые числа от 1 до 1000; значение по умолчанию — 1000. |
No |
maxConcurrentConnections | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | No |
Свойство WriteBehavior
При записи данных AzureSearchSink выполняет операцию upsert. Другими словами, при написании документа, если ключ документа уже существует в индексе поиска, поиск Azure AI обновляет существующий документ, а не создает исключение конфликта.
AzureSearchSink проявляет два типа поведения upsert (с использованием пакета SDK AzureSearch):
- Объединение. Все столбцы в новом документе объединяются со столбцами в существующем. Для столбцов с значением null в новом документе значение столбцов в существующем документе сохраняется.
- Отправка. Новый документ заменяет существующий. Для столбцов, не указанных в новом документе, задается значение null независимо от того, есть ли в существующем документе столбцы с значением, отличным от null.
Поведение по умолчанию — объединение.
Свойство WriteBatchSize
Azure AI служба поддерживает написание документов в виде пакета. Пакет может содержать от 1 до 1000 действий. Действие обрабатывает один документ для выполнения операции передачи или объединения.
Пример:
"activities":[
{
"name": "CopyToAzureSearch",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Azure AI Search output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "AzureSearchIndexSink",
"writeBehavior": "Merge"
}
}
}
]
Поддержка типов данных
В следующей таблице указывается, поддерживается ли тип данных поиска ИИ Azure.
Тип данных поиска ИИ Azure | Поддерживается в приемнике поиска ИИ Azure |
---|---|
Строка | Y |
Int32 | Y |
Int64 | Y |
Двойной | Y |
Логический | Y |
DataTimeOffset | Y |
Массив строк | N |
GeographyPoint | N |
Другие типы данных, например ComplexType, пока что не поддерживаются. Полный список поддерживаемых типов данных службы "Поиск ИИ Azure" см. в разделе "Поддерживаемые типы данных" (Поиск ИИ Azure).
Связанный контент
Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия Copy, приведен в таблице Поддерживаемые хранилища данных и форматы.