Copiar dados para um índice do Azure AI Search usando o Azure Data Factory ou o Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Este artigo descreve como usar a Atividade de Cópia em um pipeline do Azure Data Factory ou do Synapse Analytics para copiar dados para o índice do Azure AI Search. Ele se baseia no artigo de visão geral da atividade de cópia que apresenta uma visão geral da atividade de cópia.

Capacidades suportadas

Este conector do Azure AI Search é suportado para as seguintes capacidades:

Capacidades suportadas IR Ponto final privado gerido
Atividade de cópia (-/sink) ① ②

(1) Tempo de execução de integração do Azure (2) Tempo de execução de integração auto-hospedado

Você pode copiar dados de qualquer armazenamento de dados de origem suportado para o índice de pesquisa. Para obter uma lista de armazenamentos de dados suportados como fontes/coletores pela atividade de cópia, consulte a tabela Armazenamentos de dados suportados.

Introdução

Para executar a atividade Copiar com um pipeline, você pode usar uma das seguintes ferramentas ou SDKs:

Criar um serviço vinculado à Pesquisa do Azure usando a interface do usuário

Use as etapas a seguir para criar um serviço vinculado à Pesquisa do Azure na interface do usuário do portal do Azure.

  1. Navegue até a guia Gerenciar em seu espaço de trabalho do Azure Data Factory ou Synapse e selecione Serviços Vinculados e clique em Novo:

  2. Procure Pesquisar e selecione o conector do Azure Search.

    Select the Azure Search connector.

  3. Configure os detalhes do serviço, teste a conexão e crie o novo serviço vinculado.

    Configure a linked service to Azure Search.

Detalhes de configuração do conector

As seções a seguir fornecem detalhes sobre as propriedades usadas para definir entidades do Data Factory específicas para o conector de Pesquisa do Azure AI.

Propriedades do serviço vinculado

As seguintes propriedades têm suporte para o serviço vinculado do Azure AI Search:

Propriedade Descrição Necessário
tipo A propriedade type deve ser definida como: AzureSearch Sim
URL URL do serviço de pesquisa. Sim
key Chave de administrador para o serviço de pesquisa. Marque este campo como um SecureString para armazená-lo com segurança ou faça referência a um segredo armazenado no Cofre de Chaves do Azure. Sim
ConecteVia O tempo de execução de integração a ser usado para se conectar ao armazenamento de dados. Você pode usar o Azure Integration Runtime ou o Self-hosted Integration Runtime (se seu armazenamento de dados estiver localizado em rede privada). Se não for especificado, ele usará o Tempo de Execução de Integração do Azure padrão. Não

Importante

Ao copiar dados de um armazenamento de dados na nuvem para o índice de pesquisa, no serviço vinculado Azure AI Search, você precisa consultar um Tempo de Execução de Integração do Azure com região explícita no connactVia. Defina a região como aquela onde o serviço de pesquisa reside. Saiba mais em Azure Integration Runtime.

Exemplo:

{
    "name": "AzureSearchLinkedService",
    "properties": {
        "type": "AzureSearch",
        "typeProperties": {
            "url": "https://<service>.search.windows.net",
            "key": {
                "type": "SecureString",
                "value": "<AdminKey>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propriedades do conjunto de dados

Para obter uma lista completa de seções e propriedades disponíveis para definir conjuntos de dados, consulte o artigo sobre conjuntos de dados. Esta seção fornece uma lista de propriedades suportadas pelo conjunto de dados do Azure AI Search.

Para copiar dados para o Azure AI Search, as seguintes propriedades são suportadas:

Propriedade Descrição Necessário
tipo A propriedade type do conjunto de dados deve ser definida como: AzureSearchIndex Sim
indexName Nome do índice de pesquisa. O serviço não cria o índice. O índice deve existir no Azure AI Search. Sim

Exemplo:

{
    "name": "AzureSearchIndexDataset",
    "properties": {
        "type": "AzureSearchIndex",
        "typeProperties" : {
            "indexName": "products"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Azure AI Search linked service name>",
            "type": "LinkedServiceReference"
        }
   }
}

Propriedades da atividade Copy

Para obter uma lista completa de seções e propriedades disponíveis para definir atividades, consulte o artigo Pipelines . Esta seção fornece uma lista de propriedades suportadas pela fonte do Azure AI Search.

Azure AI Search como coletor

Para copiar dados para o Azure AI Search, defina o tipo de origem na atividade de cópia como AzureSearchIndexSink. As seguintes propriedades são suportadas na seção coletor de atividade de cópia:

Propriedade Descrição Necessário
tipo A propriedade type da fonte de atividade de cópia deve ser definida como: AzureSearchIndexSink Sim
writeBehavior Especifica se deve ser mesclado ou substituído quando um documento já existe no índice. Consulte a propriedade WriteBehavior.

Os valores permitidos são: Mesclar (padrão) e Carregar.
Não
writeBatchSize Carrega dados no índice de pesquisa quando o tamanho do buffer atinge writeBatchSize. Consulte a propriedade WriteBatchSize para obter detalhes.

Os valores permitidos são: inteiro de 1 a 1.000; O padrão é 1000.
Não
maxConcurrentConnections O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. Não

Propriedade WriteBehavior

AzureSearchSink upserts ao gravar dados. Em outras palavras, ao escrever um documento, se a chave do documento já existir no índice de pesquisa, o Azure AI Search atualiza o documento existente em vez de lançar uma exceção de conflito.

O AzureSearchSink fornece os seguintes dois comportamentos de upsert (usando o SDK do AzureSearch):

  • Mesclar: combine todas as colunas do novo documento com o existente. Para colunas com valor nulo no novo documento, o valor no documento existente é preservado.
  • Carregar: o novo documento substitui o existente. Para colunas não especificadas no novo documento, o valor é definido como null independentemente de haver um valor não nulo no documento existente ou não.

O comportamento padrão é Merge.

Propriedade WriteBatchSize

O serviço Azure AI Search dá suporte à escrita de documentos como um lote. Um lote pode conter de 1 a 1.000 ações. Uma ação manipula um documento para executar a operação de upload/mesclagem.

Exemplo:

"activities":[
    {
        "name": "CopyToAzureSearch",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Azure AI Search output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureSearchIndexSink",
                "writeBehavior": "Merge"
            }
        }
    }
]

Suporte a tipos de dados

A tabela a seguir especifica se um tipo de dados do Azure AI Search é suportado ou não.

Tipo de dados Azure AI Search Com suporte no coletor de pesquisa do Azure AI
String Y
Int32 Y
Int64 Y
Duplo Y
Booleano Y
DataTimeOffset Y
Matriz de cadeia de caracteres N
Ponto Geográfico N

Atualmente, outros tipos de dados, por exemplo, ComplexType não são suportados. Para obter uma lista completa dos tipos de dados suportados do Azure AI Search, consulte Tipos de dados suportados (Azure AI Search).

Para obter uma lista de armazenamentos de dados suportados como fontes e coletores pela atividade de cópia, consulte Armazenamentos de dados suportados.