Compartilhar via


Como copiar dados usando a atividade de cópia

Em um pipeline, você pode usar a atividade Copiar para copiar dados entre armazenamentos de dados na nuvem. Depois de copiar os dados, você pode usar outras atividades no pipeline para transformá-los e analisá-los.

A atividade Copiar conecta-se às suas fontes de dados e destinos e, em seguida, move dados com eficiência entre eles. Veja como o serviço lida com o processo de cópia:

  1. Conecta-se ao seu repositório de origem de dados: cria uma conexão segura para ler dados do seu repositório de origem.
  2. Processa os dados: lida com serialização/desserialização, compactação/descompactação, mapeamento de coluna e conversões de tipo de dados com base em sua configuração.
  3. Grava no destino: transfere os dados processados para o repositório de dados de destino.
  4. Fornece monitoramento: controla a operação de cópia e fornece logs e métricas detalhados para solução de problemas e otimização.

Tip

Se você precisar apenas copiar seus dados e não precisar de transformações, um trabalho de Cópia poderá ser uma opção melhor para você. Os trabalhos de cópia fornecem uma experiência simplificada para cenários de movimentação de dados que não exigem a criação de um pipeline completo. Confira: a visão geral dos trabalhos de cópia ou use nossa tabela de decisão para comparar a atividade de cópia e o trabalho de cópia.

Prerequisites

Para começar, você precisa concluir esses pré-requisitos:

  • Uma conta de locatário do Microsoft Fabric com uma assinatura ativa. Crie uma conta gratuitamente.
  • Um Workspace habilitado para o Microsoft Fabric.

Adicionar uma atividade de cópia usando copiar assistente

Siga estas etapas para configurar sua atividade de cópia usando o assistente de cópia.

Comece com o assistente de cópia

  1. Abra um pipeline existente ou crie um novo pipeline.

  2. Selecione Copiar dados na tela para abrir a ferramenta Assistente de cópia para começar. Ou selecione Usar o assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.

    Captura de tela mostrando opções para abrir o assistente de cópia.

Configurar sua origem

  1. Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Selecione Armazenamento de Blobs do Azure.

    Captura de tela da tela Escolher fonte de dados.

  2. Crie uma conexão com sua fonte de dados selecionando Criar nova conexão.

    Captura de tela mostrando onde selecionar Nova conexão.

    Depois de selecionar Criar nova conexão, preencha as informações de conexão necessárias e selecione Avançar. Para obter os detalhes da criação da conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.

    Se você já tiver conexões, poderá selecionar Conexão Existente e selecionar sua conexão na lista suspensa.

    Captura de tela mostrando a conexão existente.

  3. Escolha o arquivo ou pasta a ser copiado nesta etapa de configuração de origem e selecione Avançar.

    Captura de tela mostrando onde selecionar os dados a serem copiados.

Configurar seu destino

  1. Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Você pode criar uma nova conexão vinculada a uma nova conta Armazenamento de Blobs do Azure seguindo as etapas na seção anterior ou usar uma conexão existente na lista suspensa de conexão. Os recursos de Conexão de teste e Edição estão disponíveis para cada conexão selecionada.

    Captura de tela mostrando como selecionar o Armazenamento de Blobs do Azure.

  2. Configure e mapeie os dados de origem para o destino. Em seguida, selecione Avançar para concluir as configurações de destino.

    Captura de tela do mapa para a tela de destino.

    Captura de tela de Conectar ao destino de dados.

    Note

    É possível usar somente um único gateway de dados local na mesma atividade Copy. Se a origem e o coletor forem fontes de dados locais, eles precisarão usar o mesmo gateway. Para mover dados entre fontes de dados locais com gateways diferentes, você precisa copiar usando o primeiro gateway para uma fonte de nuvem intermediária em uma atividade de cópia. Em seguida, é possível usar outra atividade Copy para copiá-la da fonte de nuvem intermediária, usando o segundo gateway.

Examinar e criar sua atividade de cópia

  1. Examine as configurações de atividade de cópia nas etapas anteriores e selecione OK para concluir. Ou você pode voltar às etapas anteriores para editar suas configurações, se necessário, na ferramenta.

    Captura de tela mostrando a tela Revisar e criar.

Depois de concluída, a atividade de cópia será adicionada à tela do pipeline. Todas as configurações, incluindo configurações avançadas para essa atividade do Cópia, estão disponíveis nas guias abaixo quando selecionadas.

Captura de tela mostrando uma atividade de cópia no canvas do pipeline.

Agora você pode salvar seu pipeline com essa única atividade de cópia ou continuar a projetar seu pipeline.

Adicionar uma atividade de cópia diretamente

Siga estas etapas para adicionar uma atividade de cópia diretamente.

Adicione uma atividade de Cópia

  1. Abra um pipeline existente ou crie um novo pipeline.

  2. Adicione uma atividade de cópia selecionando Adicionar atividade de pipeline >Atividade de Cópia ou selecionando Copiar dados>Adicionar à tela na guia Atividades.

    Captura de tela mostrando duas maneiras de adicionar uma atividade de cópia.

Definir suas configurações gerais na guia geral

Para saber como definir suas configurações gerais, consulte Geral.

Configurar sua origem na guia de origem

  1. Em Conexão, selecione uma conexão existente ou selecione Mais para criar uma nova conexão.

    Captura de tela mostrando onde selecionar Novo.

    1. Escolha o tipo de fonte de dados na janela pop-up. Você usará SQL do Azure Banco de Dados como exemplo. Selecione Banco de Dados SQL do Azure e Continuar.

      Captura de tela mostrando como selecionar a fonte de dados.

    2. Ele navega até a página de criação de conexão. Preencha as informações de conexão necessárias no painel e selecione Criar. Para obter os detalhes da criação da conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.

      Captura de tela mostrando a página Nova conexão.

    3. Depois que a conexão for criada, ela o levará de volta à página do pipeline. Em seguida, selecione Atualizar para obter a conexão que você criou na lista suspensa. Você também pode escolher diretamente uma conexão existente do Azure SQL Database na lista suspensa, caso já a tenha criado anteriormente. Os recursos de Conexão de teste e Edição estão disponíveis para cada conexão selecionada. Em seguida, selecione Banco de dados do SQL do Azure SQL em Tipo de conexão.

  2. Especifique uma tabela a ser copiada. Selecione Pré-visualizar dados para visualizar a tabela de origem. Você também pode usar Consulta e Procedimento armazenado para ler dados de sua fonte.

  3. Expanda Avançado para configurações mais avançadas, como tempo limite de consulta ou particionamento. (As configurações avançadas variam de acordo com o conector.)

Configurar seu destino na guia de destino

  1. Em Conexão , selecione uma conexão existente ou selecione Mais para criar uma nova conexão. Pode ser o armazenamento interno de dados de alta qualidade do seu workspace, como o Lakehouse, ou o armazenamento de dados externos. Neste exemplo, usamos Lakehouse.

  2. Depois que a conexão for criada, ela o levará de volta à página do pipeline. Em seguida, selecione Atualizar para obter a conexão que você criou na lista suspensa. Você também pode escolher diretamente uma conexão existente do Lakehouse no menu suspenso, se já a tiver criado antes.

  3. Especifique uma tabela ou configure o caminho do arquivo para definir o arquivo ou a pasta como o destino. Aqui, selecione Tabelas e especifique uma tabela para gravar dados.

  4. Expanda Avançado para configurações mais avançadas, como o máximo de linhas por arquivo ou ação de tabela. (As configurações avançadas variam de acordo com o conector.)

Agora você pode salvar seu pipeline usando esta atividade de cópia ou continuar projetando seu pipeline.

Configurar seus mapeamentos na guia mapeamento

Se o conector usado der suporte ao mapeamento, você poderá acessar a guia Mapeamento para configurar o mapeamento.

  1. Selecione Importar esquemas para importar o esquema de dados.

    Captura de tela das configurações de mapeamento 1.

  2. Você pode ver que o mapeamento automático é exibido. Especifique a coluna Origem e a coluna Destino. Se você criar uma nova tabela no destino, poderá personalizar o nome da coluna Destino aqui. Se você quiser gravar dados na tabela de destino existente, não poderá modificar o nome da coluna Destino existente. Você também pode exibir as colunas Tipo de origem e destino.

    Captura de tela das configurações de mapeamento 2.

Você também pode selecionar + Novo mapeamento para adicionar novo mapeamento, selecionar Limpar para limpar todas as configurações de mapeamento e selecionar Redefinir para redefinir todas as colunas de origem de mapeamento.

Para obter mais informações sobre o mapeamento de tipo de dados, consulte Mapeamento de tipo de dados em uma atividade de cópia.

Definir suas outras configurações na guia configurações

A guia Configurações contém as configurações de desempenho, preparo e assim por diante.

Captura de tela da guia Configurações.

Consulte a tabela a seguir para obter uma descrição de cada elemento do arquivo.

Setting Description Propriedade do script JSON
Otimização de taxa de transferência inteligente Especifique para otimizar a taxa de transferência. Você pode escolher entre:
Auto
Padrão
Balanceado
Máximo

Ao escolher Automático, a configuração ideal é aplicada dinamicamente com base no seu par de destino de origem e no padrão de dados. Você também pode personalizar sua taxa de transferência e o valor personalizado pode ser de 2 a 256, enquanto o valor mais alto implica mais ganhos.
dataIntegrationUnits
Grau de paralelismo de cópia Especifique o grau de paralelismo que o carregamento de dados usaria. parallelCopies
Ajuste de desempenho adaptável (Preivew) Especifique se o serviço pode aplicar otimizações de desempenho e ajuste de acordo com a configuração personalizada. Ajuste Adaptativo de Performance
Verificação de consistência de dados Se você definir true em essa propriedade, ao copiar arquivos binários, a atividade de cópia verificará o tamanho do arquivo, a data da última modificação e a soma de verificação de cada arquivo binário copiado do armazenamento de origem para o armazenamento de destino, para garantir a consistência de dados entre o armazenamento de origem e o armazenamento de destino. Ao copiar dados de tabela, a atividade Copy verificará a contagem total de linhas após a conclusão do trabalho, garantindo que o número total de linhas lidas da origem seja igual ao número de linhas copiadas para o destino mais o número de linhas incompatíveis que foram ignoradas. Esteja ciente de que o desempenho da cópia é afetado pela ativação dessa opção. validateDataConsistency
Tolerância a falhas Ao selecionar essa opção, você pode ignorar alguns erros que ocorrem no meio do processo de cópia. Por exemplo, linhas incompatíveis entre o repositório de origem e de destino, o arquivo que está sendo excluído durante a movimentação de dados etc. • enableSkipIncompatibleRow
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
Habilitar o registro em log Ao selecionar essa opção, você pode registrar em log arquivos copiados, arquivos ignorados e linhas ignoradas. /
Habilitar o preparo Especifique se você deseja copiar os dados por meio de um armazenamento de preparo provisório. Ative o ambiente de staging somente para cenários úteis. enableStaging
Para Workspace
Workspace Especifique para usar o armazenamento de preparo interno. Certifique-se de que o último usuário que modificou o pipeline tenha pelo menos a função de colaborador atribuída no espaço de trabalho. /
Para Externo
Como preparar a conexão da conta Especifique a conexão de um Armazenamento de Blobs do Azure ou Azure Data Lake Storage Gen2, que se refere à instância do Armazenamento que você usa como um armazenamento de preparo provisório. Crie uma conexão de preparo se você não a tiver. conexão (em externalReferences)
Caminho de armazenamento Especifique o caminho que você deseja que contenha os dados preparados. Se você não fornecer um caminho, o serviço criará um contêiner para armazenar os dados temporários. Especifique um caminho somente se você usar o Armazenamento com uma assinatura de acesso compartilhado ou precisar que os dados temporários fiquem em um local específico. caminho
Habilitar compactação Especifica se os dados devem ser compactados antes de serem copiados para o destino. Essa configuração reduz o volume de dados que são transferidos. enableCompression
Preserve Especifique se deseja preservar metadados/ACLs durante a cópia de dados. preserve

Note

Caso usar a cópia preparada com a compactação ativada, a autenticação da entidade de serviço para conexão de blob de preparo não será compatível.

Note

O processo de preparação do workspace expira após 60 minutos. Para trabalhos de longa execução, é recomendável usar o armazenamento externo para preparo.

Configurar parâmetros em uma atividade de cópia

Os parâmetros podem ser usados para controlar o comportamento de um pipeline e suas atividades. Você pode usar Adicionar conteúdo dinâmico para especificar parâmetros para suas propriedades da atividade de cópia. Vamos usar a especificação do Lakehouse/Data Warehouse como um exemplo para ver como usá-lo.

  1. Em sua origem ou destino, selecione Usar conteúdo dinâmico na lista suspensa de Conexão.

  2. No painel pop-up Adicionar conteúdo dinâmico, na guia Parâmetros, selecione +.

    Captura de tela mostrando a página Adicionar conteúdo dinâmico.

  3. Especifique o nome do parâmetro e dê a ele um valor padrão, se desejar, ou especifique o valor do parâmetro quando ele for disparado no pipeline.

    A captura de tela mostra a criação de um novo parâmetro.

    O valor do parâmetro deve ser a ID de conexão do Lakehouse/Data Warehouse. Para obtê-lo, abra a conexão Gerenciar Conexões e Gateways, escolha a conexão Lakehouse/Data Warehouse que você deseja usar e abra Configurações para obter sua ID de conexão. Se você quiser criar uma nova conexão, poderá selecionar + Novo nesta página ou ir para obter a página de dados por meio da lista suspensa Conexão .

  4. Selecione Salvar para retornar ao painel Adicionar conteúdo dinâmico. Em seguida, selecione o parâmetro para que ele apareça na caixa de expressão. Depois, selecione OK. Você voltará para a página de pipeline e poderá ver que a expressão de parâmetro é especificada após a Conexão.

    Captura de tela mostrando a seleção do parâmetro.

  5. Especifique a ID do Lakehouse ou do Data Warehouse. Para encontrar a ID, vá para o Lakehouse ou Data Warehouse em seu workspace. A ID é exibida na URL após /lakehouses/ ou /datawarehouses/.

    • ID do Lakehouse:

      Captura de tela que mostra o ID de objeto do Lakehouse.

    • ID do warehouse:

      Captura de tela mostrando a ID do objeto do Data Warehouse.

  6. Especifique a cadeia de conexão SQL para o Data Warehouse.