Como copiar dados usando a atividade de cópia

No Azure Data Factory, você pode usar a atividade de Cópia para copiar dados entre armazenamentos de dados locais e na nuvem.

Depois de copiar os dados, você pode usar outras atividades para transformá-los e analisá-los ainda mais. Também é possível usar a atividade Copy para publicar resultados de análise e transformação para consumo do aplicativo e BI (business intelligence).

Para copiar dados de uma origem para um coletor, o serviço que executa a atividade de Cópia realiza essas etapas:

  1. Lê dados de um armazenamento de dados de origem.
  2. Executa a serialização/desserialização, a compactação/descompactação, o mapeamento de coluna e assim por diante. Ele executa essas operações com base na configuração.
  3. Grava dados no repositório de dados de destino.

Pré-requisitos

Para começar, você deve concluir os seguintes pré-requisitos:

  • Uma conta de locatário do Microsoft Fabric com uma assinatura ativa. Crie uma conta gratuitamente.

  • Verifique se você tem um Workspace habilitado para o Microsoft Fabric.

Adicionar uma atividade de cópia usando copiar assistente

Siga estas etapas para configurar sua atividade de cópia usando o assistente de cópia.

Comece com o assistente de cópia

  1. Abra um pipeline de dados existente ou crie um pipeline de dados.

  2. Selecione Copiar dados na tela para abrir a ferramenta Assistente de cópia para começar. Ou selecione Usar o assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.

    Screenshot showing options for opening the copy assistant.

Configurar sua origem

  1. Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Selecione Armazenamento de Blobs do Azure e depois selecione Continuar.

    Screenshot of Choose data source screen.

    Screenshot showing where to select the correct data source.

  2. Crie uma conexão com sua fonte de dados selecionando Criar nova conexão.

    Screenshot showing where to select New connection.

    Depois de selecionar Criar nova conexão, preencha as informações de conexão necessárias e selecione Avançar. Para obter os detalhes da criação da conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.

    Se você tiver conexões existentes, poderá selecionar Conexão existente e selecionar sua conexão na lista suspensa.

    Screenshot showing the existing connection.

  3. Escolha o arquivo ou pasta a ser copiado nesta etapa de configuração de origem e selecione Avançar.

    Screenshot showing where to select the data to be copied.

Configurar seu destino

  1. Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Selecione Armazenamento de Blobs do Azure e depois selecione Avançar.

    Screenshot showing how to select Azure Blob Storage.

  2. Você pode criar uma nova conexão vinculada a uma nova conta Armazenamento de Blobs do Azure seguindo as etapas na seção anterior ou usar uma conexão existente na lista suspensa de conexão. Os recursos de Testar conexão e Editar estão disponíveis para cada conexão selecionada.

    Screenshot showing data connection options.

  3. Configure e mapeie os dados de origem para o destino. Em seguida, selecione Avançar para concluir as configurações de destino.

    Screenshot of Map to destination screen.

    Screenshot of Connect to data destination.

Examinar e criar sua atividade de cópia

  1. Examine as configurações de atividade de cópia nas etapas anteriores e selecione OK para concluir. Ou você pode voltar às etapas anteriores para editar suas configurações, se necessário, na ferramenta.

    Screenshot showing the Review and create screen.

Depois de concluída, a atividade de cópia será adicionada à tela do pipeline de dados. Todas as configurações, incluindo configurações avançadas para essa atividade do Cópia, estão disponíveis nas guias abaixo quando selecionadas.

Screenshot showing a copy activity on the data pipeline canvas.

Agora você pode salvar seu pipeline de dados com essa atividade de cópia única ou continuar a projetar seu pipeline de dados.

Adicionar uma atividade de cópia diretamente

Siga estas etapas para adicionar uma atividade de cópia diretamente.

Adicione uma atividade de Cópia

  1. Abra um pipeline de dados existente ou crie um pipeline de dados.

  2. Adicione uma atividade de cópia selecionando Adicionar atividade de pipeline >Atividade de Cópia ou selecionando Copiar dados>Adicionar à tela na guia Atividades.

    Screenshot showing two ways to add a copy activity.

Definir suas configurações gerais na guia geral

Para saber como definir suas configurações gerais, consulte Geral.

Configurar sua origem na guia de origem

  1. Selecione + Novo ao lado de Conexão para criar uma conexão com sua fonte de dados.

    Screenshot showing where to select New.

    1. Escolha o tipo de fonte de dados na janela pop-up. Você usará SQL do Azure Banco de Dados como exemplo. Selecione Banco de Dados SQL do Azure e Continuar.

      Screenshot showing how to select the data source.

    2. Ele navega até a página de criação de conexão. Preencha as informações de conexão necessárias no painel e selecione Criar. Para obter os detalhes da criação da conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.

      Screenshot showing New connection page.

    3. Depois que a conexão for criada com êxito, ela o levará de volta à página do pipeline de dados. Em seguida, selecione Atualizar para buscar a conexão que você criou na lista suspensa. Você também pode escolher uma conexão de banco de dados SQL do Azure existente na lista suspensa diretamente se já a tiver criado antes. Os recursos de Testar conexão e Editar estão disponíveis para cada conexão selecionada. Em seguida, selecione Banco de dados do SQL do Azure SQL em Tipo de conexão.

      Screenshot showing where to refresh your connection.

  2. Especifique uma tabela a ser copiada. Selecione Pré-visualizar dados para visualizar a tabela de origem. Você também pode usar Consulta e Procedimento armazenado para ler dados de sua fonte.

    Screenshot showing source table settings options.

  3. Expanda Avançado para configurações mais avançadas.

    Screenshot of advanced settings.

Configurar seu destino na guia de destino

  1. Escolha o tipo de destino. Pode ser o armazenamento de dados interno de primeira classe do workspace, como o Lakehouse, ou seus armazenamentos de dados externos. Você usará o Lakehouse como exemplo.

    Screenshot showing where to select destination type.

  2. Escolha usar o Lakehouse em Tipo de armazenamento de dados do workspace. Selecione + Novo e ele navega até a página de criação do Lakehouse. Especifique o nome do Lakehouse e selecione Criar.

    Screenshot showing Lakehouse creation.

  3. Depois que a conexão for criada com êxito, ela o levará de volta à página do pipeline de dados. Em seguida, selecione Atualizar para buscar a conexão que você criou na lista suspensa. Você também pode escolher uma conexão existente do Lakehouse na lista suspensa diretamente se já a tiver criado antes.

    Screenshot showing selecting connection.

  4. Especifique uma tabela ou configure o caminho do arquivo para definir o arquivo ou a pasta como o destino. Aqui, selecione Tabelas e especifique uma tabela para gravar dados.

    Screenshot showing where to find Table settings.

  5. Expanda Avançado para configurações mais avançadas.

    Screenshot of Advanced options.

Agora você pode salvar seu pipeline de dados com essa atividade de cópia única ou continuar a projetar seu pipeline de dados.

Configurar seus mapeamentos na guia mapeamento

Se o conector que você aplicar der suporte ao mapeamento, você poderá acessar a guia Mapeamento para configurar o mapeamento.

  1. Selecione Importar esquemas para importar o esquema de dados.

    Screenshot of mapping settings 1.

  2. Você pode ver que o mapeamento automático é mostrado. Especifique a coluna Origem e a coluna Destino. Se você criar uma nova tabela no destino, poderá personalizar o nome da coluna Destino aqui. Se você quiser gravar dados na tabela de destino existente, não poderá modificar o nome da coluna Destino existente. Você também pode exibir as colunas Tipo de origem e destino.

    Screenshot of mapping settings 2.

Além disso, você pode selecionar + Novo mapeamento para adicionar novo mapeamento, selecione Limpar para limpar todas as configurações de mapeamento e selecione Redefinir para redefinir todas as colunas fonte de mapeamento.

Configurar a conversão de tipo

Expanda Configurações de conversão de tipo para configurar a conversão de tipo, se necessário.

Screenshot of mapping type conversion.

Para ver mais detalhes, consulte a tabela a seguir.

Configuração Descrição
Permitir truncamento de dados Permitir truncamento de dados ao converter dados de origem em destino com tipo diferente durante a cópia. Por exemplo, de decimal a inteiro, de DatetimeOffset a Datetime.
Tratar booliano como número Trate booliano como número. Por exemplo, trate true como 1.
Formato de DateTime Cadeia de caracteres de formato ao converter entre datas sem deslocamento de fuso horário e strings. Por exemplo, "yyyy-MM-dd HH:mm:ss.fff".
Formato de DateTimeOffset Cadeia de caracteres de formato ao converter entre datas com deslocamento e cadeias de caracteres de fuso horário. Por exemplo, "yyyy-MM-dd HH:mm:ss.fff".
Formato de TimeSpan Cadeia de formato ao converter entre períodos de tempo e cadeias de caracteres. Por exemplo, "dd.hh:mm:ss".
Cultura Informações de cultura a serem usadas ao converter tipos. Por exemplo, "en-us", "fr-fr".

Definir suas outras configurações na guia configurações

A guia Configurações contém as configurações de desempenho, preparo e assim por diante.

Screenshot of Settings tab.

Consulte a tabela a seguir para obter uma descrição de cada elemento do arquivo.

Configuração Descrição
Otimização de taxa de transferência inteligente Especifique para otimizar a taxa de transferência. Você pode escolher entre:
Automático
Padrão
Equilibrado
Máximo.
Ao escolher Automático, a configuração ideal é aplicada dinamicamente com base no seu par de destino de origem e no padrão de dados. Você também pode personalizar sua taxa de transferência e o valor personalizado pode ser de 2 a 256, enquanto o valor mais alto implica mais ganhos.
Grau de paralelismo de cópia Especifique o grau de paralelismo que o carregamento de dados usaria.
Tolerância a falhas Ao selecionar essa opção, você pode ignorar alguns erros ocorridos no meio do processo de cópia. Por exemplo, linhas incompatíveis entre o repositório de origem e de destino, o arquivo que está sendo excluído durante a movimentação de dados etc.
Habilitar o registro em log Ao selecionar essa opção, você pode registrar arquivos copiados em log, arquivos ignorados e linhas
Habilitar o processo de preparo Especifique se você deseja copiar os dados por meio de um armazenamento de preparo provisório. Habilite o preparo somente para os cenários benéficos.
Como preparar a conexão da conta Ao selecionar Habilitar preparo, especifique a conexão de uma fonte de dados de armazenamento do Azure como um repositório de preparo provisório. Selecione + Novo para criar uma conexão de preparo se você não a tiver.

Configurar parâmetros em uma atividade de cópia

Os parâmetros podem ser usados para controlar o comportamento de um pipeline e suas atividades. Você pode usar Adicionar conteúdo dinâmico para especificar parâmetros para suas propriedades da atividade de cópia. Vamos tomar como exemplo a especificação do Lakehouse/Data Warehouse/Banco de Dados KQL para ver como usar o recurso.

  1. Em sua origem ou destino, após selecionar Workspace como o tipo de armazenamento de dados e especificar o Lakehouse/Data Warehouse/Banco de Dados KQL como o tipo de armazenamento de dados do workspace, selecione Adicionar conteúdo dinâmico na lista suspensa do Lakehouse ou Data Warehouse ou Banco de Dados KQL.

  2. No painel pop-up Adicionar conteúdo dinâmico, na guia Parâmetros, selecione +.

    Screenshot showing the Add dynamic content page.

  3. Especifique o nome do seu parâmetro e dê a ele um valor padrão, se quiser, ou você pode especificar o valor para o parâmetro após selecionar Executar no pipeline.

    Screenshot shows creating a new parameter.

    Observe que o valor do parâmetro deve ser a ID de objeto do Lakehouse/Data Warehouse/Banco de Dados KQL. Para obter a ID do objeto Lakehouse/Data Warehouse/Banco de Dados KQL, abra o Lakehouse/Data Warehouse/Banco de Dados KQL no seu workspace e a ID estará depois de /lakehouses/ ou /datawarehouses/ ou /databases/ no seu URL.

    • ID de objeto do Lakehouse:

      Screenshot showing the Lakehouse object ID.

    • ID de objeto do Data Warehouse:

      Screenshot showing the Data Warehouse object ID.

    • ID do objeto do Banco de Dados KQL:

      Screenshot showing the KQL Database object ID.

  4. Selecione Salvar para retornar ao painel Adicionar conteúdo dinâmico. Em seguida, selecione o parâmetro para que ele apareça na caixa de expressão. Depois, selecione OK. Você voltará para a página do pipeline e poderá ver que a expressão do parâmetro está especificada após a ID do objeto do Lakehouse/ID do objeto do Data Warehouse ID/ID do objeto Banco de Dados KQL.

    Screenshot showing selecting parameter.