Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Em um pipeline, você pode usar a atividade Copiar para copiar dados entre armazenamentos de dados na nuvem. Depois de copiar os dados, você pode usar outras atividades no pipeline para transformá-los e analisá-los.
A atividade Copiar conecta-se às suas fontes de dados e destinos e, em seguida, move dados com eficiência entre eles. Veja como o serviço lida com o processo de cópia:
- Conecta-se ao seu repositório de origem de dados: cria uma conexão segura para ler dados do seu repositório de origem.
- Processa os dados: lida com serialização/desserialização, compactação/descompactação, mapeamento de coluna e conversões de tipo de dados com base em sua configuração.
- Grava no destino: transfere os dados processados para o repositório de dados de destino.
- Fornece monitoramento: controla a operação de cópia e fornece logs e métricas detalhados para solução de problemas e otimização.
Tip
Se você precisar apenas copiar seus dados e não precisar de transformações, um trabalho de Cópia poderá ser uma opção melhor para você. Os trabalhos de cópia fornecem uma experiência simplificada para cenários de movimentação de dados que não exigem a criação de um pipeline completo. Confira: a visão geral dos trabalhos de cópia ou use nossa tabela de decisão para comparar a atividade de cópia e o trabalho de cópia.
Prerequisites
Para começar, você precisa concluir esses pré-requisitos:
- Uma conta de locatário do Microsoft Fabric com uma assinatura ativa. Crie uma conta gratuitamente.
- Um Workspace habilitado para o Microsoft Fabric.
Adicionar uma atividade de cópia usando copiar assistente
Siga estas etapas para configurar sua atividade de cópia usando o assistente de cópia.
Comece com o assistente de cópia
Abra um pipeline existente ou crie um novo pipeline.
Selecione Copiar dados na tela para abrir a ferramenta Assistente de cópia para começar. Ou selecione Usar o assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.
Configurar sua origem
Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Selecione Armazenamento de Blobs do Azure.
Crie uma conexão com sua fonte de dados selecionando Criar nova conexão.
Depois de selecionar Criar nova conexão, preencha as informações de conexão necessárias e selecione Avançar. Para obter os detalhes da criação da conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.
Se você já tiver conexões, poderá selecionar Conexão Existente e selecionar sua conexão na lista suspensa.
Escolha o arquivo ou pasta a ser copiado nesta etapa de configuração de origem e selecione Avançar.
Configurar seu destino
Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Você pode criar uma nova conexão vinculada a uma nova conta Armazenamento de Blobs do Azure seguindo as etapas na seção anterior ou usar uma conexão existente na lista suspensa de conexão. Os recursos de Conexão de teste e Edição estão disponíveis para cada conexão selecionada.
Configure e mapeie os dados de origem para o destino. Em seguida, selecione Avançar para concluir as configurações de destino.
Note
É possível usar somente um único gateway de dados local na mesma atividade Copy. Se a origem e o coletor forem fontes de dados locais, eles precisarão usar o mesmo gateway. Para mover dados entre fontes de dados locais com gateways diferentes, você precisa copiar usando o primeiro gateway para uma fonte de nuvem intermediária em uma atividade de cópia. Em seguida, é possível usar outra atividade Copy para copiá-la da fonte de nuvem intermediária, usando o segundo gateway.
Examinar e criar sua atividade de cópia
Examine as configurações de atividade de cópia nas etapas anteriores e selecione OK para concluir. Ou você pode voltar às etapas anteriores para editar suas configurações, se necessário, na ferramenta.
Depois de concluída, a atividade de cópia será adicionada à tela do pipeline. Todas as configurações, incluindo configurações avançadas para essa atividade do Cópia, estão disponíveis nas guias abaixo quando selecionadas.
Agora você pode salvar seu pipeline com essa única atividade de cópia ou continuar a projetar seu pipeline.
Adicionar uma atividade de cópia diretamente
Siga estas etapas para adicionar uma atividade de cópia diretamente.
Adicione uma atividade de Cópia
Abra um pipeline existente ou crie um novo pipeline.
Adicione uma atividade de cópia selecionando Adicionar atividade de pipeline >Atividade de Cópia ou selecionando Copiar dados>Adicionar à tela na guia Atividades.
Definir suas configurações gerais na guia geral
Para saber como definir suas configurações gerais, consulte Geral.
Configurar sua origem na guia de origem
Em Conexão, selecione uma conexão existente ou selecione Mais para criar uma nova conexão.
Escolha o tipo de fonte de dados na janela pop-up. Você usará SQL do Azure Banco de Dados como exemplo. Selecione Banco de Dados SQL do Azure e Continuar.
Ele navega até a página de criação de conexão. Preencha as informações de conexão necessárias no painel e selecione Criar. Para obter os detalhes da criação da conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.
Depois que a conexão for criada, ela o levará de volta à página do pipeline. Em seguida, selecione Atualizar para obter a conexão que você criou na lista suspensa. Você também pode escolher diretamente uma conexão existente do Azure SQL Database na lista suspensa, caso já a tenha criado anteriormente. Os recursos de Conexão de teste e Edição estão disponíveis para cada conexão selecionada. Em seguida, selecione Banco de dados do SQL do Azure SQL em Tipo de conexão.
Especifique uma tabela a ser copiada. Selecione Pré-visualizar dados para visualizar a tabela de origem. Você também pode usar Consulta e Procedimento armazenado para ler dados de sua fonte.
Expanda Avançado para configurações mais avançadas, como tempo limite de consulta ou particionamento. (As configurações avançadas variam de acordo com o conector.)
Configurar seu destino na guia de destino
Em Conexão , selecione uma conexão existente ou selecione Mais para criar uma nova conexão. Pode ser o armazenamento interno de dados de alta qualidade do seu workspace, como o Lakehouse, ou o armazenamento de dados externos. Neste exemplo, usamos Lakehouse.
Depois que a conexão for criada, ela o levará de volta à página do pipeline. Em seguida, selecione Atualizar para obter a conexão que você criou na lista suspensa. Você também pode escolher diretamente uma conexão existente do Lakehouse no menu suspenso, se já a tiver criado antes.
Especifique uma tabela ou configure o caminho do arquivo para definir o arquivo ou a pasta como o destino. Aqui, selecione Tabelas e especifique uma tabela para gravar dados.
Expanda Avançado para configurações mais avançadas, como o máximo de linhas por arquivo ou ação de tabela. (As configurações avançadas variam de acordo com o conector.)
Agora você pode salvar seu pipeline usando esta atividade de cópia ou continuar projetando seu pipeline.
Configurar seus mapeamentos na guia mapeamento
Se o conector usado der suporte ao mapeamento, você poderá acessar a guia Mapeamento para configurar o mapeamento.
Selecione Importar esquemas para importar o esquema de dados.
Você pode ver que o mapeamento automático é exibido. Especifique a coluna Origem e a coluna Destino. Se você criar uma nova tabela no destino, poderá personalizar o nome da coluna Destino aqui. Se você quiser gravar dados na tabela de destino existente, não poderá modificar o nome da coluna Destino existente. Você também pode exibir as colunas Tipo de origem e destino.
Você também pode selecionar + Novo mapeamento para adicionar novo mapeamento, selecionar Limpar para limpar todas as configurações de mapeamento e selecionar Redefinir para redefinir todas as colunas de origem de mapeamento.
Para obter mais informações sobre o mapeamento de tipo de dados, consulte Mapeamento de tipo de dados em uma atividade de cópia.
Definir suas outras configurações na guia configurações
A guia Configurações contém as configurações de desempenho, preparo e assim por diante.
Consulte a tabela a seguir para obter uma descrição de cada elemento do arquivo.
| Setting | Description | Propriedade do script JSON |
|---|---|---|
| Otimização de taxa de transferência inteligente | Especifique para otimizar a taxa de transferência. Você pode escolher entre: • Auto • Padrão • Balanceado • Máximo Ao escolher Automático, a configuração ideal é aplicada dinamicamente com base no seu par de destino de origem e no padrão de dados. Você também pode personalizar sua taxa de transferência e o valor personalizado pode ser de 2 a 256, enquanto o valor mais alto implica mais ganhos. |
dataIntegrationUnits |
| Grau de paralelismo de cópia | Especifique o grau de paralelismo que o carregamento de dados usaria. | parallelCopies |
| Ajuste de desempenho adaptável (Preivew) | Especifique se o serviço pode aplicar otimizações de desempenho e ajuste de acordo com a configuração personalizada. | Ajuste Adaptativo de Performance |
| Verificação de consistência de dados | Se você definir true em essa propriedade, ao copiar arquivos binários, a atividade de cópia verificará o tamanho do arquivo, a data da última modificação e a soma de verificação de cada arquivo binário copiado do armazenamento de origem para o armazenamento de destino, para garantir a consistência de dados entre o armazenamento de origem e o armazenamento de destino. Ao copiar dados de tabela, a atividade Copy verificará a contagem total de linhas após a conclusão do trabalho, garantindo que o número total de linhas lidas da origem seja igual ao número de linhas copiadas para o destino mais o número de linhas incompatíveis que foram ignoradas. Esteja ciente de que o desempenho da cópia é afetado pela ativação dessa opção. |
validateDataConsistency |
| Tolerância a falhas | Ao selecionar essa opção, você pode ignorar alguns erros que ocorrem no meio do processo de cópia. Por exemplo, linhas incompatíveis entre o repositório de origem e de destino, o arquivo que está sendo excluído durante a movimentação de dados etc. | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
| Habilitar o registro em log | Ao selecionar essa opção, você pode registrar em log arquivos copiados, arquivos ignorados e linhas ignoradas. | / |
| Habilitar o preparo | Especifique se você deseja copiar os dados por meio de um armazenamento de preparo provisório. Ative o ambiente de staging somente para cenários úteis. | enableStaging |
| Para Workspace | ||
| Workspace | Especifique para usar o armazenamento de preparo interno. Certifique-se de que o último usuário que modificou o pipeline tenha pelo menos a função de colaborador atribuída no espaço de trabalho. | / |
| Para Externo | ||
| Como preparar a conexão da conta | Especifique a conexão de um Armazenamento de Blobs do Azure ou Azure Data Lake Storage Gen2, que se refere à instância do Armazenamento que você usa como um armazenamento de preparo provisório. Crie uma conexão de preparo se você não a tiver. | conexão (em externalReferences) |
| Caminho de armazenamento | Especifique o caminho que você deseja que contenha os dados preparados. Se você não fornecer um caminho, o serviço criará um contêiner para armazenar os dados temporários. Especifique um caminho somente se você usar o Armazenamento com uma assinatura de acesso compartilhado ou precisar que os dados temporários fiquem em um local específico. | caminho |
| Habilitar compactação | Especifica se os dados devem ser compactados antes de serem copiados para o destino. Essa configuração reduz o volume de dados que são transferidos. | enableCompression |
| Preserve | Especifique se deseja preservar metadados/ACLs durante a cópia de dados. | preserve |
Note
Caso usar a cópia preparada com a compactação ativada, a autenticação da entidade de serviço para conexão de blob de preparo não será compatível.
Note
O processo de preparação do workspace expira após 60 minutos. Para trabalhos de longa execução, é recomendável usar o armazenamento externo para preparo.
Configurar parâmetros em uma atividade de cópia
Os parâmetros podem ser usados para controlar o comportamento de um pipeline e suas atividades. Você pode usar Adicionar conteúdo dinâmico para especificar parâmetros para suas propriedades da atividade de cópia. Vamos usar a especificação do Lakehouse/Data Warehouse como um exemplo para ver como usá-lo.
Em sua origem ou destino, selecione Usar conteúdo dinâmico na lista suspensa de Conexão.
No painel pop-up Adicionar conteúdo dinâmico, na guia Parâmetros, selecione +.
Especifique o nome do parâmetro e dê a ele um valor padrão, se desejar, ou especifique o valor do parâmetro quando ele for disparado no pipeline.
O valor do parâmetro deve ser a ID de conexão do Lakehouse/Data Warehouse. Para obtê-lo, abra a conexão Gerenciar Conexões e Gateways, escolha a conexão Lakehouse/Data Warehouse que você deseja usar e abra Configurações para obter sua ID de conexão. Se você quiser criar uma nova conexão, poderá selecionar + Novo nesta página ou ir para obter a página de dados por meio da lista suspensa Conexão .
Selecione Salvar para retornar ao painel Adicionar conteúdo dinâmico. Em seguida, selecione o parâmetro para que ele apareça na caixa de expressão. Depois, selecione OK. Você voltará para a página de pipeline e poderá ver que a expressão de parâmetro é especificada após a Conexão.
Especifique a ID do Lakehouse ou do Data Warehouse. Para encontrar a ID, vá para o Lakehouse ou Data Warehouse em seu workspace. A ID é exibida na URL após
/lakehouses/ou/datawarehouses/.ID do Lakehouse:
ID do warehouse:
Especifique a cadeia de conexão SQL para o Data Warehouse.