Compartilhar via


Copiar dados e transformar com parâmetros dinâmicos por hora

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Nesse cenário, você deseja copiar dados do AWS S3 para o Armazenamento de Blobs do Azure e transformá-los com o Azure Databricks (com parâmetros dinâmicos no script) em um agendamento por hora para oito horas a cada dia por 30 dias.

Os preços usados neste exemplo abaixo são hipotéticos e não têm o objetivo de sugerir o preço real exato. Os custos de leitura/gravação e monitoramento não são mostrados, pois normalmente são insignificantes e não afetarão os custos gerais de forma substancial. As execuções de atividade também são arredondadas para os 1000 mais próximos nas estimativas da calculadora de preços.

Veja a Calculadora de Preços do Azure para ver cenários mais específicos e estimar os custos futuros para usar o serviço.

Configuração

Para executar o cenário, você precisará criar um pipeline com os seguintes itens:

  • Uma atividade de cópia com um conjunto de dados de entrada para os dados a serem copiados do AWS S3, um conjunto de dados de saída para os dados no Armazenamento do Azure.
  • Uma atividade de pesquisa para passar parâmetros dinamicamente para o script de transformação.
  • Uma atividade do Azure Databricks para a transformação de dados.
  • Um gatilho de agendamento para executar o pipeline a cada hora durante 8 horas por dia. Quando você quiser executar um pipeline, poderá acioná-lo imediatamente ou agendá-lo. Além do próprio pipeline, cada instância de gatilho conta como uma única execução de atividade.

Diagram shows a pipeline with a schedule trigger. In the pipeline, copy activity flows to an input dataset, an output dataset, and lookup activity that flows to a DataBricks activity, which runs on Azure Databricks. The input dataset flows to an AWS S3 linked service. The output dataset flows to an Azure Storage linked service.

Estimativa de custos

Operações Tipos e unidades
Executar pipeline 4 Execuções de atividade por execução (1 para execução de gatilho, 3 para execuções de atividade) = 960 execuções de atividade, arredondadas para cima, pois a calculadora só permite incrementos de 1000.
Suposição de Copiar Dados: horas de DIU por execução = 10 minutos 10 min\60 min * 4 Azure Integration Runtime (configuração DIU padrão = 4) Para obter mais informações sobre unidades de integração de dados e otimização de desempenho de cópia, confira este artigo
Executar atividade de pesquisa Suposição: horas de atividade de pipeline por execução = 1 min 1 minuto/60 minutos de execução da atividade do pipeline
Suposição para a atividade de execução de Databricks: horas de execução externa por execução = 10 min 10 min/60 min Execução de atividade de pipeline externo

Exemplo de preços: exemplo de calculadora de preços

Preço total do cenário por 30 dias: US$ 41,03

Screenshot of the pricing calculator configured for a copy data and transform with dynamic parameters scenario.