Partilhar via


Exemplo de definição de preço: copiar dados e transformá-los com o Azure Databricks

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Nesse cenário, você deseja copiar dados do AWS S3 para o armazenamento de Blob do Azure e transformar os dados com o Azure Databricks em uma programação horária por 8 horas por dia durante 30 dias.

Os preços usados neste exemplo abaixo são hipotéticos e não pretendem implicar preços reais exatos. Os custos de leitura/gravação e monitoramento não são mostrados, pois normalmente são insignificantes e não afetam significativamente os custos gerais. As execuções de atividade também são arredondadas para os 1000 mais próximos nas estimativas da calculadora de preços.

Nota

Esta estimativa é apenas para os custos do Azure Data Factory envolvidos. No entanto, o Azure Databricks também incorrerá em custos nesse cenário, que você pode estimar usando a Calculadora de Preços do Azure.

Consulte a Calculadora de Preços do Azure para cenários mais específicos e para estimar seus custos futuros para usar o serviço.

Configuração

Para realizar o cenário, você precisa criar um pipeline com os seguintes itens:

  • Uma atividade de cópia com um conjunto de dados de entrada para os dados a serem copiados do AWS S3 e um conjunto de dados de saída para os dados no armazenamento do Azure.
  • Uma atividade do Azure Databricks para a transformação de dados.
  • Um gatilho de agendamento para executar o pipeline a cada hora. Quando quiser executar um pipeline, você pode acioná-lo imediatamente ou agendá-lo. Além do pipeline em si, cada instância de gatilho conta como uma única execução de atividade.

O diagrama mostra um pipeline com um gatilho de agendamento. No pipeline, copie os fluxos de atividade para um conjunto de dados de entrada, um conjunto de dados de saída e uma atividade DataBricks, que é executada no Azure Databricks. O conjunto de dados de entrada flui para um serviço vinculado do AWS S3. O conjunto de dados de saída flui para um serviço vinculado do Armazenamento do Azure.

Estimativa de custos

Operações Tipos e Unidades
Executar pipeline 3 execuções de atividade por execução (1 para execução de gatilho, 2 para execuções de atividade) = 720 execuções de atividade, arredondadas para cima, uma vez que a calculadora só permite incrementos de 1000.
Suposição de dados de cópia: horas DIU por execução = 10 min 10 min \ 60 min * 4 Azure Integration Runtime (configuração DIU padrão = 4) Para obter mais informações sobre unidades de integração de dados e otimização do desempenho da cópia, consulte este artigo
Executar atividade Databricks Suposição: horas de execução externa por execução = 10 min 10 min \ 60 min Execução da atividade de pipeline externo

Exemplo de calculadora de preços

Preço total do cenário por 30 dias: $41.01

Captura de ecrã da calculadora de preços configurada para copiar dados e transformar com o cenário Azure Databricks.