Condividi tramite


Copiare i dati e trasformarli con parametri dinamici ogni ora

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

In questo scenario si vogliono copiare dati da AWS S3 all'archiviazione BLOB di Azure e trasformarli con Azure Databricks (con parametri dinamici nello script) in base a una pianificazione oraria per 8 ore ogni giorno su 30 giorni.

I prezzi utilizzati in questo esempio di seguito sono ipotetici e non sono destinati a implicare prezzi effettivi esatti. I costi di lettura/scrittura e monitoraggio non vengono visualizzati perché in genere sono trascurabili e non influiscono in modo significativo sui costi complessivi. Le esecuzioni di attività vengono arrotondate anche ai 1000 più vicini nelle stime del calcolatore dei prezzi.

Fare riferimento al Calcolatore prezzi di Azure per scenari più specifici e per stimare i costi futuri per l'uso del servizio.

Configurazione

Per eseguire lo scenario è necessario creare una pipeline con gli elementi seguenti:

  • Una sola attività di copia con un set di dati di input per i dati da copiare da AWS S3 e un set di dati di output per i dati in Archiviazione di Azure.
  • Una sola attività di ricerca per passare i parametri in modo dinamico allo script di trasformazione.
  • Una sola attività di Azure Databricks per la trasformazione dei dati.
  • Un trigger di pianificazione per eseguire la pipeline ogni ora per 8 ore al giorno. Quando si vuole eseguire una pipeline, è possibile attivarla immediatamente o pianificarla. Oltre alla pipeline stessa, ogni istanza del trigger viene conteggiato come singola esecuzione dell'attività.

Diagram shows a pipeline with a schedule trigger. In the pipeline, copy activity flows to an input dataset, an output dataset, and lookup activity that flows to a DataBricks activity, which runs on Azure Databricks. The input dataset flows to an AWS S3 linked service. The output dataset flows to an Azure Storage linked service.

Stima dei costi

Operazioni Tipi e unità
Eseguire la pipeline 4 Esecuzioni di attività per esecuzione (1 per l'esecuzione del trigger, 3 per le esecuzioni di attività) = 960 esecuzioni di attività, arrotondate per esaurire poiché il calcolatore consente solo incrementi di 1000.
Presupposto copia dati: ore DIU per esecuzione = 10 min 10 min \ 60 min * 4 Runtime di integrazione di Azure (impostazione predefinita DIU = 4) Per altre informazioni sulle unità di integrazione dei dati e sull'ottimizzazione delle prestazioni della copia, vedere questo articolo
Presupposto dell'attività Esegui ricerca: ore di attività della pipeline per esecuzione = 1 min 1 min/ 60 min esecuzione dell'attività della pipeline
Presupposto dell'attività Execute Databricks: external execution hours per execution = 10 min 10 min / 60 min Esecuzione dell'attività della pipeline esterna

Esempio di prezzi: Esempio di calcolatore prezzi

Prezzi totali dello scenario per 30 giorni: $ 41,03

Screenshot of the pricing calculator configured for a copy data and transform with dynamic parameters scenario.