Comprendere Azure Data Factory

Completato

La necessità di attivare lo spostamento dei dati in batch o di configurare una pianificazione regolare è un requisito per la maggior parte delle soluzioni di analisi. Azure Data Factory è il servizio che può essere usato per soddisfare questo requisito. Azure Data Factory fornisce un servizio di integrazione dei dati basato sul cloud che orchestra lo spostamento e la trasformazione dei dati tra diversi archivi dati e risorse di calcolo.

Azure Data Factory è il servizio di integrazione dati ed ETL basato sul cloud che consente di creare flussi di lavoro basati sui dati per orchestrare lo spostamento dei dati e trasformare i dati su larga scala. Con Azure Data Factory è possibile creare e pianificare flussi di lavoro basati sui dati (denominati "pipeline") per l'inserimento di dati da archivi dati diversi. È possibile compilare processi ETL complessi che trasformano i dati visivamente con flussi di dati o usando servizi di calcolo come Azure HDInsight Hadoop, Azure Databricks e Azure Synapse Analytics.

Gran parte delle funzionalità di Azure Data Factory sono presenti in Azure Synapse Analytics come funzionalità denominate pipeline, per integrare le pipeline di dati tra pool SQL, pool Spark e SQL Serverless, offrendo un'unica opzione di acquisto per tutte le esigenze analitiche.

Cosa si intende per orchestrazione

Per usare un'analogia, pensare a un'orchestra sinfonica. Il direttore è il membro centrale dell'orchestra. Il direttore non suona gli strumenti, ma semplicemente dirige i membri dell'orchestra per l'intero concerto. I musicisti usano le proprie competenze per produrre suoni particolari in varie fasi della sinfonia, quindi possono apprendere solo determinate parti della musica. Il direttore orchestra l'intero concerto e pertanto conosce tutta la sinfonia eseguita. Userà anche movimenti specifici delle braccia per fornire istruzioni ai musicisti su come eseguire la sinfonia.

Azure Data Factory può usare un approccio simile. Anche se ha funzionalità native per l'inserimento e la trasformazione dei dati, a volte richiede a un altro servizio di eseguire l'attività effettiva per proprio conto, ad esempio Databricks per eseguire una query di trasformazione. Quindi, in questo caso, sarà Databricks a eseguire l'attività, non Azure Data Factory. Azure Data Factory orchestra semplicemente l'esecuzione della query e quindi fornisce le pipeline per spostare i dati nel passaggio o nella destinazione successivi.

Offre anche viste avanzate per visualizzare la derivazione e le dipendenze tra le pipeline di dati e monitorare tutte le pipeline di dati da una singola visualizzazione unificata per individuare facilmente i problemi e configurare avvisi di monitoraggio.

Data Factory platform