Che cos'è il wrangling dei dati?

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

Le organizzazioni devono avere la possibilità di esplorare i dati aziendali critici per la preparazione e il wrangling dei dati per fornire un'analisi accurata dei dati complessi che continuano a crescere ogni giorno. La preparazione dei dati è necessaria in modo che le organizzazioni possano usare i dati in vari processi aziendali e ridurre il tempo a valore.

Data Factory consente di preparare i dati senza codice a livello di cloud in modo iterativo usando Power Query. Data Factory si integra con Power Query Online e rende disponibili le funzioni M di Power Query come attività della pipeline.

Data Factory converte M generato dall'editor mashup online di Power Query in codice Spark per l'esecuzione su scala cloud convertendo M in Flusso di dati di Azure Data Factory. I dati di Wrangling con Power Query e i flussi di dati sono particolarmente utili per i data engineer o per gli "integratori di dati cittadini".

Utilizzare casi

Esplorazione e preparazione rapida dei dati interattivi

Più data engineer e integratori di dati cittadini possono esplorare e preparare in modo interattivo set di dati su larga scala. Con l'aumento del volume, della varietà e della velocità dei dati nei data lake, gli utenti hanno bisogno di un modo efficace per esplorare e preparare set di dati. Ad esempio, potrebbe essere necessario creare un set di dati con tutte le informazioni demografiche dei clienti per i nuovi clienti dal 2017. Non si esegue il mapping a una destinazione nota. Si stanno esplorando, wrangling e prepping dei set di dati per soddisfare un requisito prima di pubblicarlo nel lago. Wrangling viene spesso usato per scenari di analisi meno formali. I set di dati pre-compressi possono essere usati per eseguire trasformazioni e operazioni di Machine Learning downstream.

Preparazione dei dati agile senza codice

Gli integratori di dati cittadini dedicano più del 60% del tempo alla ricerca e alla preparazione dei dati. Stanno cercando di farlo in modo gratuito per migliorare la produttività operativa. Consentire agli integratori di dati dei cittadini di arricchire, modellare e pubblicare dati usando strumenti noti come Power Query Online in modo scalabile migliora drasticamente la produttività. Wrangling in Azure Data Factory consente all'editor mashup di Power Query Online familiare di consentire agli integratori di dati cittadini di correggere rapidamente gli errori, standardizzare i dati e produrre dati di alta qualità per supportare le decisioni aziendali.

Convalida ed esplorazione dei dati

Analizzare visivamente i dati in modo privo di codice per rimuovere eventuali outlier, anomalie e conformarli a una forma per l'analisi rapida.

Origini supportate

Connettore Formato dati Tipo di autenticazione
Archiviazione BLOB di Azure CSV, Parquet, Excel Chiave dell'account, entità servizio, IDENTITÀ del servizio gestito
Azure Data Lake Storage Gen1 CSV, Parquet, Excel Entità servizio, IDENTITÀ del servizio gestito
Azure Data Lake Storage Gen2 CSV, Parquet, Excel Chiave dell'account, entità servizio, IDENTITÀ del servizio gestito
Database SQL di Microsoft Azure - Autenticazione SQL, IDENTITÀ del servizio gestito, entità servizio
Azure Synapse Analytics - Autenticazione SQL, IDENTITÀ del servizio gestito, entità servizio

Editor mashup

Quando si crea un'attività di Power Query, tutti i set di dati di origine diventano query del set di dati e vengono inseriti nella cartella ADFResource . Per impostazione predefinita, UserQuery punterà alla prima query del set di dati. Tutte le trasformazioni devono essere eseguite in UserQuery perché le modifiche alle query del set di dati non sono supportate né verranno mantenute. La ridenominazione, l'aggiunta e l'eliminazione di query non sono attualmente supportate.

Wrangling

Attualmente non tutte le funzioni M di Power Query sono supportate per il wrangling dei dati nonostante siano disponibili durante la creazione. Durante la compilazione delle attività di Power Query, verrà visualizzato il messaggio di errore seguente se una funzione non è supportata:

The Power Query Spark Runtime does not support the function

Per altre informazioni sulle trasformazioni supportate, vedere Funzioni di wrangling dei dati di Power Query.

Informazioni su come creare un mash-up di Power Query per i dati.