Condividi tramite


Domande frequenti su Azure Data Factory

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

Questo articolo risponde ad alcune domande frequenti su Azure Data Factory.

Che cos'è Azure Data Factory?

Data Factory è un servizio ETL per l'integrazione dei dati completamente gestito e basato sul cloud che automatizza lo spostamento e la trasformazione dei dati. Analogamente a quanto avviene in uno stabilimento di produzione, in cui vengono usate attrezzature per trasformare le materie prime in prodotti finiti, Azure Data Factory orchestra i servizi esistenti che raccolgono i dati non elaborati e li trasforma in informazioni pronte per l'uso.

Usando Azure Data Factory, è possibile creare flussi di lavoro basati sui dati per spostare i dati tra archivi dati locali e cloud. Consente anche di elaborare e trasformare i dati con i flussi di dati. Azure Data Factory supporta inoltre motori di calcolo esterni per trasformazioni codificate manualmente usando servizi di calcolo come Azure HDInsight, Azure Databricks e il runtime di integrazione di SQL Server Integration Services (SSIS).

Con Data Factory, è possibile eseguire l'elaborazione dei dati in un servizio cloud basato su Azure oppure nell'ambiente di calcolo self-hosted, ad esempio SSIS, SQL Server o Oracle. Dopo aver creato una pipeline che esegue l'azione necessaria è possibile pianificarne l'esecuzione periodica (ad esempio, ogni ora, giorno o settimana), l'esecuzione in base a intervalli di tempo o l'attivazione al verificarsi di un evento. Per altre informazioni, vedere l'introduzione ad Azure Data Factory.

Considerazioni sulla conformità e sulla sicurezza

Azure Data Factory ha ottenuto diverse certificazioni di conformità, tra cui SOC 1, 2, 3, HIPAA BAA e HITRUST. L'elenco completo delle certificazioni (in continua espansione) è disponibile qui. Le copie digitali dei report di controllo e delle certificazioni di conformità sono disponibili in Service Trust Center

Flussi di controllo e scalabilità

Per supportare i diversi flussi di integrazione e modelli nel data warehouse moderno Data Factory consente la modellazione flessibile della pipeline di dati. Questo comporta paradigmi di programmazione del flusso di controllo completi, con l'esecuzione condizionale, la diramazione nelle pipeline di dati e la possibilità di trasferire in modo esplicito i parametri all'interno di questi flussi e tra un flusso e l'altro. Il flusso di controllo consente anche la trasformazione dei dati attraverso l'invio di attività a motori di esecuzione esterni e attraverso funzionalità di gestione dei flussi di dati, incluso lo spostamento dati su larga scala, tramite l'attività Copy.

Data Factory consente di modellare liberamente qualsiasi stile di flusso che risulta necessario per l'integrazione dei dati e che può essere inviato su richiesta o ripetutamente in una pianificazione. Di seguito sono riportati alcuni dei flussi comuni abilitati:

  • Flussi di controllo:
    • Le attività si possono concatenare tra loro, in sequenza, all'interno di una pipeline.
    • Le attività si possono ramificare all'interno di una pipeline.
    • Parametri
      • È possibile definire parametri a livello di pipeline e trasferire argomenti quando si richiama la pipeline su richiesta o mediante trigger.
      • Le attività possono utilizzare gli argomenti passati alla pipeline.
    • Passaggio di stato personalizzato:
      • Gli output delle attività, tra cui lo stato, possono essere usati da un'attività successiva nella pipeline.
    • Contenitori dei cicli:
      • L'attività foreach eseguirà un'iterazione su una raccolta specificata di attività in un ciclo.
  • Flussi attivati da trigger:
    • Le pipeline si possono attivare su richiesta, a orari prestabiliti, o in risposta agli argomenti della Griglia di eventi
  • Flussi delta:
    • Si possono usare i parametri per definire il limite massimo per la copia delta durante lo spostamento delle tabelle delle dimensioni o di riferimento da un archivio relazionale in locale o nel cloud per caricare i dati nel lake.

Per altre informazioni, vedere Esercitazione: Flussi di controllo.

Dati trasformati su larga scala con pipeline senza codice

I nuovi strumenti basati su browser forniscono funzionalità di creazione e distribuzione di pipeline senza codice offrendo un'esperienza moderna e interattiva basata sul Web.

Per gli sviluppatori di dati visivi e i data engineer, l'interfaccia utente di Data Factory sul Web è l'ambiente di progettazione senza codice da usare per compilare le pipeline. È completamente integrata in Visual Studio Codespace Git, l'interfaccia fornisce l'integrazione per CI/CD e lo sviluppo iterativo con opzioni di debug.

SDK multipiattaforma avanzati per utenti esperti

Data Factory V2 mette a disposizione una serie completa di SDK che si possono usare per creare, gestire e monitorare le pipeline usando l'IDE preferito, tra cui:

  • Python SDK
  • Interfaccia della riga di comando (CLI) di PowerShell
  • SDK per C#

Gli utenti possono anche usare le API REST documentate come interfaccia per interagire con Data Factory V2.

Sviluppo iterativo e debug mediante strumenti visivi

Gli strumenti visivi di Azure Data Factory consentono lo sviluppo iterativo e le attività di debug. È possibile creare le proprie pipeline ed eseguire dei test usando la funzionalità Debug nel pannello Canvas della pipeline senza dover scrivere codice. Si possono visualizzare i risultati dell'esecuzione dei test nella finestra Output del pannello Canvas della pipeline. Una volta superati i test si possono aggiungere alla pipeline altre attività e continuare il debug in modo iterativo. È anche possibile annullare le esecuzioni dei test mentre sono in corso.

Non è necessario pubblicare le modifiche nel servizio Data Factory prima di selezionare la funzionalità Debug. Questo è utile se si vuole verificare che le aggiunte o modifiche recenti funzionino come previsto prima di aggiornare i flussi di lavoro di Data Factory negli ambienti di sviluppo, test o produzione.

Possibilità di implementare pacchetti SSIS in Azure

Per spostare i carichi di lavoro SSIS, è possibile creare un'istanza di Data Factory ed effettuare il provisioning di un runtime di integrazione SSIS di Azure. Un runtime di integrazione SSIS di Azure (Azure-SSIS Integration Runtime) è un cluster completamente gestito di macchine virtuali (nodi) di Azure dedicate all'esecuzione di pacchetti SSIS nel cloud. Per istruzioni dettagliate, vedere l'esercitazione Distribuire i pacchetti SSIS in Azure.

SDK

Per gli utenti esperti che desiderano un'interfaccia programmatica, Azure Data factory fornisce un esteso set di SDK utilizzabili per creare, gestire o monitorare pipeline tramite l'IDE preferito. Sono supportati, tra gli altri, i linguaggi .NET, PowerShell, Python e REST.

Monitoraggio

È possibile monitorare le istanze di Data Factory tramite PowerShell, SDK o gli strumenti di monitoraggio visivi nell'interfaccia utente del browser. Si possono monitorare e gestire in modo efficiente ed efficace i flussi personalizzati su richiesta, basati su trigger e a orari prestabiliti. È possibile annullare le attività esistenti, visualizzare una sintesi degli errori, eseguire il drill-down per accedere ai messaggi di errore dettagliati ed eseguire il debug degli errori in un unico riquadro, senza dover cambiare contesto o spostarsi tra le schermate.

Nuove funzionalità per SSIS in Data Factory

Dopo la versione di anteprima pubblica iniziale del 2017, in Data Factory sono state introdotte le seguenti funzionalità per SSIS:

  • Supporto di altre tre configurazioni/varianti del database SQL di Azure per ospitare il database SSIS (SSISDB) dei progetti/pacchetti:
  • Database SQL con endpoint del servizio di rete virtuale
  • Istanza gestita di SQL
  • Pool elastico
  • Supporto di una rete virtuale di Azure Resource Manager oltre a una rete virtuale classica che in futuro verrà dismessa, per consentire di inserire/aggiungere il runtime di integrazione SSIS di Azure (Azure-SSIS Integration Runtime) a una rete virtuale configurata per SQL Database con endpoint del servizio di rete virtuale/MI/accesso ai dati i in locale. Per altre informazioni, consultare anche la sezione Aggiungere Azure-SSIS Integration Runtime a una rete virtuale.
  • Supporto dell'autenticazione con Microsoft Entra e l'autenticazione SQL per connettersi a SSISDB, consentendo l'autenticazione di Microsoft Entra con l'identità gestita di Data Factory per le risorse di Azure
  • Supporto dell'introduzione della licenza di SQL Server esistente per significativi risparmi sui costi derivanti dall'opzione Vantaggio Azure Hybrid
  • Supporto della Enterprise Edition del runtime di integrazione SSIS di Azure (Azure-SSIS Integration Runtime) che offre accesso a funzionalità avanzate/premium, a un'interfaccia di installazione personalizzata per installare componenti/estensioni aggiuntivi e a un ecosistema partner. Per ulteriori informazioni, consultare anche la sezione Enterprise Edition, configurazione personalizzata e ed estensione per soluzioni di terzi per SSIS in ADF.
  • Integrazione più approfondita di SSIS in Data Factory, che consente di richiamare/attivare attività di esecuzione dei pacchetti SSIS di prima classe nelle pipeline di Data Factory e di pianificarle tramite SSMS. Per ulteriori informazioni, consultare anche la sezione Modernizzare ed estendere i flussi di lavoro ETL/ELT con attività SSIS nelle pipeline di Azure Data Factory.

Che cos'è un runtime di integrazione?

Il runtime di integrazione è l'infrastruttura di calcolo usata da Azure Data Factory per fornire le seguenti funzionalità di integrazione di dati in diversi ambienti di rete:

  • Spostamento dati: per lo spostamento dati il runtime di integrazione sposta i dati tra gli archivi dati di origine e di destinazione, fornendo al tempo stesso il supporto per connettori predefiniti, conversione di formati, mapping di colonne e trasferimenti di dati efficienti e scalabili.
  • Flusso di dati: per il flusso di dati si esegue un flusso di dati nell'ambiente di calcolo di Azure gestito.
  • Attività di dispatch: per la trasformazione, il runtime di integrazione consente di eseguire in modo nativo pacchetti SSIS.
  • Esecuzione di pacchetti SSIS: il runtime di integrazione esegue in modo nativo i pacchetti SSIS in un ambiente di calcolo gestito di Azure. Il runtime di integrazione supporta anche l'invio e il monitoraggio delle attività di trasformazione in esecuzione in diversi servizi di calcolo, come Azure HDInsight, Azure Machine Learning, database SQL e SQL Server.

Gli utenti possono distribuire una o più istanze del runtime di integrazione in base alle esigenze, per spostare e trasformare i dati. Il runtime di integrazione si può eseguire in una rete pubblica di Azure o in una rete privata (locale, Rete virtuale di Azure o cloud privato virtuale [VPC] di Amazon Web Services). In Data Factory, un'attività definisce l'azione da eseguire. Un servizio collegato definisce un archivio dati o un servizio di calcolo di destinazione. Un runtime di integrazione funge da ponte tra l'attività e i servizi collegati. Vi fa riferimento il servizio o l'attività collegata e fornisce l'ambiente di calcolo da cui l'attività viene eseguita o inviata. In questo modo, l'attività può essere eseguita nell'area più vicina possibile all'archivio dati o al servizio di calcolo di destinazione nel modo più efficiente soddisfacendo al contempo le esigenze di sicurezza e conformità.

I runtime di integrazione si possono creare nell'ambito dell'esperienza utente di Azure Data Factory tramite l'hub di gestione e qualsiasi attività, set di dati o flusso di dati che vi faccia riferimento. Per altre informazioni, vedere il Runtime di integrazione in Azure Data Factory.

Qual è il limite al numero di runtime di integrazione?

Non sono previsti limiti rigidi per il numero di istanze di runtime di integrazione che è possibile avere in una data factory. È stato posto tuttavia un limite al numero di core di VM che il runtime di integrazione può usare per ogni sottoscrizione per l'esecuzione del pacchetto SSIS. Per altre informazioni, vedere Limiti della data factory.

Quali sono i principali concetti su cui si basa Azure Data Factory?

Una sottoscrizione di Azure può includere una o più istanze di Azure Data Factory (o data factory). Azure Data Factory contiene quattro componenti chiave che interagiscono come piattaforma nella quale è possibile comporre flussi di lavoro basati sui dati con passaggi per lo spostamento e la trasformazione dei dati stessi.

Pipeline

Una data factory può comprendere una o più pipeline. Una pipeline è un raggruppamento logico di attività per eseguire un'unità di lavoro, L'insieme delle attività di una pipeline esegue un'operazione. Una pipeline, ad esempio, può contenere un gruppo di attività che inseriscono dati da un BLOB di Azure e quindi eseguono una query Hive in un cluster HDInsight per partizionare i dati. Il vantaggio è che è possibile usare una pipeline per gestire le attività come set invece che singolarmente. È possibile concatenare le attività in una pipeline per usarle in modo sequenziale o indipendentemente in parallelo.

Flussi di dati

I flussi di dati sono oggetti creati visivamente in Data Factory che trasformano i dati su larga scala in servizi back-end di Spark. Non è necessario conoscere la programmazione né gli elementi interni di Spark. È sufficiente progettare la finalità di trasformazione dei dati usando dei grafici (mapping) o dei fogli di calcolo (attività di Power Query).

Attività

Le attività rappresentano un passaggio di elaborazione in una pipeline. È ad esempio possibile usare un'attività di copia per copiare i dati da un archivio dati all'altro. Allo stesso modo, è possibile usare un'attività Hive che esegue una query Hive su un cluster Azure HDInsight per trasformare o analizzare i dati. Data Factory supporta tre tipi di attività: attività di spostamento dei dati, attività di trasformazione dei dati e attività di controllo.

Set di dati

I set di dati rappresentano strutture dei dati all'interno degli archivi dati e fanno semplicemente riferimento ai dati da usare nelle attività come input o output.

Servizi collegati

I servizi collegati sono molto simili a stringhe di connessione e definiscono le informazioni necessarie per la connessione di Data Factory a risorse esterne. In sintesi: un servizio collegato definisce la connessione all'origine dati, mentre un set di dati rappresenta la struttura dei dati. Ad esempio, un servizio collegato di Archiviazione di Azure specifica la stringa per la connessione all'account di archiviazione di Azure. Un set di dati BLOB di Azure specifica il contenitore BLOB e la cartella che contengono i dati.

In Data Factory i servizi collegati hanno due scopi:

  • Per rappresentare un archivio dati contenente, solo a titolo di esempio, un'istanza di SQL Server, un'istanza di database Oracle, una condivisione file o un account di archiviazione BLOB di Azure. Per un elenco di archivi dati supportati, vedere Attività di copia in Azure Data Factory.
  • Per rappresentare una risorsa di calcolo che può ospitare l'esecuzione di un'attività. Ad esempio, l'attività HDInsight Hive viene eseguita in un cluster HDInsight Hadoop. Per un elenco delle attività di trasformazione e degli ambienti di calcolo supportati, vedere Trasformare i dati in Azure Data Factory.

Trigger

I trigger rappresentano unità di elaborazione che determinano quando viene avviata l'esecuzione di una pipeline. Esistono diversi tipi di trigger per i diversi tipi di eventi.

Esecuzioni della pipeline

Un'esecuzione di pipeline è un'istanza dell'esecuzione di una pipeline. In genere si crea un'istanza di un'esecuzione di pipeline passando gli argomenti ai parametri definiti nella pipeline. È possibile passare gli argomenti manualmente o nella definizione di trigger.

Parametri

I parametri sono coppie chiave-valore in una configurazione di sola lettura. Si definiscono i parametri in una pipeline ed è possibile passare gli argomenti per i parametri definiti durante l'esecuzione da un contesto di esecuzione. Il contesto di esecuzione viene creato da un trigger o da una pipeline eseguita manualmente. Le attività all'interno della pipeline usano i valori dei parametri.

Un set di dati è un parametro fortemente tipizzato; è un'entità che si può riutilizzare o alla quale fare riferimento. Un'attività può fare riferimento a dei set di dati e può usare le proprietà contenute nella definizione del set di dati.

Anche un servizio collegato è un parametro fortemente tipizzato contenente le informazioni di connessione a un archivio dati o a un ambiente di calcolo. È anche un'entità che si può riutilizzare o alla quale fare riferimento.

Flussi di controllo

I flussi di controllo orchestrano le attività della pipeline che includono concatenamento di attività in una sequenza, diramazione, parametri definiti a livello di pipeline e argomenti passati quando si richiama la pipeline su richiesta o da un trigger. I flussi di controllo includono anche il passaggio di stati personalizzati e i contenitori dei cicli (iteratori foreach).

Per altre informazioni sui concetti relativi a Data Factory, vedere gli articoli seguenti:

Qual è il modello di prezzi per Data Factory?

Per informazioni dettagliate sui prezzi di Azure Data Factory, vedere Dettagli prezzi di Data Factory.

Come è possibile avere sempre a disposizione le informazioni più aggiornate su Data Factory?

Per le informazioni più aggiornate su Azure Data Factory, andare ai siti seguenti:

Approfondimento tecnico

Quante istanze di Azure Data Factory devo avere?

La risposta a questa domanda dipende dal modello di sicurezza che l'organizzazione ha adottato. Ogni istanza di Data Factory deve essere configurata applicando il principio dell'accesso con privilegi minimi. Potrebbe trattarsi di una situazione in cui un'istanza di Data Factory supporta tutti i carichi di lavoro delle risorse umane e un'altra supporta tutti i dati dell'ufficio finanziario. Ogni istanza di Data Factory ha accesso a diversi servizi collegati e ciascuna può essere supportata da team di sviluppo diversi. Non si cono costi aggiuntivi perché vengono fatturati gli incrementi di calcolo, quindi le stesse 100 pipeline in un'istanza di Data Factory costano quanto le stesse 10 pipeline in 10 istanze di Data Factory.

Come è possibile pianificare una pipeline?

Per pianificare una pipeline, è possibile usare il trigger di pianificazione o quello relativo agli intervalli di tempo. Il trigger si basa su una pianificazione a orari prestabiliti che permette di pianificare le pipeline periodicamente o con una periodicità basata sul calendario (ad esempio, ogni lunedì alle 18:00 e ogni giovedì alle 19:00). Per altre informazioni, vedere Esecuzione e trigger della pipeline.

È possibile passare parametri all'esecuzione di una pipeline?

Sì, i parametri sono un concetto di primo livello e della massima importanza in Data Factory. È possibile definire i parametri a livello di pipeline e passare gli argomenti mentre si esegue la pipeline su richiesta o usando un trigger.

È possibile definire i valori predefiniti per i parametri della pipeline?

Sì. È possibile definire i valori predefiniti per i parametri nelle pipeline.

Un'attività in una pipeline può utilizzare gli argomenti passati a un'esecuzione di pipeline?

Sì. Ogni attività all'interno della pipeline può utilizzare il valore del parametro passato alla pipeline ed eseguito con il costrutto @parameter.

Una proprietà di output di attività può essere utilizzata in un'altra attività?

Sì. È possibile utilizzare un output di attività in un'attività successiva con il costrutto @activity.

Come gestire correttamente i valori null in un output di attività?

È possibile utilizzare il costrutto @coalesce nelle espressioni per gestire correttamente i valori null.

Quante attività della pipeline si possono eseguire contemporaneamente?

Sono consentite fino a 50 attività della pipeline contemporaneamente. La 51ª attività della pipeline verrà accodata fino al momento in cui si libera uno slot. Sono consentite fino a 800 attività esterne contemporaneamente; dopo questo numero verranno accodate nello stesso modo.

Flussi di dati di mapping

Ho bisogno di aiuto per risolvere problemi riguardanti la logica del flusso di dati. Quali informazioni devo fornire per ottenere supporto?

Quando Microsoft fornisce supporto o servizi di risoluzione dei problemi relativi ai flussi di dati, è necessario fornire i file di supporto della pipeline di Azure Data Factory. Questo file in formato Zip contiene lo script del codice sottostante del grafico del flusso dei dati. Nell'interfaccia utente di Azure Data Factory selezionare accanto alla pipeline, quindi selezionare Download file di supporto.

Come posso accedere ai dati usando gli altri 90 tipi di set di dati in Data Factory?

La funzionalità del flusso di dati per mapping attualmente supporta in modo nativo come origine e sink: database SQL di Azure, Azure Synapse Analytics, i file di testo con delimitazioni di Archiviazione BLOB di Azure o Azure Data Lake Storage Gen2 e i file Parquet da archiviazione BLOB o Data Lake Storage Gen2.

Usare l'attività Copy per preparare i dati da qualsiasi altro connettore, quindi eseguire un'attività Flusso di dati per trasformare i dati dopo la gestione temporanea. Ad esempio, prima la pipeline copierà i contenuti nell'archiviazione BLOB, dopodiché un'attività Flusso di dati userà un set di dati nell'origine per trasformare tali dati.

È disponibile il runtime di integrazione self-hosted per i flussi di dati?

Il runtime di integrazione self-hosted è un costrutto di pipeline di Azure Data Factory utilizzabile con l'attività Copy per acquisire o spostare dati da e verso origini e sink dei dati in locale o basate su VM. Le macchine virtuali usate per i runtime di integrazione self-hosted possono anche essere inserite nella stessa rete virtuale (VNET) degli archivi dati protetti, per l'accesso a tali archivi dati da Azure Data Factory. Con i flussi di dati si otterranno gli stessi risultati finali usando il runtime di integrazione di Azure con la rete virtuale gestita (VNET).

Il motore di calcolo del flusso di dati serve più di un tenant?

I cluster non vengono mai condivisi. Garantiamo l'isolamento per l'esecuzione di ogni processo nelle esecuzioni di produzione. In uno scenario di debug, una persona ottiene un cluster e tutti i debug verranno inseriti in tale cluster e saranno avviati dall'utente.

C'è un modo per scrivere attributi in Cosmos DB nello stesso ordine specificato nel sink nel flusso di dati di Azure Data Factory?

Per Cosmos DB, il formato sottostante di ogni documento è un oggetto JSON costituito da un set non ordinato di coppie nome/valore, quindi l'ordine non può essere riservato.

Perché un utente non può usare l'anteprima dei dati nei flussi di dati?

È consigliabile controllare le autorizzazioni per ogni ruolo personalizzato. Sono diverse le azioni coinvolte nell'anteprima dei dati del flusso di dati. Per iniziare si controlla il traffico di rete durante il debug nel browser. Per informazioni dettagliate, consultare la sezione Provider di risorse.

È possibile calcolare in Azure Data Factory il valore di una nuova colonna partendo dalla colonna esistente dal mapping?

Si può usare una trasformazione Deriva nel flusso di dati per mapping per creare una nuova colonna nella logica desiderata. Quando si crea una colonna derivata è possibile generare una nuova colonna o aggiornare una colonna esistente. Nella casella di testo Colonna, immettere la colonna che si sta creando. Per eseguire l'override di una colonna esistente nello schema è possibile usare l'elenco a discesa delle colonne. Per compilare l'espressione della colonna derivata, selezionare la casella di testo Immettere espressione. Si può iniziare a digitare l'espressione o aprire il generatore di espressioni per costruire la logica.

Perché l'anteprima del flusso di dati per mapping ha esito negativo con un timeout del gateway?

Provare a usare un cluster più grande e sfruttare i limiti di riga nelle impostazioni di debug, per ridurre le dimensioni dell'output del debug.

Come posso parametrizzare il nome della colonna nel flusso di dati?

Il nome della colonna si può parametrizzare analogamente alle altre proprietà. Come per la colonna derivata, il cliente può usare $ColumnNameParam = toString(byName($myColumnNameParamInData)). Questi parametri si possono trasferire dall'esecuzione della pipeline ai flussi di dati.

Avviso del flusso di dati su TTL e costi

Questo documento dedicato alla risoluzione dei problemi può essere utile per risolvere i problemi: Guida alle prestazioni e all'ottimizzazione dei flussi di dati di mapping - Tempo di vita.

Data wrangling di Power Query

Quali sono le regioni supportate per il data wrangling?

Data Factory è disponibile nelle seguenti regioni. La funzionalità Power Query è disponibile in tutte le regioni dei flussi di dati. Se la funzionalità non è disponibile nella propria regione, contattare il supporto tecnico.

Qual è la differenza tra il flusso di dati per mapping e l'attività di Power Query (data wrangling)?

I flussi di dati di mapping in Azure Data Factory consentono di trasformare i dati su larga scala senza dover scrivere codice. È possibile progettare un processo di trasformazione dati nella finestra di progettazione del flusso dei dati elaborando una serie di trasformazioni. Iniziare con un numero qualsiasi di trasformazioni di origine seguite da passaggi di trasformazione dei dati. Completare il flusso di dati con un sink per trasferire i risultati a una destinazione. Il flusso di dati per mapping è ottimo per il mapping e la trasformazione dei dati con schemi noti e sconosciuti nei sink e nelle origini.

In Power Query, la funzione di data wrangling consente di eseguire agili operazioni di preparazione ed esplorazione dei dati usando l'editor mashup di Power Query Online su larga scala tramite l'esecuzione di Spark. Con l'aumento dei data lake, a volte è sufficiente esplorare un set di dati o creare un set di dati nel lake. Non si eseguirà il mapping a una destinazione nota.

Tipi di SQL supportati

La funzione di data wrangling di Power Query supporta i seguenti tipi di dati in SQL. Verrà visualizzato un errore di convalida per l'utilizzo di un tipo di dati non supportato.

  • short
  • double
  • real
  • float
  • char
  • nchar
  • varchar
  • nvarchar
  • integer
  • int
  • bit
  • boolean
  • smallint
  • tinyint
  • bigint
  • long
  • Testo
  • data
  • datetime
  • datetime2
  • smalldatetime
  • timestamp
  • uniqueidentifier
  • xml

Per istruzioni dettagliate per la creazione di una data factory, vedere le esercitazioni seguenti: