Condividi tramite


Novità e pianificazione di Data Factory in Microsoft Fabric

Importante

I piani di versione descrivono le funzionalità che potrebbero essere state rilasciate o meno. Le sequenze temporali di consegna e le funzionalità proiettate possono cambiare o non essere spedite. Per altre informazioni, vedere Criteri Microsoft.

Data Factory in Microsoft Fabric combina l'integrazione dei dati cittadini e le funzionalità di integrazione dei dati pro in un'unica esperienza di integrazione dei dati moderna. Offre connettività a più di 100 database relazionali e non relazionali, lakehouse, data warehouse, interfacce generiche come API REST, OData e altro ancora.

Flussi di dati: Dataflow Gen2 consente di eseguire trasformazioni di dati su larga scala e supporta varie destinazioni di output che scrivono in database SQL di Azure, Lakehouse, Data Warehouse e altro ancora. L'editor di flussi di dati offre più di 300 trasformazioni, incluse le opzioni basate su intelligenza artificiale, e consente di trasformare facilmente i dati con maggiore flessibilità rispetto a qualsiasi altro strumento. Indipendentemente dal fatto che si estraggano dati da un'origine dati non strutturata, ad esempio una pagina Web o si rimodelli una tabella esistente nell'editor di Power Query, è possibile applicare facilmente l'estrazione dei dati di Power Query in base all'esempio, che usa l'intelligenza artificiale e semplifica il processo.

Pipeline di dati: le pipeline di dati offrono la possibilità di creare flussi di lavoro versatili di orchestrazione dei dati che raggruppano attività come l'estrazione dei dati, il caricamento in archivi dati preferiti, l'esecuzione di notebook, l'esecuzione di script SQL e altro ancora. È possibile creare rapidamente pipeline di dati basate sui metadati che automatizzano attività ripetitive. Ad esempio, il caricamento e l'estrazione di dati da tabelle diverse in un database, l'iterazione di più contenitori in Archiviazione BLOB di Azure e altro ancora. Inoltre, con le pipeline di dati, è possibile accedere ai dati da Microsoft 365, usando il connettore Microsoft Graph Data Connessione ion (MGDC).

Per altre informazioni, vedere la documentazione.

Aree di investimento

Nei prossimi mesi, Data Factory in Microsoft Fabric espanderà le opzioni di connettività e continuerà ad aggiungere alla ricca libreria di trasformazioni e attività della pipeline di dati. Consente inoltre di eseguire la replica dei dati in tempo reale e ad alte prestazioni dai database operativi e di inserire questi dati nel lake per l'analisi.

Funzionalità Sequenza temporale di rilascio stimata
Gestione delle identità dell'origine dati (SPN) Q2 2024
Supporto della pipeline di dati per SparkJobDefinition Q2 2024
Supporto della pipeline di dati per Azure HDinsight Q2 2024
Supporto per richiamare pipeline di dati tra aree di lavoro Q2 2024
Supporto della pipeline di dati per i trigger basati su eventi Q2 2024
Nuovi connettori per l'attività di copia Q2 2024
Flussi di lavoro dei dati: creare pipeline di dati basate su Apache Airflow Q2 2024
Copilot per Data Factory (flusso di dati) Q3 2024
Impostazioni predefinite di staging per la destinazione output di Dataflow Gen 2 Q3 2024
Supporto dell'aggiornamento incrementale in Dataflow Gen2 Q3 2024
Supporto della pipeline di dati per l'interfaccia della riga di comando di DBT Q3 2024
Supporto della pipeline di dati per i processi di Azure Databricks Q3 2024
Copia processo Q3 2024
Copilot per Data Factory (pipeline di dati) Q3 2024
Notifiche di posta elettronica migliorate per gli errori di aggiornamento Q3 2024
Inserimento parallelo basato su partizioni di flussi di dati gen2 Q3 2024
Gestione delle identità dell'origine dati (identità gestita) Q3 2024
Gestione delle identità dell'origine dati (Azure Key Vault) Q3 2024
Consentire ai clienti di parametrizzare le connessioni Q4 2024
Annullare il supporto per l'aggiornamento in Dataflow Gen2 Spedito (Q4 2023)
Miglioramenti dell'esperienza dati (Esplorare le risorse di Azure) Spedito (Q1 2024)
Supporto del gateway dati locale (OPDG) aggiunto alle pipeline di dati Spedito (Q1 2024)
Supporto di Copia rapida in Dataflow Gen2 Spedito (Q1 2024)
Integrazione Git di Data Factory per le pipeline di dati Spedito (Q1 2024)
Miglioramenti alle destinazioni di output in Dataflow Gen2 (schema di query) Spedito (Q1 2024)

Gestione delle identità dell'origine dati (SPN)

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: disponibilità generale

Entità servizio: per accedere alle risorse protette da un tenant di Azure AD, l'entità che richiede l'accesso deve essere rappresentata da un'entità di sicurezza. Sarà possibile connettersi alle origini dati con l'entità servizio.

Supporto della pipeline di dati per SparkJobDefinition

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: disponibilità generale

È ora possibile eseguire il codice Spark, inclusi i file JAR, direttamente da un'attività della pipeline. È sufficiente puntare al codice Spark e la pipeline eseguirà il processo nel cluster Spark in Fabric. Questa nuova attività consente modelli interessanti del flusso di lavoro dei dati che sfruttano la potenza del motore Spark di Fabric, includendo anche il flusso di controllo di Data Factory e le funzionalità del flusso di dati nella stessa pipeline dei processi Spark.

Supporto della pipeline di dati per Azure HDinsight

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: disponibilità generale

HD Insight è il servizio PaaS di Azure per Hadoop che consente agli sviluppatori di creare soluzioni Big Data molto potenti nel cloud. La nuova attività della pipeline HDI abiliterà le attività del processo HDInsights all'interno delle pipeline di dati di Data Factory in modo simile alla funcationalità esistente creata per anni nelle pipeline di Azure Data Factory e Synapse. Questa funzionalità è stata ora portata direttamente nelle pipeline di dati di Fabric.

Supporto per richiamare pipeline di dati tra aree di lavoro

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: anteprima pubblica

Richiamare l'aggiornamento dell'attività Pipelines: vengono abilitati alcuni aggiornamenti nuovi ed interessanti per l'attività Invoke Pipeline. In risposta a richieste di clienti e community inconsapevolanti, è possibile eseguire pipeline di dati tra aree di lavoro. Sarà ora possibile richiamare le pipeline da altre aree di lavoro a cui si ha accesso per l'esecuzione. Ciò consentirà modelli di flusso di lavoro di dati molto interessanti che possono usare la collaborazione dei team di progettazione dei dati e integrazione tra aree di lavoro e tra team funzionali.

Supporto della pipeline di dati per i trigger basati su eventi

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: anteprima pubblica

Un caso d'uso comune per richiamare le pipeline di dati di Data Factory consiste nell'attivare la pipeline in caso di eventi di file come l'arrivo e l'eliminazione di file. Per i clienti provenienti da ADF o Synapse a Fabric, l'uso di eventi di archiviazione ADLS/Blog è molto comune come modo per segnalare una nuova esecuzione della pipeline o per acquisire i nomi dei file creati. I trigger in Fabric Data Factory sfruttano le funzionalità della piattaforma Fabric, inclusi i trigger Event Flussi e Reflex. All'interno dell'area di disegno della pipeline di Fabric Data Factory è disponibile un pulsante Trigger che è possibile premere per creare un trigger Reflex per la pipeline oppure creare il trigger direttamente dall'esperienza Data Activator.

Nuovi connettori per l'attività di copia

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: anteprima pubblica

Verranno aggiunti nuovi connettori per attività Copy per consentire ai clienti di inserire dalle origini seguenti, sfruttando al tempo stesso la pipeline di dati: Oracle, MySQL, Azure My database SQL, Ricerca di intelligenza artificiale di Azure, File di Azure, Dynamics AX, File di Azure, Google BigQuery.

Flussi di lavoro dei dati: creare pipeline di dati basate su Apache Airflow

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: anteprima pubblica

I flussi di lavoro dei dati sono basati su Apache Airflow e offrono un ambiente di runtime Apache Airflow integrato, consentendo di creare, eseguire e pianificare facilmente i dag Python.

Copilot per Data Factory (flusso di dati)

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: disponibilità generale

Copilot per Data Factory (Flusso di dati) consente ai clienti di esprimere i propri requisiti usando il linguaggio naturale durante la creazione di soluzioni di integrazione dei dati con Dataflows Gen2.

Impostazioni predefinite di staging per la destinazione output di Dataflow Gen 2

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Dataflow Gen2 offre funzionalità per l'inserimento di dati da un'ampia gamma di origini dati in Fabric OneLake. Quando si esegue lo staging di questi dati, è possibile trasformarli su larga scala sfruttando il motore Dataflows Gen2 a scalabilità elevata (basato sul calcolo SQL Fabric Lakehouse/Warehouse).

Il comportamento predefinito per Dataflows Gen2 consiste nell'eseguire il staging dei dati in OneLake per abilitare trasformazioni dei dati su larga scala. Anche se questa soluzione è ideale per gli scenari su larga scala, non funziona anche per gli scenari che coinvolgono piccole quantità di dati inseriti, dato che introduce un hop aggiuntivo (staging) per i dati prima che vengano caricati nella destinazione di output del flusso di dati.

Con i miglioramenti pianificati, si sta ottimizzando il comportamento di gestione temporanea predefinito da disabilitare, per le query con una destinazione di output che non richiede la gestione temporanea (vale a dire Fabric Lakehouse e database SQL di Azure).

Il comportamento di gestione temporanea può essere configurato manualmente in base alle query tramite il riquadro Query Impostazioni o il menu contestuale query nel riquadro Query.

Supporto dell'aggiornamento incrementale in Dataflow Gen2

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Verrà aggiunto il supporto per l'aggiornamento incrementale in Dataflow Gen2. Questa funzionalità consente di estrarre in modo incrementale i dati dalle origini dati, applicare trasformazioni di Power Query e caricare in varie destinazioni di output.

Supporto della pipeline di dati per l'interfaccia della riga di comando di DBT

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Orchestrazione dell'interfaccia della riga di comando di DBT (Strumento di compilazione dei dati): incorpora lo strumento di compilazione dei dati (dbt) per i flussi di lavoro di trasformazione dei dati.

Supporto della pipeline di dati per i processi di Azure Databricks

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Le attività di Azure Databricks vengono aggiornate per l'aggiornamento delle pipeline di dati di Data Factory per usare ora l'API dei processi più recente, consentendo funzionalità interessanti del flusso di lavoro, ad esempio l'esecuzione di processi DLT.

Copia processo

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Il processo di copia semplifica l'esperienza per i clienti che devono inserire dati, senza dover creare un flusso di dati o una pipeline di dati. Il processo di copia supporta la copia completa e incrementale da qualsiasi origine dati a qualsiasi destinazioni dati.

Copilot per Data Factory (pipeline di dati)

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Copilot per Data Factory (pipeline di dati) consente ai clienti di creare pipeline di dati usando il linguaggio naturale e fornisce indicazioni per la risoluzione dei problemi.

Notifiche di posta elettronica migliorate per gli errori di aggiornamento

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Le notifiche di posta elettronica consentono agli autori di Dataflow Gen2 di monitorare i risultati (esito positivo/negativo) dell'operazione di aggiornamento di un flusso di dati.

Inserimento parallelo basato su partizioni di flussi di dati gen2

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Attualmente, Flussi di dati Gen2 contenenti query su un'origine dati che supporta le partizioni aggiorneranno le partizioni all'interno di tali query in sequenza. Un esempio di questo comportamento è una query in esecuzione su una cartella e l'inserimento di tutti i file all'interno della cartella , quindi l'analisi in tabelle, la combinazione in una singola tabella e così via.

Con i miglioramenti pianificati, stiamo ottimizzando l'orchestrazione di tali query in modo che l'elaborazione di ognuna delle partizioni di origine possa essere eseguita in parallelo. Questa ottimizzazione può comportare una riduzione significativa delle durate complessive dell'esecuzione del flusso di dati.

Gestione delle identità dell'origine dati (identità gestita)

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Ciò consente di configurare l'identità gestita a livello di area di lavoro. È possibile usare le identità gestite di Fabric per connettersi all'origine dati in modo sicuro.

Gestione delle identità dell'origine dati (Azure Key Vault)

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Supporto per Azure Key Vault: è possibile archiviare le chiavi e i segreti in Azure Key Vault e connettersi. In questo modo, è possibile gestire le chiavi in un'unica posizione.

Consentire ai clienti di parametrizzare le connessioni

Sequenza temporale di rilascio stimata: Q4 2024

Tipo di versione: anteprima pubblica

Connessione ions forniscono un framework comune per definire la connettività e l'autenticazione per gli archivi dati. Queste connessioni possono essere condivise tra elementi diversi. Con il supporto per la parametrizzazione, sarà possibile creare pipeline complesse e riutilizzabili, notebook, flussi di dati e altri tipi di elementi.

Funzionalità spedite

Annullare il supporto per l'aggiornamento in Dataflow Gen2

Spedito (Q4 2023)

Tipo di versione: anteprima pubblica

È in corso l'aggiunta del supporto per annullare gli aggiornamenti continui di Dataflow Gen2 dalla visualizzazione elementi dell'area di lavoro.

Miglioramenti dell'esperienza dati (Esplorare le risorse di Azure)

Spedito (Q1 2024)

Tipo di versione: anteprima pubblica

L'esplorazione delle risorse di Azure offre una navigazione semplice per esplorare le risorse di Azure. È possibile esplorare facilmente le sottoscrizioni di Azure e connettersi alle origini dati tramite un'interfaccia utente intuitiva. Consente di trovare e connettersi rapidamente ai dati necessari.

Supporto del gateway dati locale (OPDG) aggiunto alle pipeline di dati

Spedito (Q1 2024)

Tipo di versione: anteprima pubblica

Questa funzionalità consente alle pipeline di dati di usare i gateway dati di Fabric per accedere ai dati locali e dietro una rete virtuale. Per gli utenti che usano runtime di integrazione self-hosted , potranno passare ai gateway dati locali in Fabric.

Supporto di Copia rapida in Dataflow Gen2

Spedito (Q1 2024)

Tipo di versione: anteprima pubblica

È in corso l'aggiunta del supporto per l'inserimento di dati su larga scala direttamente nell'esperienza Dataflow Gen2, usando la funzionalità attività di copia delle pipeline. Ciò supporta origini quali file database SQL di Azure, CSV e Parquet in Azure Data Lake Archiviazione e blob Archiviazione.

Questo miglioramento aumenta significativamente la capacità di elaborazione dati di Dataflow Gen2 offrendo funzionalità ELT (Extract-Load-Transform) a scalabilità elevata.

Integrazione Git di Data Factory per le pipeline di dati

Spedito (Q1 2024)

Tipo di versione: anteprima pubblica

È possibile connettersi al repository Git per sviluppare pipeline di dati in modo collaborativo. L'integrazione delle pipeline di dati con la funzionalità Application Lifecycle Management (ALM) della piattaforma Fabric consente il controllo della versione, la diramazione, i commit e le richieste pull della piattaforma Fabric.

Miglioramenti alle destinazioni di output in Dataflow Gen2 (schema di query)

Spedito (Q1 2024)

Tipo di versione: anteprima pubblica

Stiamo migliorando le destinazioni di output in Dataflow Gen2 con le funzionalità altamente richieste seguenti:

  • Possibilità di gestire le modifiche dello schema di query dopo la configurazione di una destinazione di output.
  • Impostazioni di destinazione predefinite per accelerare la creazione dei flussi di dati.

Per altre informazioni, vedere Destinazioni dati e impostazioni gestite di Dataflow Gen2