Novità e pianificazione di Synapse Ingegneria dei dati in Microsoft Fabric

Articolo
05/22/2024

Importante

I piani di versione descrivono le funzionalità che potrebbero essere state rilasciate o meno. Le sequenze temporali di consegna e le funzionalità proiettate possono cambiare o non essere spedite. Per altre informazioni, vedere Criteri Microsoft.

Synapse Ingegneria dei dati consente ai data engineer di poter trasformare i dati su larga scala usando Spark e creare l'architettura lakehouse.

Lakehouse per tutti i dati aziendali: il lakehouse combina il meglio del data lake e del data warehouse in un'unica esperienza. Consente agli utenti di inserire, preparare e condividere i dati dell'organizzazione in un formato aperto nel lake. In seguito è possibile accedervi tramite più motori, ad esempio Spark, T-SQL e Power BI. Offre diverse opzioni di integrazione dei dati, ad esempio flussi di dati e pipeline, collegamenti a origini dati esterne e funzionalità di condivisione dei prodotti dati.

Motore Spark e runtime con prestazioni elevate: la progettazione di Synapse Data offre ai clienti un runtime Spark ottimizzato con le versioni più recenti di Spark, Delta e Python. Usa Delta Lake come formato di tabella comune per tutti i motori, consentendo una semplice condivisione dei dati e la creazione di report senza spostamento dei dati. Il runtime include ottimizzazioni spark, migliorando le prestazioni delle query senza alcuna configurazione. Offre anche pool di avvio e modalità di concorrenza elevata per velocizzare e riutilizzare le sessioni Spark, risparmiando tempo e costi.

Spark Amministrazione e configurazioni: gli amministratori dell'area di lavoro con autorizzazioni appropriate possono creare e configurare pool personalizzati per ottimizzare le prestazioni e i costi dei carichi di lavoro Spark. Gli autori possono configurare gli ambienti per installare librerie, selezionare la versione di runtime e impostare le proprietà di Spark per i notebook e i processi Spark.

Esperienza sviluppatore: gli sviluppatori possono usare notebook, processi Spark o l'IDE preferito per creare ed eseguire codice Spark in Fabric. Possono accedere in modo nativo ai dati lakehouse, collaborare con altri utenti, installare librerie, tenere traccia della cronologia, eseguire il monitoraggio in linea e ottenere consigli da Spark Advisor. Possono anche usare Data Wrangler per preparare facilmente i dati con un'interfaccia utente con poco codice.

Integrazione della piattaforma: tutti gli elementi di progettazione dei dati di Synapse, inclusi notebook, processi Spark, ambienti e lakehouse, sono integrati profondamente nella piattaforma Fabric (funzionalità di gestione delle informazioni aziendali, derivazione, etichette di riservatezza e approvazioni).

Aree di investimento

Funzionalità	Sequenza temporale di rilascio stimata
API dati per GraphQL in Fabric	Q2 2024
Motore di esecuzione nativo Spark	Q2 2024
Creare e collegare ambienti	Q2 2024
Concorrenza elevata nelle pipeline	Q2 2024
Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse	Q2 2024
Funzioni dati utente in Fabric	Q3 2024
Estensione VSCode Core per Fabric	Q3 2024
Estensione satellite VSCode per funzioni dati utente in Fabric	Q3 2024
VS Code per il Web - Supporto del debug	Q3 2024
Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse	Q3 2024
Spark Connessione or per Fabric Data Warehouse	Q3 2024
API di monitoraggio pubblico	Q4 2024
Sicurezza dei dati di Lakehouse	Q4 2024
Ottimizzazione automatica di Spark	Spedito (Q1 2024)
Ammissione ottimistica dei processi per Fabric Spark	Spedito (Q2 2 2024)
Accodamento processi per i processi notebook	Spedito (Q2 2 2024)

API dati per GraphQL in Fabric

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: anteprima pubblica

Le API dati per GraphQL consentiranno a data engineer, scienziati e architetti di soluzioni dati di Fabric di esporre e integrare facilmente i dati di Fabric, per applicazioni analitiche più reattive, efficienti e avanzate, sfruttando la potenza e la flessibilità di GraphQL.

Motore di esecuzione nativo Spark

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: anteprima pubblica

Il motore di esecuzione nativo è un miglioramento rivoluzionario per le esecuzioni di processi Apache Spark in Microsoft Fabric. Questo motore vettorializzato ottimizza le prestazioni e l'efficienza delle query Spark eseguendole direttamente nell'infrastruttura lakehouse. L'integrazione perfetta del motore significa che non richiede modifiche al codice ed evita il blocco del fornitore. Supporta le API Apache Spark ed è compatibile con Runtime 1.2 (Spark 3.4) e funziona con entrambi i formati Parquet e Delta. Indipendentemente dalla posizione dei dati all'interno di OneLake o se si accede ai dati tramite collegamenti, il motore di esecuzione nativo ottimizza l'efficienza e le prestazioni

Creare e collegare ambienti

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: disponibilità generale

Per personalizzare le esperienze Spark a un livello più granulare, è possibile creare e collegare ambienti ai notebook e ai processi Spark. In un ambiente è possibile installare librerie, configurare un nuovo pool, impostare le proprietà di Spark e caricare script in un file system. Ciò offre maggiore flessibilità e controllo sui carichi di lavoro Spark, senza influire sulle impostazioni predefinite dell'area di lavoro. Come parte della disponibilità generale, stiamo apportando vari miglioramenti agli ambienti, tra cui il supporto api e l'integrazione CI/CD.

Concorrenza elevata nelle pipeline

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: disponibilità generale

Oltre alla concorrenza elevata nei notebook, si abiliterà anche la concorrenza elevata nelle pipeline. Questa funzionalità consentirà di eseguire più notebook in una pipeline con una singola sessione.

Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse

Sequenza temporale di rilascio stimata: Q2 2024

Tipo di versione: anteprima pubblica

Ciò consentirà di organizzare le tabelle usando schemi ed eseguire query sui dati tra aree di lavoro.

Funzioni dati utente in Fabric

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Funzioni dati utente fornirà un potente meccanismo per implementare e riesezionare la logica di business personalizzata e specializzata nei flussi di lavoro di data science e ingegneria dei dati di Fabric, aumentando l'efficienza e la flessibilità.

Estensione VSCode Core per Fabric

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

L'estensione VSCode core per Fabric fornirà supporto comune per gli sviluppatori per i servizi di Fabric.

Estensione satellite VSCode per funzioni dati utente in Fabric

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

L'estensione satellite VSCode per Funzioni dati utente fornirà supporto per gli sviluppatori (modifica, compilazione, debug, pubblicazione) per Funzioni dati utente in Fabric.

VS Code per il Web - Supporto del debug

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Visual Studio Code per il Web è attualmente supportato in anteprima per gli scenari di creazione ed esecuzione. Si aggiunge all'elenco delle funzionalità la possibilità di eseguire il debug del codice usando questa estensione per notebook.

Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: disponibilità generale

Questa funzionalità consente ai clienti di ordinare e filtrare le tabelle e le cartelle in Lakehouse in base a diversi metodi, tra cui alfabeticamente, data di creazione e altro ancora.

Spark Connessione or per Fabric Data Warehouse

Sequenza temporale di rilascio stimata: Q3 2024

Tipo di versione: anteprima pubblica

Spark Connessione or per Fabric DW (Data Warehouse) consente a uno sviluppatore Spark o a un data scientist di accedere e lavorare sui dati di Fabric Data Warehouse con un'API Spark semplificata, che funziona letteralmente con una sola riga di codice. Offre la possibilità di eseguire query sui dati, in parallelo, dal data warehouse di Fabric in modo che venga ridimensionato con un volume di dati crescente e rispetta il modello di sicurezza (OLS/RLS/CLS) definito a livello di data warehouse durante l'accesso alla tabella o alla vista. Questa prima versione supporterà solo la lettura dei dati e il supporto per la scrittura dei dati sarà presto disponibile.

API di monitoraggio pubblico

Sequenza temporale di rilascio stimata: Q4 2024

Tipo di versione: disponibilità generale

Le API di monitoraggio pubblico consentono di recuperare a livello di codice lo stato dei processi Spark, dei riepiloghi dei processi e dei log del driver e dell'executor corrispondenti.

Sicurezza dei dati di Lakehouse

Sequenza temporale di rilascio stimata: Q4 2024

Tipo di versione: anteprima pubblica

Sarà possibile applicare la sicurezza a livello di file, cartelle e tabelle (o a livello di oggetto) nel lakehouse. È anche possibile controllare chi può accedere ai dati nel lakehouse e il livello di autorizzazioni di cui dispongono. Ad esempio, è possibile concedere autorizzazioni di lettura per file, cartelle e tabelle. Una volta applicate le autorizzazioni, vengono sincronizzate automaticamente in tutti i motori. Ciò significa che le autorizzazioni sono coerenti tra i motori Spark, SQL, Power BI e esterni.

Funzionalità spedite

Ottimizzazione automatica di Spark

Spedito (Q1 2024)

Tipo di versione: anteprima pubblica

Autotune usa l'apprendimento automatico per analizzare automaticamente le esecuzioni precedenti dei processi Spark e ottimizzare le configurazioni per ottimizzare le prestazioni. Configura il modo in cui i dati vengono partizionati, aggiunti e letti da Spark. In questo modo si miglioreranno significativamente le prestazioni. I processi dei clienti sono stati eseguiti più velocemente con questa funzionalità.

Ammissione ottimistica dei processi per Fabric Spark

Spedito (Q2 2 2024)

Tipo di versione: disponibilità generale

Con l'ammissione di processo ottimistica, Fabric Spark riserva solo il numero minimo di core che un processo deve avviare, in base al numero minimo di nodi che il processo può ridurre. Ciò consente di ammettere più posti di lavoro se sono presenti risorse sufficienti per soddisfare i requisiti minimi. Se un processo deve aumentare le prestazioni in un secondo momento, le richieste di aumento delle prestazioni verranno approvate o rifiutate in base ai core disponibili nella capacità.

Accodamento processi per i processi notebook

Spedito (Q2 2 2024)

Tipo di versione: disponibilità generale

Questa funzionalità consente di accodare i notebook Spark pianificati quando l'utilizzo di Spark è al numero massimo di processi che può essere eseguito in parallelo e quindi eseguito una volta che l'utilizzo è sceso al di sotto del numero massimo di processi paralleli consentiti.

documentazione di Ingegneria dei dati in Microsoft Fabric

Condividi tramite

Novità e pianificazione di Synapse Ingegneria dei dati in Microsoft Fabric

Aree di investimento

API dati per GraphQL in Fabric

Motore di esecuzione nativo Spark

Creare e collegare ambienti

Concorrenza elevata nelle pipeline

Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse

Funzioni dati utente in Fabric

Estensione VSCode Core per Fabric

Estensione satellite VSCode per funzioni dati utente in Fabric

VS Code per il Web - Supporto del debug

Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse

Spark Connessione or per Fabric Data Warehouse

API di monitoraggio pubblico

Sicurezza dei dati di Lakehouse

Funzionalità spedite

Ottimizzazione automatica di Spark

Ammissione ottimistica dei processi per Fabric Spark

Accodamento processi per i processi notebook

Risorse aggiuntive

Condividi tramite

Novità e pianificazione di Synapse Ingegneria dei dati in Microsoft Fabric

Aree di investimento

API dati per GraphQL in Fabric

Motore di esecuzione nativo Spark

Creare e collegare ambienti

Concorrenza elevata nelle pipeline

Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse

Funzioni dati utente in Fabric

Estensione VSCode Core per Fabric

Estensione satellite VSCode per funzioni dati utente in Fabric

VS Code per il Web - Supporto del debug

Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse

Spark Connessione or per Fabric Data Warehouse

API di monitoraggio pubblico

Sicurezza dei dati di Lakehouse

Funzionalità spedite

Ottimizzazione automatica di Spark

Ammissione ottimistica dei processi per Fabric Spark

Accodamento processi per i processi notebook

Contenuto correlato

Risorse aggiuntive