Novità e pianificazione di Synapse Ingegneria dei dati in Microsoft Fabric
Importante
I piani di versione descrivono le funzionalità che potrebbero essere state rilasciate o meno. Le sequenze temporali di consegna e le funzionalità proiettate possono cambiare o non essere spedite. Per altre informazioni, vedere Criteri Microsoft.
Synapse Ingegneria dei dati consente ai data engineer di poter trasformare i dati su larga scala usando Spark e creare l'architettura lakehouse.
Lakehouse per tutti i dati aziendali: il lakehouse combina il meglio del data lake e del data warehouse in un'unica esperienza. Consente agli utenti di inserire, preparare e condividere i dati dell'organizzazione in un formato aperto nel lake. In seguito è possibile accedervi tramite più motori, ad esempio Spark, T-SQL e Power BI. Offre diverse opzioni di integrazione dei dati, ad esempio flussi di dati e pipeline, collegamenti a origini dati esterne e funzionalità di condivisione dei prodotti dati.
Motore Spark e runtime con prestazioni elevate: la progettazione di Synapse Data offre ai clienti un runtime Spark ottimizzato con le versioni più recenti di Spark, Delta e Python. Usa Delta Lake come formato di tabella comune per tutti i motori, consentendo una semplice condivisione dei dati e la creazione di report senza spostamento dei dati. Il runtime include ottimizzazioni spark, migliorando le prestazioni delle query senza alcuna configurazione. Offre anche pool di avvio e modalità di concorrenza elevata per velocizzare e riutilizzare le sessioni Spark, risparmiando tempo e costi.
Spark Amministrazione e configurazioni: gli amministratori dell'area di lavoro con autorizzazioni appropriate possono creare e configurare pool personalizzati per ottimizzare le prestazioni e i costi dei carichi di lavoro Spark. Gli autori possono configurare gli ambienti per installare librerie, selezionare la versione di runtime e impostare le proprietà di Spark per i notebook e i processi Spark.
Esperienza sviluppatore: gli sviluppatori possono usare notebook, processi Spark o l'IDE preferito per creare ed eseguire codice Spark in Fabric. Possono accedere in modo nativo ai dati lakehouse, collaborare con altri utenti, installare librerie, tenere traccia della cronologia, eseguire il monitoraggio in linea e ottenere consigli da Spark Advisor. Possono anche usare Data Wrangler per preparare facilmente i dati con un'interfaccia utente con poco codice.
Integrazione della piattaforma: tutti gli elementi di progettazione dei dati di Synapse, inclusi notebook, processi Spark, ambienti e lakehouse, sono integrati profondamente nella piattaforma Fabric (funzionalità di gestione delle informazioni aziendali, derivazione, etichette di riservatezza e approvazioni).
Aree di investimento
Funzionalità | Sequenza temporale di rilascio stimata |
---|---|
API dati per GraphQL in Fabric | Q2 2024 |
Motore di esecuzione nativo Spark | Q2 2024 |
Creare e collegare ambienti | Q2 2024 |
Concorrenza elevata nelle pipeline | Q2 2024 |
Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse | Q2 2024 |
Funzioni dati utente in Fabric | Q3 2024 |
Estensione VSCode Core per Fabric | Q3 2024 |
Estensione satellite VSCode per funzioni dati utente in Fabric | Q3 2024 |
VS Code per il Web - Supporto del debug | Q3 2024 |
Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse | Q3 2024 |
Spark Connessione or per Fabric Data Warehouse | Q3 2024 |
API di monitoraggio pubblico | Q4 2024 |
Sicurezza dei dati di Lakehouse | Q4 2024 |
Ottimizzazione automatica di Spark | Spedito (Q1 2024) |
Ammissione ottimistica dei processi per Fabric Spark | Spedito (Q2 2 2024) |
Accodamento processi per i processi notebook | Spedito (Q2 2 2024) |
API dati per GraphQL in Fabric
Sequenza temporale di rilascio stimata: Q2 2024
Tipo di versione: anteprima pubblica
Le API dati per GraphQL consentiranno a data engineer, scienziati e architetti di soluzioni dati di Fabric di esporre e integrare facilmente i dati di Fabric, per applicazioni analitiche più reattive, efficienti e avanzate, sfruttando la potenza e la flessibilità di GraphQL.
Motore di esecuzione nativo Spark
Sequenza temporale di rilascio stimata: Q2 2024
Tipo di versione: anteprima pubblica
Il motore di esecuzione nativo è un miglioramento rivoluzionario per le esecuzioni di processi Apache Spark in Microsoft Fabric. Questo motore vettorializzato ottimizza le prestazioni e l'efficienza delle query Spark eseguendole direttamente nell'infrastruttura lakehouse. L'integrazione perfetta del motore significa che non richiede modifiche al codice ed evita il blocco del fornitore. Supporta le API Apache Spark ed è compatibile con Runtime 1.2 (Spark 3.4) e funziona con entrambi i formati Parquet e Delta. Indipendentemente dalla posizione dei dati all'interno di OneLake o se si accede ai dati tramite collegamenti, il motore di esecuzione nativo ottimizza l'efficienza e le prestazioni
Creare e collegare ambienti
Sequenza temporale di rilascio stimata: Q2 2024
Tipo di versione: disponibilità generale
Per personalizzare le esperienze Spark a un livello più granulare, è possibile creare e collegare ambienti ai notebook e ai processi Spark. In un ambiente è possibile installare librerie, configurare un nuovo pool, impostare le proprietà di Spark e caricare script in un file system. Ciò offre maggiore flessibilità e controllo sui carichi di lavoro Spark, senza influire sulle impostazioni predefinite dell'area di lavoro. Come parte della disponibilità generale, stiamo apportando vari miglioramenti agli ambienti, tra cui il supporto api e l'integrazione CI/CD.
Concorrenza elevata nelle pipeline
Sequenza temporale di rilascio stimata: Q2 2024
Tipo di versione: disponibilità generale
Oltre alla concorrenza elevata nei notebook, si abiliterà anche la concorrenza elevata nelle pipeline. Questa funzionalità consentirà di eseguire più notebook in una pipeline con una singola sessione.
Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse
Sequenza temporale di rilascio stimata: Q2 2024
Tipo di versione: anteprima pubblica
Ciò consentirà di organizzare le tabelle usando schemi ed eseguire query sui dati tra aree di lavoro.
Funzioni dati utente in Fabric
Sequenza temporale di rilascio stimata: Q3 2024
Tipo di versione: anteprima pubblica
Funzioni dati utente fornirà un potente meccanismo per implementare e riesezionare la logica di business personalizzata e specializzata nei flussi di lavoro di data science e ingegneria dei dati di Fabric, aumentando l'efficienza e la flessibilità.
Estensione VSCode Core per Fabric
Sequenza temporale di rilascio stimata: Q3 2024
Tipo di versione: anteprima pubblica
L'estensione VSCode core per Fabric fornirà supporto comune per gli sviluppatori per i servizi di Fabric.
Estensione satellite VSCode per funzioni dati utente in Fabric
Sequenza temporale di rilascio stimata: Q3 2024
Tipo di versione: anteprima pubblica
L'estensione satellite VSCode per Funzioni dati utente fornirà supporto per gli sviluppatori (modifica, compilazione, debug, pubblicazione) per Funzioni dati utente in Fabric.
VS Code per il Web - Supporto del debug
Sequenza temporale di rilascio stimata: Q3 2024
Tipo di versione: anteprima pubblica
Visual Studio Code per il Web è attualmente supportato in anteprima per gli scenari di creazione ed esecuzione. Si aggiunge all'elenco delle funzionalità la possibilità di eseguire il debug del codice usando questa estensione per notebook.
Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse
Sequenza temporale di rilascio stimata: Q3 2024
Tipo di versione: disponibilità generale
Questa funzionalità consente ai clienti di ordinare e filtrare le tabelle e le cartelle in Lakehouse in base a diversi metodi, tra cui alfabeticamente, data di creazione e altro ancora.
Spark Connessione or per Fabric Data Warehouse
Sequenza temporale di rilascio stimata: Q3 2024
Tipo di versione: anteprima pubblica
Spark Connessione or per Fabric DW (Data Warehouse) consente a uno sviluppatore Spark o a un data scientist di accedere e lavorare sui dati di Fabric Data Warehouse con un'API Spark semplificata, che funziona letteralmente con una sola riga di codice. Offre la possibilità di eseguire query sui dati, in parallelo, dal data warehouse di Fabric in modo che venga ridimensionato con un volume di dati crescente e rispetta il modello di sicurezza (OLS/RLS/CLS) definito a livello di data warehouse durante l'accesso alla tabella o alla vista. Questa prima versione supporterà solo la lettura dei dati e il supporto per la scrittura dei dati sarà presto disponibile.
API di monitoraggio pubblico
Sequenza temporale di rilascio stimata: Q4 2024
Tipo di versione: disponibilità generale
Le API di monitoraggio pubblico consentono di recuperare a livello di codice lo stato dei processi Spark, dei riepiloghi dei processi e dei log del driver e dell'executor corrispondenti.
Sicurezza dei dati di Lakehouse
Sequenza temporale di rilascio stimata: Q4 2024
Tipo di versione: anteprima pubblica
Sarà possibile applicare la sicurezza a livello di file, cartelle e tabelle (o a livello di oggetto) nel lakehouse. È anche possibile controllare chi può accedere ai dati nel lakehouse e il livello di autorizzazioni di cui dispongono. Ad esempio, è possibile concedere autorizzazioni di lettura per file, cartelle e tabelle. Una volta applicate le autorizzazioni, vengono sincronizzate automaticamente in tutti i motori. Ciò significa che le autorizzazioni sono coerenti tra i motori Spark, SQL, Power BI e esterni.
Funzionalità spedite
Ottimizzazione automatica di Spark
Spedito (Q1 2024)
Tipo di versione: anteprima pubblica
Autotune usa l'apprendimento automatico per analizzare automaticamente le esecuzioni precedenti dei processi Spark e ottimizzare le configurazioni per ottimizzare le prestazioni. Configura il modo in cui i dati vengono partizionati, aggiunti e letti da Spark. In questo modo si miglioreranno significativamente le prestazioni. I processi dei clienti sono stati eseguiti più velocemente con questa funzionalità.
Ammissione ottimistica dei processi per Fabric Spark
Spedito (Q2 2 2024)
Tipo di versione: disponibilità generale
Con l'ammissione di processo ottimistica, Fabric Spark riserva solo il numero minimo di core che un processo deve avviare, in base al numero minimo di nodi che il processo può ridurre. Ciò consente di ammettere più posti di lavoro se sono presenti risorse sufficienti per soddisfare i requisiti minimi. Se un processo deve aumentare le prestazioni in un secondo momento, le richieste di aumento delle prestazioni verranno approvate o rifiutate in base ai core disponibili nella capacità.
Accodamento processi per i processi notebook
Spedito (Q2 2 2024)
Tipo di versione: disponibilità generale
Questa funzionalità consente di accodare i notebook Spark pianificati quando l'utilizzo di Spark è al numero massimo di processi che può essere eseguito in parallelo e quindi eseguito una volta che l'utilizzo è sceso al di sotto del numero massimo di processi paralleli consentiti.