Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Le trasformazioni rapide convertono i file grezzi (CSV, Parquet e JSON) in tabelle Delta che rimangono sempre sincronizzate con i dati di origine. La trasformazione viene eseguita dal calcolo di Fabric Spark, che copia i dati a cui fa riferimento un collegamento OneLake in una tabella Delta gestita in modo da non dover compilare e orchestrare manualmente pipeline di estrazione, trasformazione, caricamento (ETL) tradizionali. Grazie alla gestione automatica degli schemi, alle funzionalità di appiattimento avanzato e al supporto per più formati di compressione, le trasformazioni rapide eliminano la complessità della compilazione e della gestione delle pipeline ETL.
Note
Le trasformazioni dei tasti di scelta rapida sono attualmente in anteprima pubblica e sono soggette a modifiche.
Perché usare le trasformazioni rapide?
- Nessuna pipeline manuale : Fabric copia e converte automaticamente i file di origine in formato Delta; non è necessario orchestrare i carichi incrementali.
- Aggiornamento frequente : Fabric controlla il collegamento ogni 2 minuti e sincronizza le modifiche quasi immediatamente.
- Open & analytics-ready - l'output è una tabella Delta Lake che qualsiasi motore compatibile con Apache Spark può interrogare.
- Governance unificata: la scorciatoia eredita la derivazione di OneLake, le autorizzazioni e i criteri di Microsoft Purview.
- Basato su Spark : trasforma la compilazione per la scalabilità.
Prerequisites
| Requirement | Details |
|---|---|
| SKU di Microsoft Fabric | Funzionalità o versione di valutazione che supporta i carichi di lavoro Lakehouse. |
| Dati di origine | Una cartella che contiene file omogenei nei formati CSV, Parquet o JSON. |
| Ruolo area di lavoro | Collaboratore o superiore. |
Origini, formati e destinazioni supportati
Tutte le origini dati supportate in OneLake sono supportate.
| Formato del file di origine | Destinazione | Estensioni supportate | Tipi di compressione supportati | Note |
|---|---|---|---|---|
| CSV (UTF-8, UTF-16) | Tabella Delta Lake nella cartella Lakehouse/Tables | .csv,.txt(delimiter),.tsv(tab-separated),.psv(pipe-separated), | .csv.gz,.csv.bz2 | .csv.zip,.csv.snappy non sono supportati alla data attuale |
| Parquet | Tabella Delta Lake nella cartella Lakehouse/Tables | .parquet | .parquet.snappy,.parquet.gzip,.parquet.lz4,.parquet.brotli,.parquet.zstd | |
| JSON | Tabella Delta Lake nella cartella Lakehouse/Tables | .json,.jsonl,.ndjson | .json.gz,.json.bz2,.jsonl.gz,.ndjson.gz,.jsonl.bz2,.ndjson.bz2 | .json.zip, .json.snappy non sono supportati fino ad oggi |
- Il supporto dei file di Excel fa parte della roadmap
- Trasformazioni di intelligenza artificiale disponibili per supportare i formati di file non strutturati (.txt, .doc, .docx) con il caso d'uso di Analisi del testo in tempo reale con altri miglioramenti imminenti
Configurare una trasformazione scorciatoia
Nel tuo lakehouse, seleziona Nuovo Collegamento Tabella nella sezione Tabelle (Trasformazione collegamento - anteprima) e scegli l'origine (ad esempio, Azure Data Lake, Archiviazione BLOB di Azure, Dataverse, Amazon S3, GCP, SharePoint, OneDrive e così via).
Scegli file, Configura trasformazione e crea collegamento : passa a un collegamento OneLake esistente che punta alla cartella con i file CSV, configura i parametri e avvia la creazione.
- Delimitatore nei file CSV: selezionare il carattere usato per separare le colonne (virgola, punto e virgola, pipe, tabulazione, e commerciale, spazio).
- Prima riga come intestazioni : indica se la prima riga contiene nomi di colonna.
- Nome collegamento Tabella : specificare un nome descrittivo; Fabric lo crea sotto /Tables.
Tenere traccia degli aggiornamenti e visualizzare i log per la trasparenza nel Manage Shortcut monitoring hub.
L'ambiente di calcolo di Fabric Spark copia i dati in una tabella Delta e mostra l'avanzamento nel riquadro Gestisci. Le trasformazioni rapide sono disponibili negli elementi del Lakehouse. Creano tabelle Delta Lake nella cartella Lakehouse/Tables .
Funzionamento della sincronizzazione
Dopo il caricamento iniziale, calcolo di Fabric Spark:
- Controlla la destinazione del collegamento ogni 2 minuti.
- Rileva file nuovi o modificati e aggiunge o sovrascrive le righe di conseguenza.
- Rileva i file eliminati e rimuove le righe corrispondenti.
Monitorare e risolvere i problemi
Le trasformazioni rapide includono il monitoraggio e la gestione degli errori per tenere traccia dello stato di inserimento e diagnosticare i problemi.
- Apri il lakehouse e fai clic con il pulsante destro del mouse sul collegamento che alimenta la trasformazione.
- Selezionare Gestisci collegamento.
- Nel riquadro dei dettagli è possibile visualizzare:
- Stato : ultimo risultato dell'analisi e stato di sincronizzazione corrente.
-
Cronologia aggiornamenti : elenco cronologico delle operazioni di sincronizzazione con conteggi delle righe ed eventuali dettagli degli errori.
- Visualizzare altri dettagli nei log per risolvere i problemi
Note
Sospendere o eliminare una trasformazione da questa scheda è una caratteristica futura della roadmap
Limitazioni
Limitazioni correnti delle trasformazioni dei tasti di scelta rapida:
- Sono supportati solo i formati di file CSV, Parquet e JSON .
- I file devono condividere uno schema identico; la deriva dello schema non è ancora supportata.
- Le trasformazioni sono ottimizzate per la lettura; Le istruzioni MERGE INTO o DELETE direttamente nella tabella sono bloccate.
- Disponibile solo negli articoli Lakehouse (non nei database KQL o warehouse).
- Tipi di dati non supportati per CSV: Colonne di tipo di dati miste, Timestamp_Nanos, tipi logici complessi - MAP/LIST/STRUCT, file binario non elaborato
- Tipo di dati non supportato per Parquet: Timestamp_nanos, Decimal con INT32/INT64, INT96, tipi di interi non assegnati - UINT_8/UINT_16/UINT_64, tipi logici complessi - MAP/LIST/STRUCT)
- Tipi di dati non supportati per JSON: Tipi di dati misti in una matrice, BLOB binari non elaborati all'interno di JSON Timestamp_Nanos
- Appiattimento del tipo di dati Array in JSON: Il tipo di dati della matrice deve essere conservato nella tabella delta e nei dati accessibili con Spark SQL e Pyspark, in cui per altre trasformazioni è possibile usare Fabric Materialized Lake Views per il livello silver
- Formato di origine: solo i file CSV, JSON e Parquet sono supportati a partire dalla data.
- Appiattimento della profondità in JSON: le strutture annidate vengono appiattite fino a cinque livelli di profondità. L'annidamento più approfondito richiede il preprocessamento.
- Operazioni di scrittura: le trasformazioni sono ottimizzate per la lettura; le istruzioni MERGE INTO o DELETE dirette nella tabella di destinazione della trasformazione non sono supportate.
- Disponibilità dell'area di lavoro: disponibile solo negli elementi Lakehouse (non nei data warehouse o nei database KQL).
- Coerenza dello schema di file: i file devono condividere uno schema identico.
Note
L'inclusione del supporto per alcuni degli elementi sopra menzionati e la riduzione delle limitazioni fa parte della nostra roadmap. Tenere traccia delle comunicazioni di rilascio per ulteriori aggiornamenti.
Pulizia
Per arrestare la sincronizzazione, eliminare la trasformazione del collegamento dall'interfaccia utente di Lakehouse.
L'eliminazione della trasformazione non comporta la rimozione dei file sottostanti.