Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Microsoft Fabric offre diversi modi per inserire i dati nella piattaforma. Questa guida offre una raccomandazione chiara per gli scenari più comuni, quindi fornisce confronti dettagliati delle funzionalità quando è necessario approfondire.
Raccomandazione rapida: quale opzione di spostamento dei dati è consigliabile usare?
Usa l'architettura medallion come guida:
Gold data (creazione di report e analisi sui dati elaborati) - usare il mirroring. Se si dispone già di un'elaborazione ETL altrove e soprattutto è necessario inserire dati curati nell'infrastruttura per la creazione di report, il mirroring è la scelta più semplice e più conveniente. È gratuito, richiede una configurazione minima e replica continuamente i dati in OneLake.
Dati bronze (inserimento non elaborato): iniziare con il processo di copia. Quando si inseriscono dati non elaborati, saranno necessarie rapidamente trasformazioni, mapping dello schema, controllo di pianificazione e caricamento incrementale. Il processo di copia offre queste funzionalità in modo nativo senza la complessità della compilazione di pipeline.
Dati di streaming in tempo reale : usare eventstream. Per un'elaborazione a bassa latenza, un inserimento e un'elaborazione guidati dagli eventi, Eventstreams offre pipeline in tempo reale con trasformazioni senza codice e routing verso più destinazioni.
Orchestrazione complessa : le pipeline offrono la flessibilità di orchestrazione necessaria e le attività di copia nelle pipeline offrono parametrizzazione degli oggetti dati e inserimento di dati basati sui metadati. In caso contrario, l'attività di lavoro di copia e l'attività di copia sono equi in una pipeline.
Per una suddivisione side-by-side completa delle funzionalità e delle funzionalità supportate, vedere il confronto dettagliato delle funzionalità.
Concetti chiave
Il mirroring offre un modo semplice e gratuito per eseguire il mirroring dei dati operativi in Fabric per l'analisi. È ottimizzato per semplificare l'uso con una configurazione minima e scrive in un'unica destinazione di sola lettura in OneLake.
Le attività di copia in Pipelines sono create per gli utenti che necessitano di flussi di lavoro di inserimento dati orchestrati e basati su pipeline. È possibile personalizzarla in modo esteso e aggiungere logica di trasformazione, ma è necessario definire e gestire manualmente i componenti della pipeline, incluso il rilevamento dello stato dell'ultima esecuzione per la copia incrementale.
Copy Job semplifica l'inserimento dei dati con supporto nativo per più stili di recapito, tra cui la copia bulk, la copia incrementale e la replica CDC (Change Data Capture), e non è necessario costruire pipeline, continuando a offrire accesso a molte opzioni avanzate. Supporta molte origini e destinazioni e funziona bene quando si vuole un maggiore controllo rispetto al mirroring, ma meno complessità rispetto alla gestione delle pipeline con l'attività di copia.
Flussi di eventi: progettato per l'inserimento, la trasformazione e l'elaborazione in tempo reale dei dati di streaming. Supporta pipeline a bassa latenza, gestione dello schema e instradamento a destinazioni come Eventhouse, Lakehouse, Activator ed endpoint personalizzati. Questi includono il supporto di endpoint AMQP, Kafka e HTTP.
Confronto dettagliato delle funzionalità
Le tabelle seguenti confrontano le funzionalità complete di ogni opzione di spostamento dati. Usare questa sezione quando è necessario valutare funzionalità specifiche per lo scenario.
| Mirroring | Processo di copia | Attività di copia (pipeline) | Flussi di eventi | |
|---|---|---|---|---|
| Fonti | Database e integrazione di terze parti in Open Mirroring | Tutte le origini dati e i formati supportati | Tutte le origini dati e i formati supportati | 25+ origini e tutti i formati |
| Destinazioni | Formato tabulare in Fabric OneLake (sola lettura) | Tutte le destinazioni e i formati supportati | Tutte le destinazioni e i formati supportati | 4+ destinazioni |
| Flessibilità | Configurazione semplice con comportamento fisso | Facile da usare + Opzioni avanzate | Opzioni avanzate e completamente personalizzabili | Opzioni semplici e personalizzabili |
| Capacità | Mirroring | Processo di copia | Attività di copia (pipeline) | Flussi di eventi |
|---|---|---|---|---|
| Pianificazione personalizzata | Yes | Yes | Continuo | |
| Gestione tabelle e colonne | Yes | Yes | Sì (schema, gestione eventi e campi) | |
| Comportamento di copia: Append, Upsert, Override | Yes | Yes | Append | |
| Osservabilità e controllo avanzati | Yes | Yes | ||
| Modalità di copia | ||||
| Replica continua basata su CDC | Yes | Yes | Yes | |
| Batch o copia in blocco | Yes | Yes | Sì (replicazione dell'istantanea iniziale CDC per Change Data Capture) | |
| Supporto nativo per la copia incrementale (basata su watermark) | Yes | |||
| Copiare usando una query definita dall'utente | Yes | Yes | ||
| Casi d'uso | ||||
| Replica continua per l'analisi e la creazione di report | Yes | Yes | Yes | |
| ELT/ETL basato sui metadati per il data warehousing | Yes | Yes | ||
| Consolidamento dei dati | Yes | Yes | Yes | |
| Migrazione dei dati/Backup dei dati/Condivisione dei dati | Yes | Yes | Yes | |
| Costo gratuito | Yes | |||
| Prestazioni prevedibili | Yes | Yes | Yes |
Scenari
Esaminare questi scenari per scegliere la strategia di spostamento dei dati più adatta alle proprie esigenze.
Scenario 1
James è un responsabile finanziario presso una compagnia assicurativa. Il team usa il database SQL di Azure per tenere traccia di dati, attestazioni e informazioni sui clienti in più business unit. Il team esecutivo vuole creare dashboard in tempo reale per il monitoraggio delle prestazioni aziendali, ma James non può consentire alle query di analisi di rallentare i sistemi operativi che elaborano migliaia di transazioni quotidiane.
James ha già eseguito l'elaborazione ETL e il suo team ha bisogno dei dati elaborati e di livello gold disponibili in Fabric per la creazione di report esecutivi. Non vuole gestire la pianificazione, configurare i carichi incrementali o preoccuparsi della selezione delle tabelle, ma soprattutto ha bisogno di avere tutto duplicato automaticamente. Poiché si tratta solo di report, avere i dati in un formato di sola lettura in OneLake funziona perfettamente. La soluzione deve essere anche economicamente vantaggiosa poiché deve rientrare nel budget del suo reparto.
James sceglie mirroring. Il mirroring fornisce la replica continua necessaria basata su CDC, gestendo automaticamente tutte le tabelle senza bisogno di configurazione. La configurazione semplice significa che non ha bisogno di competenze tecniche, e il costo gratuito si adatta al suo budget. Il formato tabulare di sola lettura in OneLake consente al team di accedere alle analisi necessarie senza influire sulle prestazioni operative.
Scenario 2
Lisa è un business analyst presso un'azienda logistica. Deve inserire dati di spedizione non elaborati da più database Snowflake nelle tabelle Fabric Lakehouse per l'analisi della supply chain. I dati includono sia i record cronologici per il carico iniziale che le nuove spedizioni che arrivano durante il giorno. Lisa vuole eseguire questo processo in base a una pianificazione personalizzata, ogni 4 ore durante l'orario di ufficio.
Poiché Lisa sta introducendo dati non elaborati di livello bronzo, sa che richiederà rapidamente trasformazioni, mappatura dello schema e controllo della pianificazione. Lei deve selezionare tabelle specifiche da ogni istanza di Snowflake, mappare le colonne ai nomi standardizzati e utilizzare la funzione upsert per gestire gli aggiornamenti ai record di spedizione esistenti. Vuole anche un monitoraggio avanzato per tenere traccia della qualità dei dati e delle prestazioni di elaborazione.
Lisa seleziona Copia lavoro. Il processo di copia offre la pianificazione personalizzata di cui ha bisogno, supporta tutte le origini dati, incluso Snowflake, e offre le funzionalità di gestione delle tabelle e delle colonne per la sua configurazione multi-regionale. Il supporto nativo per la copia incrementale con rilevamento basato su filigrana e comportamento upsert consente di gestire queste esigenze senza creare pipeline.
Scenario 3
David è un senior data engineer presso una società di telecomunicazioni. Sta creando un flusso di lavoro complesso di inserimento dati che deve estrarre i dati di utilizzo dei clienti da Oracle usando query SQL personalizzate, applicare trasformazioni aziendali e caricarlo in più destinazioni, tra cui Fabric Warehouse e sistemi esterni. Il flusso di lavoro deve inoltre coordinarsi con altre attività della pipeline, ad esempio i passaggi di convalida e notifica dei dati.
David ha il controllo completo sul processo di copia, inclusa la possibilità di usare query definite dall'utente per unire tabelle e filtrare i dati nell'origine. Ha bisogno di opzioni di configurazione avanzate e completamente personalizzabili, prestazioni prevedibili per volumi di dati di grandi dimensioni e la possibilità di integrare il processo di copia in flussi di lavoro di orchestrazione della pipeline più ampi con dipendenze e gestione degli errori.
David esamina le opzioni disponibili e sceglie Attività di copia in Pipeline. Questo approccio offre la configurazione avanzata e completamente personalizzabile necessaria, supporta le query definite dall'utente per l'estrazione di dati complessa e fornisce l'orchestrazione basata su pipeline necessaria per il flusso di lavoro. Le funzionalità avanzate di monitoraggio e controllo lo aiutano a tenere traccia del processo complesso, mentre il framework della pipeline consente di coordinare le attività di copia con altri passaggi di elaborazione dei dati.
Scenario 4
Ash è un product manager presso un'azienda di telecomunicazioni. Il team deve monitorare le metriche del supporto clienti, ad esempio volumi di chiamata, tempi di attesa e prestazioni dell'agente, in tempo reale per garantire la conformità al contratto di servizio e migliorare la soddisfazione dei clienti. I dati provengono da più sistemi operativi, tra cui piattaforme CRM, log del call center e database di assegnazione degli agenti e arrivano ad alta frequenza durante il giorno.
Ash usa i flussi di eventi dell'infrastruttura per inserire e trasformare questi dati in movimento. Configura i connettori di streaming per eseguire il pull dei dati da varie origini, applica trasformazioni usando l'esperienza senza codice e indirizza gli eventi elaborati a Eventhouse per l'analisi in tempo reale. Integra Data Activator per attivare avvisi e flussi di lavoro automatizzati quando le soglie del contratto di servizio vengono superate in modo da poter inviare notifiche ai supervisori o regolare i livelli di personale in modo dinamico.
Il risultato è un dashboard in tempo reale che viene aggiornato in pochi secondi, offrendo al team di Ash visibilità sulle metriche delle prestazioni in tempo reale e consentendo decisioni rapide e basate sui dati. Questa architettura di streaming elimina la latenza delle pipeline batch e consente all'azienda di rispondere immediatamente alle esigenze dei clienti.
Get started
Ora che si ha un'idea della strategia di spostamento dei dati da usare, è possibile iniziare a usare queste risorse: