Come copiare dati con l'attività Copia
Nelle pipeline di dati è possibile usare l'attività di copia per copiare i dati da archivi dati locali e cloud.
Dopo aver copiato i dati, è possibile usare altre attività per trasformarli e analizzarli ulteriormente. L'attività Copy può essere usata anche per pubblicare risultati di trasformazione e analisi a scopi di business intelligence (BI) e per l'utilizzo da parte delle applicazioni.
Per copiare dati da un'origine a una destinazione, il servizio che esegue l'attività di copia esegue questi passaggi:
- Legge i dati dall'archivio dati di origine.
- Esegue la serializzazione/deserializzazione, compressione/decompressione, il mapping di colonne e così via. Esegue queste operazioni in base alla configurazione.
- Scrive i dati nell'archivio dati di destinazione.
Prerequisiti
Per iniziare, è necessario soddisfare i prerequisiti seguenti:
Un account tenant Microsoft Fabric con una sottoscrizione attiva. Creare un account gratuitamente.
Assicurarsi di disporre di un'area di lavoro abilitata per Microsoft Fabric.
Aggiungere un'attività di copia utilizzando l'assistente copia
Seguire questa procedura per configurare l'attività di copia utilizzando l'assistente copia.
Iniziare a utilizzare l'assistente copia
Aprire una pipeline di dati esistente o crearne una nuova.
Selezionare Copia dati nell'area di lavoro per aprire lo strumento Assistente Copia e per iniziare. In alternativa, selezionare Usa assistente copia dall'elenco a discesa Copia dati nella scheda Attività della barra multifunzione.
Configurare l'origine
Selezionare un tipo di origine dati dalla categoria. Si userà Archiviazione BLOB di Azure come esempio. Selezionare Archiviazione BLOB di Azure e poi fare clic su Avanti.
Creare una connessione con l'origine dati selezionando Crea nuova connessione.
Dopo aver selezionato Crea nuova connessione, compilare le informazioni di connessione richieste, poi selezionare Avanti. Per i dettagli sulla creazione delle connessioni per ciascun tipo di origine dati, si rimanda ai vari articoli connettore.
Se si dispone di connessioni esistenti, è possibile selezionare Connessione esistente e selezionare la connessione dall'elenco a discesa.
Scegliere il file o la cartella da copiare in questo passaggio di configurazione dell’origine e poi selezionare Avanti.
Configurare la destinazione
Selezionare un tipo di origine dati dalla categoria. Si userà Archiviazione BLOB di Azure come esempio. È possibile creare una nuova connessione che collega a un nuovo account Archiviazione BLOB di Azure seguendo la procedura indicata nella sezione precedente o utilizzando una connessione esistente selezionata dall'elenco a discesa Connessione. Le funzionalità Connessione di test e Modifica sono disponibili per ogni connessione selezionata.
Configurare e mappare i dati di origine sulla destinazione. Poi selezionare Avanti per completare le configurazioni di destinazione.
Nota
È possibile usare un singolo gateway dati locale soltanto all'interno della stessa attività Copia. Se entrambe origine e destinazione sono origini dati locali, devono utilizzare lo stesso gateway. Per spostare i dati tra origini dati locali con gateway diversi, è necessario copiare il primo gateway in un'origine cloud intermedia in un'unica attività Copia. Successivamente, è possibile utilizzare un'altra attività Copia per copiarla dall'origine cloud intermedia utilizzando il secondo gateway.
Esaminare e creare l'attività Copia
Esaminare le impostazioni dell'attività Copia nei passaggi precedenti e selezionare OK per completare. In alternativa, è possibile tornare ai passaggi precedenti per modificare, se necessario, le impostazioni nello strumento.
Al termine, l'attività Copia verrà poi aggiunta all'area di lavoro della pipeline di dati. Tutte le impostazioni, incluse le impostazioni avanzate per l’attività Copia, sono disponibili nelle schede quando l’attività è selezionata.
A questo punto è possibile salvare la pipeline di dati con questa singola attività Copia o continuare a progettare la pipeline di dati.
Aggiungere direttamente un'attività Copia
Seguire questa procedura per aggiungere direttamente un'attività Copia.
Aggiungere un'attività Copia
Aprire una pipeline di dati esistente o creare una nuova pipeline di dati.
Aggiungere un'attività Copy selezionando Aggiungi attività pipeline>Attività Copy oppure selezionando Copia dati>Aggiungi all'area di lavoro nella scheda Attività.
Configurare le impostazioni generali nella scheda Generale
Per informazioni su come configurare le impostazioni generali, si veda Generale.
Configurare l'origine nella scheda Origine
Selezionare + Nuovo accanto a Connessione per creare una connessione all'origine dati.
Scegliere il tipo di origine dati dalla finestra popup. In questo esempio verrà usato il database SQL di Azure. Selezionare Database SQL di Azure e quindi selezionare Continua.
Si passa alla pagina di creazione della connessione. Inserire le informazioni di connessione richieste nel pannello, quindi selezionare Crea. Per informazioni dettagliate sulla creazione della connessione per ogni tipo di origine dati, è possibile fare riferimento a ogni articolo del connettore.
Dopo aver creato correttamente la connessione, si torna alla pagina della pipeline di dati. Selezionare poi Aggiorna per recuperare la connessione creata dall'elenco a discesa. È anche possibile scegliere una connessione di database SQL di Azure esistente direttamente dall'elenco a discesa se è già stata creata in precedenza. Le funzionalità di Connessione di test e Modifica sono disponibili per ogni connessione selezionata. Selezionare poi Database SQL di Azure nel tipo di connessione.
Specificare una tabella da copiare. Selezionare Anteprima dei dati per visualizzare in anteprima la tabella di origine. È anche possibile usare Query e Stored procedure per leggere i dati dall'origine.
Espandere Advanced per impostazioni più avanzate.
Configurare la destinazione nella scheda destinazione
Scegliere il tipo di destinazione. Può trattarsi dell'archivio dati interno di prima classe dell'area di lavoro, come Lakehouse, o di archivi dati esterni. Verrà usato Lakehouse come esempio.
Scegliere di usare Lakehouse nel tipo di archivio dati dell'area di lavoro. Selezionare + Nuovo e passare alla pagina di creazione di Lakehouse. Specificare il nomedel Lakehouse e quindi selezionare Crea.
Dopo aver creato correttamente la connessione, si torna alla pagina della pipeline di dati. Selezionare poi Aggiorna per recuperare la connessione creata dall'elenco a discesa. Si può anche scegliere direttamente una connessione Lakehouse esistente dal menu a discesa, se già creata in precedenza.
Specificare una tabella o configurare il percorso del file per definire il file o la cartella come destinazione. In questo caso selezionare Tabelle e specificare una tabella per scrivere i dati.
Espandere Advanced per impostazioni più avanzate.
A questo punto è possibile salvare la pipeline di dati con questa singola attività Copia o continuare a progettare la pipeline di dati.
Configurare i mapping nella scheda Mapping
Se il connettore applicato supporta il mapping, si può passare alla scheda Mapping per configurare il mapping.
Selezionare Importa schemi per importare lo schema dei dati.
Si può vedere che è visualizzata la mappatura automatica. Specificare la colonna Origine e la colonna Destinazione. Se si crea una nuova tabella nella destinazione, si può personalizzare il nome della colonna di Destinazione qui. Se si desidera scrivere dati nella tabella di destinazione esistente, non è possibile modificare il nome della colonna di Destinazione esistente. È anche possibile visualizzare il Tipo di colonne di origine e di destinazione.
Inoltre, è possibile selezionare + Nuovo mapping per aggiungere un nuovo mapping, selezionare Cancella per cancellare tutte le impostazioni di mapping e selezionare Reimposta per reimpostare tutta la colonna origine.
Configurare le altre impostazioni nella scheda Impostazioni
La scheda Impostazioni contiene le impostazioni per le prestazioni, la gestione temporanea e così via.
Per la descrizione di ciascuna impostazione, si veda la seguente tabella.
Impostazione | Descrizione | Proprietà script JSON |
---|---|---|
Ottimizzazione intelligente della velocità effettiva | Specificare per ottimizzare la velocità effettiva. È possibile scegliere tra: • Auto • Standard • Bilanciato • Massimo Se si sceglie Auto, viene applicata dinamicamente l'impostazione ottimale in base alla coppia origine-destinazione e allo schema dei dati. Si può anche personalizzare la velocità effettiva e il valore personalizzato può essere pari a 2-256, mentre un valore più alto implica ulteriori guadagni. |
dataIntegrationUnits |
Grado di parallelismo di copia | Specificare il grado di parallelismo usato dal caricamento dati. | parallelCopies |
Tolleranza di errore | Se si seleziona questa opzione, è possibile ignorare alcuni errori che verificatisi durante il processo di copia. Ad esempio, righe incompatibili tra l'archivio di origine e quello di destinazione, file eliminati durante lo spostamento dei dati e così via. | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
Abilitazione della registrazione | Se si seleziona questa opzione, è possibile registrare file copiati, file e righe ignorati. | / |
Abilita staging | Specificare se copiare i dati tramite un archivio di staging provvisorio. Abilitare lo staging solo per gli scenari vantaggiosi. | enableStaging |
Tipo di archivio dati | Se si abilita lo staging, come tipo di archivio dati è possibile scegliere Area di lavoro ed Esterno. | / |
Per Area di lavoro | ||
Area di lavoro | Specificare per usare l'archiviazione di staging predefinita. | / |
Per Esterno | ||
Connessione dell'account di staging | Specificare la connessione di Archiviazione BLOB di Azure o Azure Data Lake Storage Gen2, che fa riferimento all'istanza di Archiviazione usata come archivio di staging. Creare una connessione di staging se non esiste. | Connessione (in externalReferences ) |
Percorso di archiviazione | Specificare il percorso in cui si desidera mantenere i dati di gestione temporanea. Se non si specifica un percorso, il servizio crea un contenitore in cui archiviare i dati temporanei. Specificare un percorso solo se si usa l'archiviazione con una firma di accesso condiviso o se i dati temporanei devono trovarsi in un percorso specifico. | path |
Abilita la compressione | Specifica se è necessario comprimere i dati prima di copiarli nella destinazione. Questa impostazione ridurre il volume dei dati da trasferire. | enableCompression |
Preserve | Specificare se mantenere metadati ed elenchi di controllo di accesso (ACL) durante la copia dei dati. | preserve |
Nota
Se si usa la copia di staging con compressione abilitata, l’autenticazione dell'entità servizio per lo staging del servizio collegato BLOB non è supportata.
Configurare i parametri in un'attività Copia
I parametri possono essere usati per controllare il comportamento di una pipeline e le relative attività. Si può usare Aggiungi contenuto dinamico per specificare i parametri per le proprietà dell'attività Copia. Come esempio, verrà specificato Lakehouse/Data Warehouse/KQL Database per capire come utilizzarlo.
Nell'origine o nella destinazione, dopo aver selezionato Area di lavoro come tipo di archivio dati e specificando Lakehouse/Data Warehouse/KQL Databasecome tipo di archivio dati dell'area di lavoro, selezionare Aggiungi contenuto dinamico dall'elenco a discesa di Lakehouse o Data Warehouse o KQL Database.
Nel riquadro popup Aggiungi contenuto dinamico, nella scheda Parametri selezionare +.
Specificare il nome per il parametro e assegnargli un valore predefinito, se necessario, oppure specificare il valore per il parametro dopo aver selezionato Esegui nella pipeline.
Si noti che il valore del parametro deve essere l’ID dell’oggetto Lakehouse/Data Warehouse/KQL Database. Per ottenere l'ID dell’oggetto Lakehouse/Data Warehouse/KQL Database, aprire il Lakehouse/Data Warehouse/KQL Database nell'area di lavoro e l'ID compare dopo
/lakehouses/
oppure/datawarehouses/
oppure/databases/
inell’URL.ID oggetto Lakehouse:
ID oggetto Data Warehouse:
ID oggetto KQL Database:
Selezionare Salva per tornare al riquadro Aggiungi contenuto dinamico. Poi, selezionare il parametro in modo che venga visualizzato nella casella di espressione. Quindi, selezionare OK. Si tornerà alla pagina della pipeline e si noterà che l'espressione del parametro è specificata dopo l’ID oggetto di Lakehouse / l’ID oggetto di Data Warehouse/ l’ID oggetto di KQL Database.