Condividi tramite


Eseguire la migrazione di dati e pipeline da Azure Synapse a Microsoft Fabric

Il primo passaggio della migrazione dei dati e della pipeline consiste nell'identificare i dati da rendere disponibili in OneLake e le pipeline che si intende spostare.

Sono disponibili due opzioni per la migrazione dei dati:

  • Opzione 1: Azure Data Lake Storage (ADLS) Gen2 come risorsa di archiviazione predefinita. Se attualmente si usa ADLS Gen2 e si vuole evitare la copia dei dati, è consigliabile usare i collegamenti a OneLake.
  • Opzione 2: OneLake come risorsa di archiviazione predefinita. Se si vuole passare da ADLS Gen2 a OneLake come livello di archiviazione, è consigliabile leggere/scrivere da/a OneLake dai notebook e dalle definizioni dei processi Spark.

Migrazione dei dati

Opzione 1: ADLS Gen2 come risorsa di archiviazione (collegamenti)

Se si interagisce con ADLS Gen2 e si vuole evitare la duplicazione dei dati, è possibile creare un collegamento al percorso di origine DILS Gen2 in OneLake. È possibile creare collegamenti all'interno delle sezioni File e Tabelle del lakehouse in Fabric con le considerazioni seguenti:

  • La sezione Files è l'area non gestita del lago. Se i dati sono in formato CSV, JSON o Parquet, è consigliabile creare un collegamento a questa area.
  • La sezione Tabelle è l'area gestita del lago. Tutte le tabelle, gestite da Spark e non gestite, vengono registrate qui. Se i dati sono in formato Delta, è possibile creare un collegamento in questa area e il processo di individuazione automatica registra automaticamente tali tabelle Delta nel metastore del lakehouse.

Altre informazioni sulla creazione di un collegamento ad ADLS Gen2.

Opzione 2: OneLake come risorsa di archiviazione

Per usare OneLake come livello di archiviazione e spostare i dati da ADLS Gen2, è necessario puntare inizialmente gli elementi correlati ad Azure Synapse Spark a OneLake e quindi trasferire i dati esistenti in OneLake. Per la prima, vedere Integrare OneLake con Azure Synapse Spark.

Per spostare i dati esistenti in OneLake, sono disponibili diverse opzioni:

  • mssparkutils fastcp: la libreria mssparkutils fornisce un'API fastcp che consente di copiare dati da ADLS Gen2 a OneLake.
  • AzCopy: è possibile usare l'utilità della riga di comando AzCopy per copiare dati da ADLS Gen2 a OneLake.
  • Azure Data Factory, Azure Synapse e Data Factory in Fabric: usare l'attività di copia per copiare i dati nel lakehouse.
  • Usare i tasti di scelta rapida: è possibile abilitare i dati cronologici di ADLS Gen2 in OneLake usando i collegamenti. Nessuna copia dei dati necessaria.
  • Archiviazione di Azure Explorer: è possibile spostare i file dal percorso di ADLS Gen2 a OneLake usando Archiviazione di Azure Explorer. Scopri come integrare OneLake con Archiviazione di Azure Explorer.

Se le pipeline di dati di Azure Synapse includono attività di definizione del notebook e/o del processo Spark, sarà necessario spostare tali pipeline da Azure Synapse alle pipeline di dati di Data Factory in Infrastruttura e fare riferimento ai notebook di destinazione. L'attività del notebook è disponibile nelle pipeline di dati di Data Factory. Vedere tutte le attività della pipeline di dati supportate in Fabric qui.