Condividi tramite


Eseguire la migrazione di Azure Data Lake Storage da Gen1 a Gen2 usando il portale di Azure

Questo articolo illustra come semplificare la migrazione usando il portale di Azure.

Nota

Azure Data Lake Storage Gen1 è ora ritirato. Vedere l'annuncio di ritiro qui. Le risorse di Data Lake Storage Gen1 non sono più accessibili.

Ecco un video che ti dice di più su di esso.

     Capitoli:


  • 00.37 - Introduzione

  • 01:16 - Preparazione per la migrazione

  • 07:15 - Migrazione della copia

  • 17:40 - Copia e migrazione completa

  • 19:43 - Completare la migrazione

  • 33:15 - Post-migrazione

Prima di iniziare, leggere le linee guida generali su come eseguire la migrazione da Gen1 a Gen2 in Azure Data Lake Storage e modelli.

L'account potrebbe non essere idoneo per la migrazione basata sul portale in base a determinati vincoli. Quando il pulsante Esegui migrazione dei dati non è abilitato nella portale di Azure per l'account Gen1, se si dispone di un piano di supporto, è possibile inviare una richiesta di supporto. È anche possibile ottenere risposte dagli esperti della community in Microsoft Q&A.

Nota

Per una lettura più semplice, questo articolo usa il termine Gen1 per fare riferimento ad Azure Data Lake Storage Gen1 e il termine Gen2 per fare riferimento ad Azure Data Lake Storage Gen2.

Passaggio 1: Creare un account di archiviazione con funzionalità di seconda generazione

Azure Data Lake Storage Gen2 non è un account di archiviazione dedicato o un tipo di servizio. Si tratta di un set di funzionalità che è possibile ottenere abilitando la funzionalità Spazio dei nomi gerarchico di un account di archiviazione di Azure. Per creare un account con funzionalità gen2, vedere Creare un account di archiviazione da usare con Azure Data Lake Storage Gen2.

Quando si crea l'account, assicurarsi di configurare le impostazioni con i valori seguenti.

Impostazione Valore
Nome account di archiviazione Qualsiasi nome desiderato. Questo nome non deve corrispondere al nome dell'account Gen1 e può trovarsi in qualsiasi sottoscrizione di propria scelta.
Location La stessa area usata dall'account Data Lake Storage Gen1
Replica Archiviazione con ridondanza locale o archiviazione con ridondanza della zona
Versione minima di TLS 1.0
NFS v3 Disabilitata
Spazio dei nomi gerarchico Attivata

Nota

Lo strumento di migrazione nel portale di Azure non sposta le impostazioni dell'account. Pertanto, dopo aver creato l'account, sarà necessario configurare manualmente le impostazioni, ad esempio crittografia, firewall di rete, protezione dei dati.

Importante

Assicurarsi di usare un nuovo account di archiviazione appena creato senza cronologia di utilizzo. Non eseguire la migrazione a un account usato in precedenza o usare un account in cui i contenitori sono stati eliminati per rendere vuoto l'account.

Passaggio 2: Verificare le assegnazioni di ruolo di Controllo degli accessi in base al ruolo di Azure

Per Gen2, assicurarsi che il ruolo Proprietario dati BLOB di archiviazione sia stato assegnato all'identità utente di Microsoft Entra nell'ambito dell'account di archiviazione, del gruppo di risorse padre o della sottoscrizione.

Per Gen1, assicurarsi che il ruolo Proprietario sia stato assegnato all'identità di Microsoft Entra nell'ambito dell'account Gen1, del gruppo di risorse padre o della sottoscrizione.

Passaggio 3: Eseguire la migrazione dei carichi di lavoro di Azure Data Lake Analytics

Azure Data Lake Storage Gen2 non supporta Azure Data Lake Analytics. Azure Data Lake Analytics verrà ritirato il 29 febbraio 2024. Se si tenta di usare il portale di Azure per eseguire la migrazione di un account Azure Data Lake Storage Gen1 usato per Azure Data Lake Analytics, è possibile interrompere i carichi di lavoro di Azure Data Lake Analytics. È prima necessario eseguire la migrazione dei carichi di lavoro di Azure Data Lake Analytics ad Azure Synapse Analytics o a un'altra piattaforma di calcolo supportata prima di tentare di eseguire la migrazione dell'account Gen1.

Per altre informazioni, vedere Gestire Azure Data Lake Analytics usando il portale di Azure.

Passaggio 4: Preparare l'account Gen1

I nomi di file o directory con solo spazi o schede, terminando con un .oggetto , contenente un :o con più barre consecutive (//) non sono compatibili con Gen2. È necessario rinominare questi file o directory prima di eseguire la migrazione.

Per ottenere prestazioni migliori, è consigliabile ritardare la migrazione per almeno dieci giorni dall'ora dell'ultima operazione di eliminazione. In un account Gen1, i file eliminati diventano file eliminati temporaneamente e Il Garbage Collector non li rimuoverà definitivamente fino a sette giorni e richiederà alcuni giorni aggiuntivi per elaborare la pulizia. Il tempo necessario per la pulizia dipenderà dal numero di file. Tutti i file, inclusi i file eliminati soft, vengono elaborati durante la migrazione. Se si attende che Il Garbage Collector abbia rimosso definitivamente i file eliminati, il tempo di attesa può migliorare.

Passaggio 5: Eseguire la migrazione

Prima di iniziare, esaminare le due opzioni di migrazione riportate di seguito e decidere se copiare solo i dati da Gen1 a Gen2 (scelta consigliata) o eseguire una migrazione completa.

Opzione 1: copiare solo i dati (scelta consigliata). In questa opzione i dati vengono copiati da Gen1 a Gen2. Quando i dati vengono copiati, l'account Gen1 diventa di sola lettura. Dopo aver copiato i dati, saranno accessibili sia gli account Gen1 che Gen2. Tuttavia, è necessario aggiornare le applicazioni e i carichi di lavoro di calcolo per usare il nuovo endpoint Gen2.

Opzione 2: eseguire una migrazione completa. In questa opzione i dati vengono copiati da Gen1 a Gen2. Dopo aver copiato i dati, tutto il traffico dall'account Gen1 verrà reindirizzato all'account abilitato per Gen2. Le richieste reindirizzate usano il livello di compatibilità Gen1 per convertire le chiamate API Gen1 agli equivalenti gen2. Durante la migrazione, l'account Gen1 diventa di sola lettura. Al termine della migrazione, l'account Gen1 non sarà accessibile.

Indipendentemente dall'opzione scelta, dopo aver eseguito la migrazione e verificato che tutti i carichi di lavoro funzionino come previsto, è possibile eliminare l'account Gen1.

Opzione 1: Copiare dati da Gen1 a Gen2

  1. Accedere al portale di Azure per iniziare.

  2. Individuare l'account Data Lake Storage Gen1 e visualizzare la panoramica dell'account.

  3. Selezionare il pulsante Esegui migrazione dei dati .

    Pulsante di cui eseguire la migrazione

  4. Selezionare Copia dati in un nuovo account Gen2.

    Opzione Copia dati

  5. Concedere il consenso di Microsoft per eseguire la migrazione dei dati selezionando la casella di controllo . Selezionare, quindi, il pulsante Applica.

    Casella di controllo per fornire il consenso

    Viene visualizzata una barra di stato insieme a un messaggio di stato secondario. È possibile usare questi indicatori per misurare lo stato di avanzamento della migrazione. Poiché il tempo necessario per completare ogni attività varia, l'indicatore di stato non avanza a una velocità coerente. Ad esempio, l'indicatore di stato potrebbe passare rapidamente al 50%, ma quindi richiedere un po' di tempo per completare il rimanente 50%.

    Screenshot della barra di stato durante la migrazione dei dati.

    Importante

    Durante la migrazione dei dati, l'account Gen1 diventa di sola lettura e l'account abilitato per Gen2 è disabilitato. Al termine della migrazione, è possibile leggere e scrivere in entrambi gli account.

    È possibile arrestare la migrazione in qualsiasi momento selezionando il pulsante Arresta migrazione .

    Opzione Interrompi migrazione

Opzione 2: Eseguire una migrazione completa

  1. Accedere al portale di Azure per iniziare.

  2. Individuare l'account Data Lake Storage Gen1 e visualizzare la panoramica dell'account.

  3. Selezionare il pulsante Esegui migrazione dei dati .

    Pulsante Esegui migrazione

  4. Selezionare Completa migrazione a un nuovo account Gen2.

    Opzione di migrazione completa

  5. Concedere il consenso di Microsoft per eseguire la migrazione dei dati selezionando la casella di controllo . Selezionare, quindi, il pulsante Applica.

    Casella di controllo Consent

    Viene visualizzata una barra di stato insieme a un messaggio di stato secondario. È possibile usare questi indicatori per misurare lo stato di avanzamento della migrazione. Poiché il tempo necessario per completare ogni attività varia, l'indicatore di stato non avanza a una velocità coerente. Ad esempio, l'indicatore di stato potrebbe passare rapidamente al 50%, ma quindi richiedere un po' di tempo per completare il rimanente 50%.

    Screenshot della barra di stato durante l'esecuzione di una migrazione completa.

    Importante

    Durante la migrazione dei dati, l'account Gen1 diventa di sola lettura e l'account abilitato per Gen2 è disabilitato.

    Inoltre, mentre l'URI gen1 viene reindirizzato, entrambi gli account sono disabilitati.

    Al termine della migrazione, l'account Gen1 verrà disabilitato. I dati nell'account Gen1 non saranno accessibili e verranno eliminati dopo 30 giorni. L'account Gen2 sarà disponibile per letture e scritture.

    È possibile arrestare la migrazione in qualsiasi momento prima che l'URI venga reindirizzato selezionando il pulsante Arresta migrazione .

    Pulsante Di arresto della migrazione

Passaggio 6: Verificare che la migrazione sia stata completata

Se la migrazione viene completata correttamente, verrà creato un contenitore denominato gen1 nell'account abilitato per Gen2 e tutti i dati dell'account Gen1 verranno copiati in questo nuovo contenitore gen1 . Per trovare i dati in un percorso esistente in Gen1, è necessario aggiungere il prefisso gen1/ allo stesso percorso per accedervi in Gen2. Ad esempio, un percorso denominato "FolderRoot/FolderChild/FileName.csv" in Gen1 sarà disponibile in 'gen1/FolderRoot/FolderChild/FileName.csv' in Gen2. I nomi dei contenitori non possono essere rinominati in Gen2, quindi questo contenitore gen1 in Gen2 non può essere rinominato dopo la migrazione. Tuttavia, se necessario, i dati possono essere copiati in un nuovo contenitore in Gen2.

Se la migrazione non viene completata correttamente, viene visualizzato un messaggio che indica che la migrazione è bloccata a causa di incompatibilità. Se si desidera assistenza per il passaggio successivo, contattare supporto tecnico Microsoft. Questo messaggio può essere visualizzato se l'account abilitato per Gen2 è stato usato in precedenza o quando i file e le directory nell'account Gen1 usano convenzioni di denominazione incompatibili.

Prima di contattare il supporto tecnico, assicurarsi di usare un nuovo account di archiviazione appena creato senza cronologia di utilizzo. Evitare di eseguire la migrazione a un account usato in precedenza o a un account in cui i contenitori sono stati eliminati per rendere vuoto l'account. Nell'account Gen1 assicurarsi di rinominare tutti i nomi di file o directory che contengono solo spazi o schede, terminare con un .oggetto , contenere o :contenere più barre (//).

Passaggio 7: Eseguire la migrazione di carichi di lavoro e applicazioni

  1. Configurare i servizi nei carichi di lavoro in modo che puntino all'endpoint Gen2. Per collegamenti ad articoli che consentono di configurare Azure Databricks, HDInsight e altri servizi di Azure per l'uso di Gen2, vedere Servizi di Azure che supportano Azure Data Lake Storage Gen2.

  2. Aggiornare le applicazioni per l'uso delle API Gen2. Vedere queste guide:

    Ambiente Articolo
    Azure Storage Explorer Usare Archiviazione di Azure Explorer per gestire directory e file in Azure Data Lake Storage Gen2
    .NET Usare .NET per gestire directory e file in Azure Data Lake Storage Gen2
    Java Usare Java per gestire directory e file in Azure Data Lake Storage Gen2
    Python Usare Python per gestire directory e file in Azure Data Lake Storage Gen2
    JavaScript (Node.js) Usare JavaScript SDK in Node.js per gestire directory e file in Azure Data Lake Storage Gen2
    REST API Azure Data Lake Store REST API
  3. Aggiornare gli script per usare i cmdlet di PowerShell di Data Lake Storage Gen2 e i comandi dell'interfaccia della riga di comando di Azure.

  4. Cercare riferimenti URI che contengono la stringa adl:// nei file di codice o nei notebook di Databricks, file HQL Apache Hive o qualsiasi altro file usato come parte dei carichi di lavoro. Sostituire questi riferimenti con l'URI formattato Gen2 del nuovo account di archiviazione. Ad esempio, l'URI gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile potrebbe diventare abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

Livello di compatibilità Gen1

Questo livello tenta di garantire la compatibilità delle applicazioni tra Gen1 e Gen2 per praticità durante la migrazione, in modo che le applicazioni possano continuare a usare le API Gen1 per interagire con i dati nell'account abilitato per Gen2. Questo livello ha funzionalità limitate ed è consigliabile convalidare i carichi di lavoro con account di test se si usa questo approccio come parte della migrazione. Il livello di compatibilità viene eseguito sul server, quindi non è necessario installare alcun elemento.

Importante

Microsoft non consiglia questa funzionalità come sostituzione per la migrazione di carichi di lavoro e applicazioni. Il supporto per il livello di compatibilità Gen1 terminerà quando Gen1 viene ritirato il 29 febbraio 2024.

Per verificare il minor numero di problemi con il livello di compatibilità, assicurarsi che gli SDK gen1 usino le versioni seguenti (o versioni successive).

Lingua Versione dell'SDK
.NET 2.3.9
Java 1.1.21
Python 0.0.51

La funzionalità seguente non è supportata nel livello di compatibilità.

  • Opzione API ListStatus per ListBefore di una voce.

  • API ListStatus con oltre 4.000 file senza un token di continuazione.

  • Codifica blocchi per le operazioni di accodamento.

  • Tutte le chiamate API che usano https://management.azure.com/ come destinatari del token Microsoft Entra.

  • Nomi di file o directory con solo spazi o schede, terminando con un .oggetto , contenente un :oggetto o con più barre consecutive (//).

Domande frequenti

Quanto tempo richiederà la migrazione?

I dati e i metadati vengono migrati in parallelo. Il tempo totale necessario per completare una migrazione è uguale a quello di questi due processi completati per ultimo.

Nella tabella seguente viene illustrata la velocità approssimativa di ogni attività di elaborazione della migrazione.

Nota

Queste stime temporali sono approssimative e possono variare. Ad esempio, la copia di un numero elevato di file di piccole dimensioni può rallentare le prestazioni.

Attività di elaborazione Velocità
Copia dati 9 TB all'ora
Convalida dei dati 9 milioni di file o cartelle all'ora
Copia dei metadati 4 milioni di file o cartelle all'ora
Elaborazione dei metadati 25 milioni di file o cartelle all'ora
Elaborazione dei metadati aggiuntiva (opzione copia dati)1 50 milioni di file o cartelle all'ora

1 Il tempo di elaborazione dei metadati aggiuntivo si applica solo se si sceglie l'opzione Copia dati in un nuovo account Gen2. Questo tempo di elaborazione non si applica se si sceglie l'opzione Completa migrazione a un nuovo account gen2.

Esempio: Elaborazione di una grande quantità di dati e metadati

Questo esempio presuppone 300 TB di dati e 200 milioni di elementi di dati e metadati.

Attività Ora stimata
Copiare i dati 300 TB / 9 TB = 33,33 ore
Convalida i dati 200 milioni / 9 milioni = 22,22 ore
Tempo totale di migrazione dei dati 33,33 + 22,2 = 55,55 ore
Copiare i metadati 200 milioni / 4 milioni = 50 ore
Elaborazione dei metadati 200 milioni / 25 milioni = 8 ore
Elaborazione dei metadati aggiuntiva - solo opzione di copia dei dati 200 milioni / 50 milioni = 4 ore
Tempo totale di migrazione dei metadati 50 + 8 + 4 = 62 ore
Tempo totale per eseguire una migrazione solo dati 62 ore
Tempo totale per eseguire una migrazione completa 62 - 4 = 58 ore
Esempio: Elaborazione di una piccola quantità di dati e metadati

In questo esempio si presuppone che 2 TB di dati e 56.000 elementi di dati e metadati.

Attività Ora stimata
Copiare i dati (2 TB/ 9 TB) * 60 minuti = 13,3 minuti
Convalida i dati (56.000 / 9 milioni) * 3.600 secondi = 22,4 secondi
Tempo totale di migrazione dei dati 13,3 minuti + 22,4 secondi = circa 14 minuti
Copiare i metadati (56.000 / 4 milioni) * 3.600 secondi = circa 51 secondi
Elaborazione dei metadati 56.000/ 25 milioni = 8 secondi
Elaborazione dei metadati aggiuntiva - solo opzione di copia dei dati (56.000 / 50 milioni) * 3.600 secondi = 4 secondi
Tempo totale di migrazione dei metadati 51 + 8 + 4 = 63 secondi
Tempo totale per eseguire una migrazione solo dati 14 minuti
Tempo totale per eseguire una migrazione completa 14 minuti - 4 secondi = 13 minuti e 56 secondi (circa 14 minuti)

Quanto costa la migrazione dei dati?

Non è previsto alcun costo per l'uso dello strumento di migrazione basato sul portale, ma verrà addebitato l'utilizzo dei servizi Azure Data Lake Gen1 e Gen2. Durante la migrazione dei dati, verranno addebitate le transazioni e l'archiviazione dei dati dell'account Gen1.

Dopo la migrazione, se si sceglie l'opzione che copia solo i dati, verranno fatturate le transazioni e l'archiviazione dei dati per gli account Azure Data Lake Gen1 e Gen2. Per evitare la fatturazione per l'account Gen1, eliminare l'account Gen1 dopo aver aggiornato le applicazioni in modo che puntino a Gen2. Se si sceglie di eseguire una migrazione completa, verranno fatturati solo per l'archiviazione dei dati e le transazioni dell'account abilitato alla generazione2.

Assicurarsi che tutti gli account di Azure Data Lake Analytics vengano migrati ad Azure Synapse Analytics o a un'altra piattaforma di calcolo supportata. Dopo aver eseguito la migrazione degli account di Azure Data Lake Analytics, ripetere il consenso. Se viene visualizzato ulteriormente il problema e si dispone di un piano di supporto, è possibile inviare una richiesta di supporto. È anche possibile ottenere risposte dagli esperti della community in Microsoft Q&A.

Al termine della migrazione, è possibile tornare a usando l'account Gen1?

Se è stata usata l'opzione 1: copiare i dati da Gen1 a Gen2 menzionati in precedenza, gli account Gen1 e Gen2 sono disponibili per le letture e le scritture dopo la migrazione. Tuttavia, se è stata usata l'opzione 2: Eseguire una migrazione completa, tornare all'account Gen1 non è supportato. Nell'opzione 2, al termine della migrazione, i dati nell'account Gen1 non saranno accessibili e verranno eliminati dopo 30 giorni. È possibile continuare a visualizzare l'account Gen1 nella portale di Azure e, quando si è pronti, è possibile eliminare l'account Gen1.

Si vuole abilitare l'archiviazione con ridondanza geografica (GRS) nell'account abilitato alla seconda generazione, come si esegue questa operazione?

Al termine della migrazione, sia nelle opzioni "Copia dati" che "Completa migrazione", è possibile procedere e modificare l'opzione di ridondanza in Archiviazione con ridondanza, purché non si intenda usare il livello di compatibilità dell'applicazione. La compatibilità delle applicazioni non funzionerà sugli account che usano ridondanza con ridondanza con ridondanza geografica.

Gen1 non ha contenitori e Gen2 li ha: cosa ci si aspetta?

Quando si copiano i dati nell'account abilitato per Gen2, viene creato automaticamente un contenitore denominato "Gen1". I nomi dei contenitori gen2 non possono essere rinominati e quindi i dati post-migrazione possono essere copiati nel nuovo contenitore in Gen2 in base alle esigenze.

Cosa è consigliabile prendere in considerazione in termini di prestazioni della migrazione?

Quando si copiano i dati nell'account abilitato per Gen2, due fattori che possono influire sulle prestazioni sono il numero di file e la quantità di metadati disponibili. Ad esempio, molti file di piccole dimensioni possono influire sulle prestazioni della migrazione.

Le API del file system WebHDFS supportate nell'account Gen2 dopo la migrazione?

Le API del file system WebHDFS di Gen1 saranno supportate in Gen2, ma con determinate deviazioni e solo funzionalità limitate sono supportate tramite il livello di compatibilità. I clienti devono pianificare l'uso delle API specifiche di Gen2 per migliorare le prestazioni e le funzionalità.

Cosa succede al mio account Gen1 dopo la data di ritiro?

L'account diventa inaccessibile. Non sarà possibile:

  • Gestire l'account

  • Accedere ai dati nell'account

  • Ricevere gli aggiornamenti del servizio alle API Gen1 o Gen1, AGLI SDK o agli strumenti client

  • Accedere al supporto clienti gen1 online, tramite telefono o tramite posta elettronica

Vedere Azione necessaria: passare ad Azure Data Lake Storage Gen2 entro il 29 febbraio 2024.

Passaggi successivi