Azure Data Lake Storage migreringsriktlinjer och mönster
Du kan migrera data, arbetsbelastningar och program från Azure Data Lake Storage Gen1 till Azure Data Lake Storage Gen2. Den här artikeln beskriver den rekommenderade migreringsmetoden och beskriver de olika migreringsmönstren och när var och en ska användas. För enklare läsning använder den här artikeln termen Gen1 för att referera till Azure Data Lake Storage Gen1 och termen Gen2 för att referera till Azure Data Lake Storage Gen2.
Anteckning
Azure Data Lake Storage Gen1 är nu tillbakadragen. Se pensionsmeddelandet här. Data Lake Storage Gen1 resurser är inte längre tillgängliga. Kontakta oss om du behöver särskild hjälp.
Azure Data Lake Storage Gen2 bygger på Azure Blob Storage och tillhandahåller en uppsättning funktioner som är dedikerade till stordataanalys. Data Lake Storage Gen2 kombinerar funktioner från Azure Data Lake Storage Gen1, till exempel filsystemssemantik, katalog- och filnivåsäkerhet och skalning med låg kostnad, nivåindelad lagring, funktioner för hög tillgänglighet/haveriberedskap från Azure Blob Storage.
Anteckning
Eftersom Gen1 och Gen2 är olika tjänster finns det ingen uppgradering på plats. Information om hur du förenklar migreringen till Gen2 med hjälp av Azure Portal finns i Migrera Azure Data Lake Storage från Gen1 till Gen2 med hjälp av Azure Portal.
Rekommenderad metod
Om du vill migrera från Gen1 till Gen2 rekommenderar vi följande metod.
Steg 1: Utvärdera beredskap
Steg 2: Förbered migrering
Steg 3: Migrera data och programarbetsbelastningar
Steg 4: Snabb från Gen1 till Gen2
Steg 1: Utvärdera beredskap
Lär dig mer om Data Lake Storage Gen2 erbjudande, dess fördelar, kostnader och allmän arkitektur.
Jämför funktionerna i Gen1 med funktionerna i Gen2.
Granska en lista över kända problem för att utvärdera eventuella funktionsluckor.
Gen2 stöder bloblagringsfunktioner som diagnostikloggning, åtkomstnivåer och principer för livscykelhantering för Blob Storage. Om du är intresserad av att använda någon av dessa funktioner kan du granska den aktuella supportnivån.
Granska det aktuella tillståndet för Azures ekosystemstöd för att säkerställa att Gen2 stöder alla tjänster som dina lösningar är beroende av.
Steg 2: Förbered migrering
Identifiera de datauppsättningar som du ska migrera.
Ta tillfället i akt att rensa datauppsättningar som du inte längre använder. Om du inte planerar att migrera alla dina data samtidigt kan du ta den här gången för att identifiera logiska grupper med data som du kan migrera i faser.
Utför en åldrande analys (eller liknande) på ditt Gen1-konto för att identifiera vilka filer eller mappar som finns kvar i lagret under en längre tid eller kanske håller på att bli föråldrade.
Fastställ vilken inverkan en migrering kommer att ha på din verksamhet.
Överväg till exempel om du har råd med stilleståndstid medan migreringen sker. Dessa överväganden kan hjälpa dig att identifiera ett lämpligt migreringsmönster och välja de lämpligaste verktygen.
Skapa en migreringsplan.
Vi rekommenderar dessa migreringsmönster. Du kan välja ett av dessa mönster, kombinera dem tillsammans eller utforma ett eget anpassat mönster.
Steg 3: Migrera data, arbetsbelastningar och program
Migrera data, arbetsbelastningar och program med det mönster som du föredrar. Vi rekommenderar att du validerar scenarier stegvis.
Skapa ett lagringskonto och aktivera den hierarkiska namnområdesfunktionen.
Migrera dina data.
Konfigurera tjänster i dina arbetsbelastningar så att de pekar på din Gen2-slutpunkt.
För HDInsight-kluster kan du lägga till konfigurationsinställningar för lagringskontot i filen %HADOOP_HOME%/conf/core-site.xml. Om du planerar att migrera externa Hive-tabeller från Gen1 till Gen2 måste du lägga till lagringskontoinställningar i filen %HIVE_CONF_DIR%/hive-site.xml.
Du kan ändra inställningarna för varje fil med hjälp av Apache Ambari. Information om hur du hittar lagringskontoinställningar finns i Hadoop Azure Support: ABFS – Azure Data Lake Storage Gen2. I det här exemplet används inställningen
fs.azure.account.key
för att aktivera auktorisering av delad nyckel:<property> <name>fs.azure.account.key.abfswales1.dfs.core.windows.net</name> <value>your-key-goes-here</value> </property>
Länkar till artiklar som hjälper dig att konfigurera HDInsight, Azure Databricks och andra Azure-tjänster att använda Gen2 finns i Azure-tjänster som stöder Azure Data Lake Storage Gen2.
Uppdatera program för att använda Gen2-API:er. Se följande guider:
Uppdatera skript för att använda Data Lake Storage Gen2 PowerShell-cmdletar och Azure CLI-kommandon.
Sök efter URI-referenser som innehåller strängen
adl://
i kodfiler eller i Databricks-notebook-filer, Apache Hive HQL-filer eller någon annan fil som används som en del av dina arbetsbelastningar. Ersätt dessa referenser med Gen2-formaterad URI för ditt nya lagringskonto. Exempel: Gen1-URI:n:adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile
kan bliabfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile
.Konfigurera säkerheten för ditt konto så att den omfattar Azure-roller, säkerhet på fil- och mappnivå samt Azure Storage-brandväggar och virtuella nätverk.
Steg 4: Snabb från Gen1 till Gen2
När du är säker på att dina program och arbetsbelastningar är stabila på Gen2 kan du börja använda Gen2 för att uppfylla dina affärsscenarier. Inaktivera eventuella återstående pipelines som körs på Gen1 och inaktivera ditt Gen1-konto.
Gen1- och Gen2-funktioner
I den här tabellen jämförs funktionerna i Gen1 med Gen2.
Gen1 till Gen2-mönster
Välj ett migreringsmönster och ändra sedan det mönstret efter behov.
Migreringsmönster | Information |
---|---|
Lift and Shift | Det enklaste mönstret. Perfekt om dina datapipelines har råd med stilleståndstid. |
Inkrementell kopia | Liknar lift and shift, men med mindre stilleståndstid. Perfekt för stora mängder data som tar längre tid att kopiera. |
Dubbel pipeline | Perfekt för pipelines som inte har råd med driftstopp. |
Dubbelriktad synkronisering | Liknar dubbel pipeline, men med en mer stegvis metod som passar för mer komplicerade pipelines. |
Låt oss ta en närmare titt på varje mönster.
Lift and shift-mönster
Det här är det enklaste mönstret.
Stoppa alla skrivningar till Gen1.
Flytta data från Gen1 till Gen2. Vi rekommenderar Azure Data Factory eller med hjälp av Azure Portal. ACL:er kopierar med data.
Peka på inmatningsåtgärder och arbetsbelastningar till Gen2.
Ta Gen1 ur drift.
Kolla in vår exempelkod för lift and shift-mönstret i vårt Lift and Shift-migreringsexempel.
Att tänka på när du använder lift and shift-mönstret
Snabb från Gen1 till Gen2 för alla arbetsbelastningar samtidigt.
Räkna med stilleståndstid under migreringen och snabbperioden.
Perfekt för pipelines som har råd med stilleståndstid och alla appar kan uppgraderas samtidigt.
Tips
Överväg att använda Azure Portal för att förkorta stilleståndstiden och minska antalet steg som krävs för att slutföra migreringen.
Mönster för inkrementell kopiering
Börja flytta data från Gen1 till Gen2. Vi rekommenderar Azure Data Factory. ACL:er kopierar med data.
Kopiera inkrementellt nya data från Gen1.
När alla data har kopierats stoppar du alla skrivningar till Gen1 och pekar arbetsbelastningar på Gen2.
Ta Gen1 ur drift.
Kolla in vår exempelkod för det inkrementella kopieringsmönstret i vårt exempel på stegvis kopieringsmigrering.
Att tänka på när du använder det inkrementella kopieringsmönstret:
Snabb från Gen1 till Gen2 för alla arbetsbelastningar samtidigt.
Förvänta dig endast stilleståndstid under redundansperioden.
Perfekt för pipelines där alla appar har uppgraderats samtidigt, men datakopiorna kräver mer tid.
Mönster för dubbel pipeline
Flytta data från Gen1 till Gen2. Vi rekommenderar Azure Data Factory. ACL:er kopierar med data.
Mata in nya data till både Gen1 och Gen2.
Peka arbetsbelastningar till Gen2.
Stoppa alla skrivningar till Gen1 och inaktivera sedan Gen1.
Kolla in vår exempelkod för det dubbla pipelinemönstret i vårt migreringsexempel för dubbla pipelines.
Att tänka på när du använder det dubbla pipelinemönstret:
Gen1- och Gen2-pipelines körs sida vid sida.
Stöder noll stilleståndstid.
Perfekt i situationer där dina arbetsbelastningar och program inte har råd med driftstopp och du kan mata in i båda lagringskontona.
Dubbelriktad synkroniseringsmönster
Konfigurera dubbelriktad replikering mellan Gen1 och Gen2. Vi rekommenderar WanDisco. Den erbjuder en reparationsfunktion för befintliga data.
När alla flyttningar är slutförda stoppar du alla skrivningar till Gen1 och inaktiverar dubbelriktad replikering.
Ta Gen1 ur drift.
Kolla in vår exempelkod för det dubbelriktade synkroniseringsmönstret i vårt migreringsexempel för dubbelriktad synkronisering.
Att tänka på när du använder mönstret för dubbelriktad synkronisering:
Perfekt för komplexa scenarier som omfattar ett stort antal pipelines och beroenden där en stegvis metod kan vara mer meningsfull.
Migreringsarbetet är högt, men det ger stöd sida vid sida för Gen1 och Gen2.
Nästa steg
- Lär dig mer om de olika delarna i att konfigurera säkerhet för ett lagringskonto. Mer information finns i säkerhetsguiden för Azure Storage.
- Optimera prestanda för Din Data Lake Store. Se Optimera Azure Data Lake Storage Gen2 för prestanda
- Läs metodtipsen för att hantera Din Data Lake Store. Se Metodtips för att använda Azure Data Lake Storage Gen2