Použití služby Azure Data Factory k migraci dat z AmazonU S3 do Azure Storage

2025-04-10

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datovou vědu, analýzy v reálném čase, business intelligence a reporting. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Azure Data Factory poskytuje výkonný, robustní a nákladově efektivní mechanismus pro migraci dat ve velkém měřítku z AmazonU S3 do Azure Blob Storage nebo Azure Data Lake Storage Gen2. Tento článek obsahuje následující informace pro datové inženýry a vývojáře:

Výkon
Odolnost kopírování
Zabezpečení sítě
Architektura řešení vysoké úrovně
Osvědčené postupy implementace

Výkon

ADF nabízí bezserverovou architekturu, která umožňuje paralelismus na různých úrovních, což vývojářům umožňuje vytvářet kanály, které plně využívají šířku pásma sítě a IOPS úložiště a šířku pásma k maximalizaci propustnosti přesunu dat pro vaše prostředí.

Zákazníci úspěšně migrovali petabajty dat sestávajících ze stovek milionů souborů z AmazonU S3 do Azure Blob Storage s trvalou propustností 2 GB/s a vyšší.

Diagram znázorňuje několik oddílů souborů v úložišti A W S3 s přidruženými akcemi kopírování do Azure Blob Storage A D L S Gen2.

Výše uvedený obrázek ukazuje, jak můžete dosáhnout velkých rychlostí přesunu dat prostřednictvím různých úrovní paralelismu:

Jedna aktivita kopírování může využívat škálovatelné výpočetní prostředky: při použití prostředí Azure Integration Runtime můžete zadat až 256 jednotek DIU pro každou aktivitu kopírování bezserverovým způsobem. Při použití místního prostředí Integration Runtime můžete ručně vertikálně navýšit kapacitu počítače nebo škálovat na více počítačů (až na čtyři uzly) a jedna aktivita kopírování rozdělí svoji sadu souborů napříč všemi uzly.
Jedna aktivita kopírování čte z úložiště dat a zapisuje se do úložiště dat pomocí více vláken.
Řídicí tok ADF může spouštět více aktivit kopírování paralelně, například pomocí smyčky For Each.

Odolnost

V rámci jednoho spuštění aktivity kopírování má ADF integrovaný mechanismus opakování, aby mohl zpracovávat určitou úroveň přechodných selhání v úložištích dat nebo v podkladové síti.

Při binárním kopírování z S3 do objektu blob a z S3 do ADLS Gen2 služba ADF automaticky provádí kontrolní body. Pokud spuštění aktivity kopírování selhalo nebo vypršel časový limit, při následném opakování se kopírování obnoví z posledního bodu selhání místo toho, aby začínalo od začátku.

Zabezpečení sítě

Ve výchozím nastavení ADF přenáší data z AmazonU S3 do Azure Blob Storage nebo Azure Data Lake Storage Gen2 pomocí šifrovaného připojení přes protokol HTTPS. HTTPS poskytuje šifrování přenášených dat a zabraňuje odposlouchávání a útokům typu man-in-the-middle.

Pokud nechcete, aby se data přenášela přes veřejný internet, můžete dosáhnout vyššího zabezpečení přenosem dat přes privátní partnerský vztah mezi AWS Direct Connect a Azure ExpressRoute. Informace o tom, jak toho dosáhnout, najdete v architektuře řešení v další části.

Architektura řešení

Migrace dat přes veřejný internet:

Diagram znázorňuje migraci přes internet pomocí H T T P z úložiště A W S S3 prostřednictvím Azure Integration Runtime v A D F Azure do Azure Storage. Runtime má řídicí kanál se službou Data Factory.

V této architektuře se data bezpečně přenášejí pomocí protokolu HTTPS přes veřejný internet.
Zdrojový Amazon S3 i cílová služba Azure Blob Storage nebo Azure Data Lake Storage Gen2 jsou nakonfigurované tak, aby povolovaly provoz ze všech síťových IP adres. Podívejte se na druhou architekturu, na kterou se odkazuje později na této stránce, jak můžete omezit přístup k síti na konkrétní rozsah IP adres.
Kapacitu výkonu můžete snadno škálovat v režimu bez serverů, abyste plně využili šířku pásma své sítě a úložišť a dosáhli tak nejlepší propustnosti pro vaše prostředí.
Pomocí této architektury lze dosáhnout jak počáteční migrace datových snímků, tak rozdílové migrace dat.

Migrace dat přes privátní propojení:

Diagram znázorňuje migraci přes privátní peeringové připojení z úložiště AWS S3 prostřednictvím vlastního prostředí Integration Runtime na virtuálních počítačích Azure do koncových bodů služby VNet ve službě Azure Storage. Modul runtime má řídicí kanál se službou Data Factory.

V této architektuře se migrace dat provádí přes privátní partnerské propojení mezi AWS Direct Connect a Azure ExpressRoute, aby se data nikdy neprocházely přes veřejný internet. Vyžaduje použití AWS VPC a virtuální sítě Azure.
K dosažení této architektury je potřeba nainstalovat místní prostředí Integration Runtime ADF na virtuální počítač s Windows ve vaší virtuální síti Azure. Můžete ručně vertikálně navýšit kapacitu svých virtuálních počítačů IR v místním prostředí nebo horizontálně škálovat na více virtuálních počítačů (až na čtyři uzly), abyste plně využili IOPS a šířku pásma sítě a úložiště.
Pomocí této architektury lze realizovat jak migraci počátečního snímku dat, tak i rozdílovou migraci dat.

Osvědčené postupy implementace

Ověřování a správa přihlašovacích údajů

Pokud se chcete ověřit u účtu Amazon S3, musíte pro účet IAM použít přístupový klíč.
Pro připojení ke službě Azure Blob Storage se podporuje více typů ověřování. Použití spravovaných identit pro prostředky Azure se důrazně doporučuje: založena na automaticky spravované identitě ADF v Microsoft Entra ID, umožňuje konfigurovat datové kanály bez zadání přihlašovacích údajů v definici propojené služby. Případně se můžete ověřit ve službě Azure Blob Storage pomocí instančního objektu, sdíleného přístupového podpisu nebo klíče účtu úložiště.
Pro připojení k Azure Data Lake Storage Gen2 se podporuje také více typů ověřování. Použití spravovaných identit pro prostředky Azure se důrazně doporučuje, ačkoli lze také použít principál služby nebo klíč účtu úložiště.
Pokud nepoužíváte spravované identity pro prostředky Azure, důrazně doporučujeme ukládat přihlašovací údaje ve službě Azure Key Vault , aby bylo snazší centrálně spravovat a obměňovat klíče bez úprav propojených služeb ADF. Toto je také jeden z osvědčených postupů pro CI/CD.

Počáteční migrace snímkových dat

Doporučuje se rozdělení dat, zejména při migraci více než 100 TB dat. Pokud chcete data rozdělit, pomocí nastavení předpony vyfiltrujte složky a soubory v AmazonU S3 podle názvu a každá úloha kopírování ADF může najednou zkopírovat jeden oddíl. Pro zajištění lepší propustnosti můžete souběžně spouštět několik úloh kopírování ADF.

Pokud některé úlohy kopírování selžou kvůli přechodnému problému se sítí nebo úložištěm dat, můžete znovu spustit neúspěšnou úlohu kopírování a znovu načíst konkrétní oddíl z AWS S3. Všechny ostatní úlohy kopírování, které načítají další oddíly, nebudou ovlivněny.

Rozdílová migrace dat

Nejvýkonnější způsob, jak identifikovat nové nebo změněné soubory z AWS S3, je použití konvence vytváření názvů rozdělených podle času – když jsou data v AWS S3 čas rozdělena s informacemi o časovém řezu v názvu souboru nebo složky (například /yyyy/mm/dd/file.csv), může váš kanál snadno zjistit, které soubory a složky se mají přírůstkově kopírovat.

Pokud data v AWS S3 nejsou čas rozdělená na oddíly, může ADF identifikovat nové nebo změněné soubory podle hodnoty LastModifiedDate. Funguje to tak, že ADF prohledá všechny soubory z AWS S3 a zkopíruje jenom nový a aktualizovaný soubor, jehož časové razítko poslední změny je větší než určitá hodnota. Pokud máte v S3 velký počet souborů, může počáteční kontrola souborů trvat dlouhou dobu bez ohledu na to, kolik souborů odpovídá podmínce filtru. V takovém případě doporučujeme nejprve rozdělit data pomocí stejného nastavení předpony pro počáteční migraci snímků, aby kontrola souborů probíhala paralelně.

Scénáře, které vyžadují místní prostředí Integration Runtime na virtuálním počítači Azure

Bez ohledu na to, jestli migrujete data přes privátní propojení, nebo chcete povolit konkrétní rozsah IP adres na bráně firewall Amazon S3, musíte na virtuální počítač Azure s Windows nainstalovat místní prostředí Integration Runtime.

Doporučená konfigurace pro každý virtuální počítač Azure je Standard_D32s_v3 s 32 virtuálními procesory a 128 GB paměti. Během migrace dat můžete sledovat využití procesoru a paměti virtuálního počítače IR, abyste zjistili, jestli potřebujete virtuální počítač dále vertikálně navýšit, abyste dosáhli lepšího výkonu nebo vertikálně snížit kapacitu virtuálního počítače, abyste ušetřili náklady.
Můžete také horizontálně škálovat přidržením až čtyř uzlů virtuálních počítačů k jednomu lokálně hostovanému IR. Jedna úloha kopírování spuštěná proti svépomocí hostovanému prostředí IR automaticky rozdělí sadu souborů a použije všechny uzly virtuálních počítačů k paralelnímu kopírování souborů. Pro zajištění vysoké dostupnosti doporučujeme začít se dvěma uzly virtuálních počítačů, abyste se vyhnuli jedinému bodu selhání během migrace dat.

Omezování rychlosti

Osvědčeným postupem je provedení výkonnostního POC s reprezentativní vzorovou datovou sadou, abyste mohli určit odpovídající velikost oddílu.

Začněte s jedním oddílem a s jedinou aktivitou kopírování při použití výchozího nastavení DIU. Postupně zvyšte nastavení DIU, dokud nedosáhnete limitu šířky pásma sítě nebo vstupně-výstupních operací za sekundu a šířky pásma úložišť dat, nebo jste dosáhli maximálního počtu 256 DIU povolených u jedné aktivity kopírování.

Dále postupně zvyšte počet souběžných aktivit kopírování, dokud nedosáhnete limitů vašeho prostředí.

Pokud narazíte na chyby omezování hlášené aktivitou kopírování ADF, snižte nastavení souběžnosti nebo DIU v ADF nebo zvažte zvýšení limitů šířky pásma nebo IOPS sítě a úložišť dat.

Odhad ceny

Poznámka:

Jedná se o hypotetický příklad cen. Vaše skutečné ceny závisí na skutečné propustnosti ve vašem prostředí.

Vezměte v úvahu následující kanál vytvořený pro migraci dat z S3 do služby Azure Blob Storage:

Diagram znázorňuje pipeline pro migraci dat s ručním spuštěním, které přechází do Lookup, přechází do ForEach a dále do sub-pipeliny pro každou partition, která obsahuje Copy, přecházející do uložené procedury. Mimo pipeline uložená procedura přechází do Azure SQL DB, která přechází do Lookup a AWS S3 přechází do Copy, které přechází do Blob storage.

Předpokládejme následující:

Celkový objem dat je 2 PB
Migrace dat přes HTTPS s využitím první architektury řešení
2 PB je rozděleno do 1 kB oddílů a každá kopie přesune jeden oddíl.
Každá kopie je nakonfigurovaná s DIU=256 a dosahuje propustnosti 1 GB/s.
Souběžnost ForEach je nastavená na 2 a agregovaná propustnost je 2 GB/s.
Dokončení migrace trvá celkem 292 hodin.

Tady je odhadovaná cena na základě výše uvedených předpokladů:

Snímek obrazovky s tabulkou znázorňující odhadovanou cenu

Další odkazy

Šablona

Tady je šablona , se kterou můžete začít migrovat petabajty dat sestávajících ze stovek milionů souborů z AmazonU S3 do Azure Data Lake Storage Gen2.

Kopírování souborů z více kontejnerů pomocí služby Azure Data Factory