Sdílet prostřednictvím


Nástroje pro migraci datového skladu Netezza do Azure Synapse Analytics

Tento článek je šestou částí sedmidílné série, která obsahuje pokyny k migraci z Netezza na Azure Synapse Analytics. Tento článek se zaměřuje na osvědčené postupy pro nástroje microsoftu a třetích stran.

Nástroje pro migraci datového skladu

Migrací existujícího datového skladu do Azure Synapse získáte výhody:

  • Globálně zabezpečená, škálovatelná analytická databáze s nízkými náklady nativní pro cloud a průběžnými platbou

  • Bohatý analytický ekosystém Microsoftu, který existuje v Azure. Tento ekosystém se skládá z technologií, které po migraci pomáhají modernizovat datový sklad a rozšířit analytické možnosti tak, aby získaly novou hodnotu.

S migrací existujícího datového skladu do Azure Synapse vám může pomoct několik nástrojů od microsoftu i jiných partnerů. Tento článek popisuje následující typy nástrojů:

  • Nástroje microsoftu pro migraci dat a databází.

  • Nástroje pro automatizaci datového skladu třetích stran pro automatizaci a dokumentaci migrace do Azure Synapse

  • Nástroje pro migraci datového skladu třetích stran pro migraci schématu a dat do Azure Synapse

  • Nástroje třetích stran, které překlenou rozdíly v SQL mezi existujícím systémem DBMS datového skladu a Azure Synapse.

Nástroje microsoftu pro migraci dat

Microsoft nabízí několik nástrojů, které vám pomůžou migrovat stávající datový sklad do Azure Synapse, například:

  • Azure Data Factory.

  • Služby Microsoftu pro fyzický přenos dat.

  • Služby Microsoftu pro příjem dat.

Další části popisují tyto nástroje podrobněji.

Microsoft Azure Data Factory

Data Factory je plně spravovaná hybridní služba integrace dat s průběžnými platbou pro vysoce škálovatelné zpracování ETL a ELT. Používá Apache Spark k paralelnímu zpracování a analýze dat a k maximalizaci propustnosti v paměti.

Tip

Data Factory umožňuje vytvářet škálovatelné kanály integrace dat bez kódu.

Konektory služby Data Factory podporují připojení k externím zdrojům dat a databázím a zahrnují šablony pro běžné úlohy integrace dat. Vizuální front-endové uživatelské rozhraní založené na prohlížeči umožňuje neprogramátorům vytvářet a spouštět kanály pro příjem, transformaci a načítání dat. Zkušenější programátoři můžou začlenit vlastní kód, například programy v Pythonu.

Tip

Data Factory umožňuje spolupráci mezi obchodními a IT specialisty.

Data Factory je také nástroj pro orchestraci a je nejlepším nástrojem Microsoftu pro automatizaci kompletního procesu migrace. Automatizace snižuje riziko, úsilí a čas na migraci a usnadňuje opakování procesu migrace. Následující diagram znázorňuje mapování toku dat ve službě Data Factory.

Snímek obrazovky s příkladem mapování toku dat služby Data Factory

Další snímek obrazovky ukazuje transformaci toku dat ve službě Data Factory.

Snímek obrazovky znázorňující příklad transformace toků dat služby Data Factory

Ve službě Data Factory můžete několika kliknutími vyvíjet jednoduché nebo komplexní procesy ETL a ELT bez nutnosti kódování nebo údržby. ETL/ELT zpracovává ingestování, přesouvání, přípravu, transformaci a zpracování dat. Ve službě Data Factory můžete navrhnout a spravovat plánování a aktivační události a vytvořit tak prostředí pro automatizovanou integraci dat a načítání. Ve službě Data Factory můžete definovat, spravovat a plánovat procesy hromadného načítání dat PolyBase.

Tip

Data Factory obsahuje nástroje, které vám pomůžou s migrací dat i celého datového skladu do Azure.

Službu Data Factory můžete použít k implementaci a správě hybridního prostředí s místními, cloudovými, streamovanými a saaS daty zabezpečeným a konzistentním způsobem. Data SaaS můžou pocházet z aplikací, jako je Salesforce.

Transformace toků dat je nová funkce ve službě Data Factory. Tato funkce otevře data Factory firemním uživatelům, kteří chtějí vizuálně zjišťovat, zkoumat a připravovat data ve velkém měřítku bez psaní kódu. Transformace toků dat nabízí samoobslužnou přípravu dat podobně jako Microsoft Excel, Power Query a toky dat Microsoft Power BI. Podnikoví uživatelé mohou připravit a integrovat data prostřednictvím uživatelského rozhraní ve stylu tabulky s možnostmi rozevírací transformace.

Data Factory je doporučený přístup k implementaci integrace dat a procesů ETL/ELT v Azure Synapse prostředí, zejména pokud chcete refaktorovat stávající starší procesy.

Služby Microsoftu pro fyzický přenos dat

Následující části popisují celou řadu produktů a služeb, které Microsoft nabízí jako pomoc zákazníkům s přenosem dat.

Azure ExpressRoute

Azure ExpressRoute vytváří privátní připojení mezi datovými centry Azure a infrastrukturou v místním prostředí nebo v kolokačním prostředí. Připojení ExpressRoute neprocházejí přes veřejný internet a nabízejí větší spolehlivost, vyšší rychlost a nižší latenci než typická připojení k internetu. V některých případech získáte výrazné úspory nákladů tím, že použijete připojení ExpressRoute k přenosu dat mezi místními systémy a Azure.

AzCopy

AzCopy je nástroj příkazového řádku, který kopíruje soubory do Azure Blob Storage přes standardní internetové připojení. V projektu migrace skladu můžete pomocí nástroje AzCopy nahrát extrahované, komprimované textové soubory s oddělovači před jejich načtením do Azure Synapse pomocí PolyBase. AzCopy může nahrávat jednotlivé soubory, výběry souborů nebo složky souborů. Pokud jsou exportované soubory ve formátu Parquet, použijte místo toho nativní čtečku Parquet.

Azure Data Box

Azure Data Box je služba Microsoftu, která poskytuje proprietární fyzické paměťové zařízení, na které můžete kopírovat data migrace. Zařízení pak odešlete do datacentra Azure, kde se data nahrají do cloudového úložiště. Tato služba může být nákladově efektivní pro velké objemy dat, jako jsou desítky nebo stovky terabajtů, nebo tam, kde šířka pásma sítě není snadno dostupná. Azure Data Box se obvykle používá pro velké jednorázové načítání historických dat do Azure Synapse.

Azure Data Box Gateway

Azure Data Box Gateway je zařízení brány virtualizovaného cloudového úložiště, které se nachází ve vašem místním prostředí a odesílá vaše obrázky, média a další data do Azure. Data Box Gateway můžete použít k jednorázovým úlohám migrace nebo průběžnému nahrávání přírůstkových dat.

Služby Microsoftu pro příjem dat

Následující části popisují produkty a služby, které Microsoft nabízí jako pomoc zákazníkům s příjmem dat.

COPY INTO

Příkaz COPY INTO poskytuje největší flexibilitu pro příjem dat do Azure Synapse s vysokou propustností. Další informace o COPY INTO možnostech najdete v tématu COPY (Transact-SQL).

PolyBase

PolyBase je nejrychlejší a škálovatelná metoda pro hromadné načítání dat do Azure Synapse. PolyBase používá architekturu mpp (Massively Parallel Processing) Azure Synapse k paralelnímu načítání dat, aby se dosáhlo co nejrychlejší propustnosti. PolyBase může číst data z plochých souborů v Azure Blob Storage nebo přímo z externích zdrojů dat a jiných relačních databází prostřednictvím konektorů.

Tip

PolyBase může načítat data paralelně z Azure Blob Storage do Azure Synapse.

PolyBase může také přímo číst ze souborů komprimovaných pomocí gzip, aby se snížil fyzický objem dat během procesu načítání. PolyBase podporuje oblíbené formáty dat, jako je text s oddělovači, ORC a Parquet.

Tip

PolyBase můžete vyvolat ze služby Data Factory jako součást kanálu migrace.

PolyBase je úzce integrovaná se službou Data Factory, aby podporovala rychlý vývoj procesů ETL/ELT načítání dat. Procesy načítání dat můžete naplánovat prostřednictvím vizuálního uživatelského rozhraní, abyste měli vyšší produktivitu a méně chyb než ručně psaný kód. Microsoft doporučuje PolyBase pro příjem dat do Azure Synapse, zejména pro příjem velkých objemů dat.

PolyBase používá CREATE TABLE AS příkazy nebo INSERT...SELECT k načtení dat. CREATE TABLE AS minimalizuje protokolování, aby se dosáhlo nejvyšší propustnosti. Nejefektivnějším formátem vstupu pro načítání dat jsou komprimované textové soubory s oddělovači. Pro dosažení maximální propustnosti rozdělte velké vstupní soubory na několik menších souborů a načítejte je paralelně. Pro nejrychlejší načtení do pracovní tabulky definujte cílovou tabulku jako HEAP typ a použijte distribuci kruhového dotazování.

PolyBase má určitá omezení– vyžaduje, aby délka řádku dat byla menší než 1 megabajt, a nepodporuje vnořené formáty s pevnou šířkou, jako jsou JSON a XML.

Partneři Microsoftu pro migrace netezza

Partneři Microsoftu nabízejí nástroje, služby a odborné znalosti, které vám pomůžou migrovat starší platformu místního datového skladu na Azure Synapse.

Další kroky

Další informace o implementaci moderních datových skladů najdete v následujícím článku v této sérii: Kromě migrace netezza můžete implementovat moderní datový sklad v Microsoft Azure.