Migrace místních clusterů Apache Hadoop do Azure HDInsight – motivace a výhody

Článek
12/08/2023

Tento článek je první v řadě osvědčených postupů pro migraci místních nasazení prostředí Apache Hadoop do Azure HDInsight. Tato série článků je určená lidem, kteří zodpovídají za návrh, nasazení a migraci řešení Apache Hadoop ve službě Azure HDInsight. Mezi role, které můžou tyto články využívat, patří cloudoví architekti, správci Hadoopu a technici DevOps. Vývojáři softwaru, datoví inženýři a datoví vědci by také měli těžit z vysvětlení toho, jak různé typy clusterů fungují v cloudu.

Proč migrovat do Služby Azure HDInsight

Azure HDInsight je cloudová distribuce komponent Hadoopu. Azure HDInsight umožňuje snadné, rychlé a nákladově efektivní zpracování obrovského množství dat. HDInsight zahrnuje nejoblíbenější opensourcové architektury, jako jsou:

Apache Hadoop
Apache Spark
Apache Hive s LLAP
Apache Kafka
Apache HBase

Výhody Azure HDInsight oproti místnímu systému Hadoop

Nízké náklady – Náklady se dají snížit vytvořením clusterů na vyžádání a placením jenom za to, co používáte. Oddělení výpočetních prostředků a úložiště poskytuje flexibilitu díky zachování objemu dat nezávisle na velikosti clusteru.
Automatizované vytváření clusteru – Automatizované vytváření clusteru vyžaduje minimální nastavení a konfiguraci. Automatizaci je možné použít pro clustery na vyžádání.
Spravovaný hardware a konfigurace – Nemusíte se starat o fyzický hardware nebo infrastrukturu s clusterem HDInsight. Stačí zadat konfiguraci clusteru a Azure ho nastaví.
Snadno škálovatelné – HDInsight umožňuje škálovat úlohy nahoru nebo dolů. Azure se stará o redistribuci dat a vyrovnávání úloh bez přerušení úloh zpracování dat.
Globální dostupnost – HDInsight je k dispozici ve více oblastech než jakákoli jiná nabídka analýzy velkých objemů dat. Služba Azure HDInsight je dostupná také pro Azure Government, Čínu a Německo a umožňuje tak splnit požadavky vašeho podniku v klíčových suverénních oblastech.
Zabezpečení a dodržování předpisů – HDInsight umožňuje chránit podnikové datové prostředky pomocí služby Azure Virtual Network, šifrování a integrace s Microsoft Entra ID. HDInsight také splňuje nejoblíbenější oborové a vládní standardy dodržování předpisů.
Zjednodušená správa verzí – Azure HDInsight spravuje verzi komponent eco-system Hadoop a udržuje je v aktualizovaném stavu. Aktualizace softwaru jsou obvykle složitým procesem pro místní nasazení.
Menší clustery optimalizované pro konkrétní úlohy s menším počtem závislostí mezi komponentami – typické místní nastavení Hadoopu používá jeden cluster, který slouží mnoha účelům. S Azure HDInsight je možné vytvářet clustery specifické pro úlohy. Vytváření clusterů pro konkrétní úlohy eliminuje složitost údržby jednoho clusteru s rostoucí složitostí.
Produktivita – Ve svém upřednostňovaném vývojovém prostředí můžete použít různé nástroje pro Hadoop a Spark.
Rozšiřitelnost pomocí vlastních nástrojů nebo aplikací třetích stran – clustery HDInsight je možné rozšířit o nainstalované komponenty a lze je také integrovat s dalšími řešeními pro velké objemy dat pomocí nasazení jedním kliknutím z webu Azure Market.
Snadná správa, správa a monitorování – Azure HDInsight se integruje s protokoly Služby Azure Monitor a poskytuje jedno rozhraní, pomocí kterého můžete monitorovat všechny clustery.
Integrace s dalšími službami Azure – HDInsight je možné snadno integrovat s dalšími oblíbenými službami Azure, jako jsou například:
- Azure Data Factory (ADF)
- Azure Blob Storage
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure SQL Database
- Azure Analysis Services
Samoopravené procesy a komponenty – HDInsight neustále kontroluje infrastrukturu a opensourcové komponenty pomocí vlastní monitorovací infrastruktury. Také automaticky obnoví kritické chyby, jako je nedostupnost opensourcových komponent a uzlů. Výstrahy se v Ambari aktivují v případě, že některá komponenta operačního systému selhala.

Další informace najdete v článku Co je Azure HDInsight a sada technologií Apache Hadoop.

Proces plánování migrace

Pro plánování migrace místních clusterů Hadoop do Azure HDInsight se doporučuje následující kroky:

Seznamte se s aktuálním místním nasazením a topologií.
Seznamte se s aktuálním rozsahem projektu, časovými osami a znalostmi týmu.
Seznamte se s požadavky Azure.
Vytvořte podrobný plán založený na osvědčených postupech.

Shromažďování podrobností pro přípravu na migraci

Tato část obsahuje šablonové dotazníky, které vám pomůžou shromáždit důležité informace o:

Místní nasazení
Podrobnosti projektu
Požadavky na Azure

Dotazník pro místní nasazení

Dotaz	Příklad	Odpověď
Téma: Prostředí
Verze distribuce clusteru	HDP 2.6.5, CDH 5.7
Eco-system komponenty pro velké objemy dat	HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Typy clusterů	Hadoop, Spark, Confluent Kafka, Solr
Počet clusterů	4
Počet hlavních uzlů	2
Počet pracovních uzlů	100
Počet hraničních uzlů	5
Celkové místo na disku	100 TB
Konfigurace hlavního uzlu	m/y, cpu, disk atd.
Konfigurace datových uzlů	m/y, cpu, disk atd.
Konfigurace hraničních uzlů	m/y, cpu, disk atd.
Šifrování HDFS?	Ano
Vysoká dostupnost	VYSOKÁ DOSTUPNOST HDFS, Vysoká dostupnost metastoru
Zotavení po havárii / zálohování	Zálohování clusteru?
Systémy závislé na clusteru	SQL Server, Teradata, Power BI, MongoDB
Integrace třetích stran	Tableau, GridGain, Qubole, Informatica, Splunk
Téma: Zabezpečení
Zabezpečení hraniční sítě	Brány firewall
Ověřování a autorizace clusteru	Active Directory, Ambari, Cloudera Manager, Bez ověřování
Řízení přístupu HDFS	Ruční, uživatelé SSH
Ověřování a autorizace Hive	Sentry, LDAP, AD s protokolem Kerberos, Ranger
Auditování	Ambari, Cloudera Navigator, Ranger
Sledování	Graphite, collectd, `statsd`, Telegraf, InfluxDB
Upozorňování	`Kapacitor`, Prometheus, Datadog
Doba uchovávání dat	Tři roky, pět let
Správa istrátory clusteru	Jeden Správa istrator, více Správa istrátorů

Dotazník podrobností o projektu

Dotaz	Příklad	Odpověď
Téma: Úlohy a frekvence
Úlohy MapReduce	10 úloh – dvakrát denně
Úlohy Hive	100 úloh – každou hodinu
Dávkové úlohy Sparku	50 úloh – každých 15 minut
Úlohy streamování Sparku	5 úloh – každých 3 minuty
Úlohy strukturovaného streamování	5 úloh – každou minutu
Programovací jazyky	Python, Scala, Java
Skriptování	Shell, Python
Téma: Data
Zdroje dat	Ploché soubory, Json, Kafka, RDBMS
Orchestrace dat	Pracovní postupy Oozie, Airflow
Ve vyhledávání paměti	Apache Ignite, Redis
Cíle dat	HDFS, RDBMS, Kafka, MPP
Téma: Meta data
Typ databáze Hive	Mysql, Postgres
Počet metastorů Hive	2
Počet tabulek Hive	100
Počet zásad Rangeru	20
Počet pracovních postupů Oozie	100
Téma: Škálování
Objem dat včetně replikace	100 TB
Objem denního příjmu dat	50 GB
Rychlost růstu dat	10 % za rok
Míra růstu uzlů clusteru	5 % za rok
Téma: Využití clusteru
Průměrné procento využití procesoru	60 %
Průměrné procento využité paměti	75 %
Využité místo na disku	75 %
Průměrné procento využití sítě	25 %
Téma: Zaměstnanci
Počet Správa istrátorů	2
Počet vývojářů	10
Počet koncových uživatelů	100
Kvalifikace	Hadoop, Spark
Počet dostupných prostředků pro úsilí o migraci	2
Téma: Omezení
Aktuální omezení	Latence je vysoká
Aktuální výzvy	Problém s souběžností

Dotazník požadavků na Azure

Dotaz	Příklad	Odpověď
Téma: Infrastruktura
Upřednostňovaná oblast	Východ USA
Upřednostňovaná virtuální síť?	Ano
Ha / DR potřeba?	Ano
Integrace s jinými cloudovými službami?	ADF, Azure Cosmos DB
Téma: Přesun dat
Předvolba počátečního načtení	DistCp, Data box, ADF, WANDisco
Rozdíl přenosu dat	DistCp, AzCopy
Průběžný přírůstkový přenos dat	DistCp, Sqoop
Téma: Monitorování a upozorňování
Použití monitorování a upozorňování Azure vs. Integrace monitorování třetích stran	Použití monitorování a upozorňování Azure
Téma: Předvolby zabezpečení
Privátní a chráněný datový kanál?	Ano
Cluster připojený k doméně (ESP)?	Ano
Místní synchronizace AD do cloudu?	Ano
Počet uživatelů AD, kteří se mají synchronizovat?	100
Chcete synchronizovat hesla do cloudu?	Ano
Jenom cloudoví uživatelé?	Ano
Vyžaduje se vícefaktorové ověřování?	No
Požadavky na autorizaci dat?	Ano
Řízení přístupu na základě role?	Ano
Auditování je potřeba?	Ano
Šifrování neaktivních uložených dat?	Ano
Šifrování dat při přenosu?	Ano
Téma: Opětovné předvolby architektury
Jeden cluster vs. konkrétní typy clusterů	Konkrétní typy clusterů
Společné přidělení úložiště vs. vzdálené úložiště?	Vzdálené úložiště
Menší velikost clusteru, protože se data ukládají vzdáleně?	Menší velikost clusteru
Místo jednoho velkého clusteru používejte více menších clusterů?	Použití několika menších clusterů
Používáte vzdálený metastor?	Ano
Sdílet metastory mezi různými clustery?	Ano
Dekonstrukční úlohy?	Nahrazení úloh Hive úlohami Sparku
Používáte ADF pro orchestraci dat?	No

Další kroky

Přečtěte si další článek v této sérii:

Osvědčené postupy architektury pro místní migraci do Azure HDInsight Hadoopu