Migrace místních clusterů Apache Hadoop do Azure HDInsight – motivace a výhody
Tento článek je první v řadě osvědčených postupů pro migraci místních nasazení prostředí Apache Hadoop do Azure HDInsight. Tato série článků je určená lidem, kteří zodpovídají za návrh, nasazení a migraci řešení Apache Hadoop ve službě Azure HDInsight. Mezi role, které můžou tyto články využívat, patří cloudoví architekti, správci Hadoopu a technici DevOps. Vývojáři softwaru, datoví inženýři a datoví vědci by také měli těžit z vysvětlení toho, jak různé typy clusterů fungují v cloudu.
Proč migrovat do Služby Azure HDInsight
Azure HDInsight je cloudová distribuce komponent Hadoopu. Azure HDInsight umožňuje snadné, rychlé a nákladově efektivní zpracování obrovského množství dat. HDInsight zahrnuje nejoblíbenější opensourcové architektury, jako jsou:
- Apache Hadoop
- Apache Spark
- Apache Hive s LLAP
- Apache Kafka
- Apache HBase
Výhody Azure HDInsight oproti místnímu systému Hadoop
Nízké náklady – Náklady se dají snížit vytvořením clusterů na vyžádání a placením jenom za to, co používáte. Oddělení výpočetních prostředků a úložiště poskytuje flexibilitu díky zachování objemu dat nezávisle na velikosti clusteru.
Automatizované vytváření clusteru – Automatizované vytváření clusteru vyžaduje minimální nastavení a konfiguraci. Automatizaci je možné použít pro clustery na vyžádání.
Spravovaný hardware a konfigurace – Nemusíte se starat o fyzický hardware nebo infrastrukturu s clusterem HDInsight. Stačí zadat konfiguraci clusteru a Azure ho nastaví.
Snadno škálovatelné – HDInsight umožňuje škálovat úlohy nahoru nebo dolů. Azure se stará o redistribuci dat a vyrovnávání úloh bez přerušení úloh zpracování dat.
Globální dostupnost – HDInsight je k dispozici ve více oblastech než jakákoli jiná nabídka analýzy velkých objemů dat. Služba Azure HDInsight je dostupná také pro Azure Government, Čínu a Německo a umožňuje tak splnit požadavky vašeho podniku v klíčových suverénních oblastech.
Zabezpečení a dodržování předpisů – HDInsight umožňuje chránit podnikové datové prostředky pomocí služby Azure Virtual Network, šifrování a integrace s Microsoft Entra ID. HDInsight také splňuje nejoblíbenější oborové a vládní standardy dodržování předpisů.
Zjednodušená správa verzí – Azure HDInsight spravuje verzi komponent eco-system Hadoop a udržuje je v aktualizovaném stavu. Aktualizace softwaru jsou obvykle složitým procesem pro místní nasazení.
Menší clustery optimalizované pro konkrétní úlohy s menším počtem závislostí mezi komponentami – typické místní nastavení Hadoopu používá jeden cluster, který slouží mnoha účelům. S Azure HDInsight je možné vytvářet clustery specifické pro úlohy. Vytváření clusterů pro konkrétní úlohy eliminuje složitost údržby jednoho clusteru s rostoucí složitostí.
Produktivita – Ve svém upřednostňovaném vývojovém prostředí můžete použít různé nástroje pro Hadoop a Spark.
Rozšiřitelnost pomocí vlastních nástrojů nebo aplikací třetích stran – clustery HDInsight je možné rozšířit o nainstalované komponenty a lze je také integrovat s dalšími řešeními pro velké objemy dat pomocí nasazení jedním kliknutím z webu Azure Market.
Snadná správa, správa a monitorování – Azure HDInsight se integruje s protokoly Služby Azure Monitor a poskytuje jedno rozhraní, pomocí kterého můžete monitorovat všechny clustery.
Integrace s dalšími službami Azure – HDInsight je možné snadno integrovat s dalšími oblíbenými službami Azure, jako jsou například:
- Azure Data Factory (ADF)
- Azure Blob Storage
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure SQL Database
- Azure Analysis Services
Samoopravené procesy a komponenty – HDInsight neustále kontroluje infrastrukturu a opensourcové komponenty pomocí vlastní monitorovací infrastruktury. Také automaticky obnoví kritické chyby, jako je nedostupnost opensourcových komponent a uzlů. Výstrahy se v Ambari aktivují v případě, že některá komponenta operačního systému selhala.
Další informace najdete v článku Co je Azure HDInsight a sada technologií Apache Hadoop.
Proces plánování migrace
Pro plánování migrace místních clusterů Hadoop do Azure HDInsight se doporučuje následující kroky:
- Seznamte se s aktuálním místním nasazením a topologií.
- Seznamte se s aktuálním rozsahem projektu, časovými osami a znalostmi týmu.
- Seznamte se s požadavky Azure.
- Vytvořte podrobný plán založený na osvědčených postupech.
Shromažďování podrobností pro přípravu na migraci
Tato část obsahuje šablonové dotazníky, které vám pomůžou shromáždit důležité informace o:
- Místní nasazení
- Podrobnosti projektu
- Požadavky na Azure
Dotazník pro místní nasazení
Dotaz | Příklad | Odpověď |
---|---|---|
Téma: Prostředí | ||
Verze distribuce clusteru | HDP 2.6.5, CDH 5.7 | |
Eco-system komponenty pro velké objemy dat | HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R | |
Typy clusterů | Hadoop, Spark, Confluent Kafka, Solr | |
Počet clusterů | 4 | |
Počet hlavních uzlů | 2 | |
Počet pracovních uzlů | 100 | |
Počet hraničních uzlů | 5 | |
Celkové místo na disku | 100 TB | |
Konfigurace hlavního uzlu | m/y, cpu, disk atd. | |
Konfigurace datových uzlů | m/y, cpu, disk atd. | |
Konfigurace hraničních uzlů | m/y, cpu, disk atd. | |
Šifrování HDFS? | Ano | |
Vysoká dostupnost | VYSOKÁ DOSTUPNOST HDFS, Vysoká dostupnost metastoru | |
Zotavení po havárii / zálohování | Zálohování clusteru? | |
Systémy závislé na clusteru | SQL Server, Teradata, Power BI, MongoDB | |
Integrace třetích stran | Tableau, GridGain, Qubole, Informatica, Splunk | |
Téma: Zabezpečení | ||
Zabezpečení hraniční sítě | Brány firewall | |
Ověřování a autorizace clusteru | Active Directory, Ambari, Cloudera Manager, Bez ověřování | |
Řízení přístupu HDFS | Ruční, uživatelé SSH | |
Ověřování a autorizace Hive | Sentry, LDAP, AD s protokolem Kerberos, Ranger | |
Auditování | Ambari, Cloudera Navigator, Ranger | |
Sledování | Graphite, collectd, statsd , Telegraf, InfluxDB |
|
Upozorňování | Kapacitor , Prometheus, Datadog |
|
Doba uchovávání dat | Tři roky, pět let | |
Správa istrátory clusteru | Jeden Správa istrator, více Správa istrátorů |
Dotazník podrobností o projektu
Dotaz | Příklad | Odpověď |
---|---|---|
Téma: Úlohy a frekvence | ||
Úlohy MapReduce | 10 úloh – dvakrát denně | |
Úlohy Hive | 100 úloh – každou hodinu | |
Dávkové úlohy Sparku | 50 úloh – každých 15 minut | |
Úlohy streamování Sparku | 5 úloh – každých 3 minuty | |
Úlohy strukturovaného streamování | 5 úloh – každou minutu | |
Programovací jazyky | Python, Scala, Java | |
Skriptování | Shell, Python | |
Téma: Data | ||
Zdroje dat | Ploché soubory, Json, Kafka, RDBMS | |
Orchestrace dat | Pracovní postupy Oozie, Airflow | |
Ve vyhledávání paměti | Apache Ignite, Redis | |
Cíle dat | HDFS, RDBMS, Kafka, MPP | |
Téma: Meta data | ||
Typ databáze Hive | Mysql, Postgres | |
Počet metastorů Hive | 2 | |
Počet tabulek Hive | 100 | |
Počet zásad Rangeru | 20 | |
Počet pracovních postupů Oozie | 100 | |
Téma: Škálování | ||
Objem dat včetně replikace | 100 TB | |
Objem denního příjmu dat | 50 GB | |
Rychlost růstu dat | 10 % za rok | |
Míra růstu uzlů clusteru | 5 % za rok | |
Téma: Využití clusteru | ||
Průměrné procento využití procesoru | 60 % | |
Průměrné procento využité paměti | 75 % | |
Využité místo na disku | 75 % | |
Průměrné procento využití sítě | 25 % | |
Téma: Zaměstnanci | ||
Počet Správa istrátorů | 2 | |
Počet vývojářů | 10 | |
Počet koncových uživatelů | 100 | |
Kvalifikace | Hadoop, Spark | |
Počet dostupných prostředků pro úsilí o migraci | 2 | |
Téma: Omezení | ||
Aktuální omezení | Latence je vysoká | |
Aktuální výzvy | Problém s souběžností |
Dotazník požadavků na Azure
Dotaz | Příklad | Odpověď |
---|---|---|
Téma: Infrastruktura | ||
Upřednostňovaná oblast | Východ USA | |
Upřednostňovaná virtuální síť? | Ano | |
Ha / DR potřeba? | Ano | |
Integrace s jinými cloudovými službami? | ADF, Azure Cosmos DB | |
Téma: Přesun dat | ||
Předvolba počátečního načtení | DistCp, Data box, ADF, WANDisco | |
Rozdíl přenosu dat | DistCp, AzCopy | |
Průběžný přírůstkový přenos dat | DistCp, Sqoop | |
Téma: Monitorování a upozorňování | ||
Použití monitorování a upozorňování Azure vs. Integrace monitorování třetích stran | Použití monitorování a upozorňování Azure | |
Téma: Předvolby zabezpečení | ||
Privátní a chráněný datový kanál? | Ano | |
Cluster připojený k doméně (ESP)? | Ano | |
Místní synchronizace AD do cloudu? | Ano | |
Počet uživatelů AD, kteří se mají synchronizovat? | 100 | |
Chcete synchronizovat hesla do cloudu? | Ano | |
Jenom cloudoví uživatelé? | Ano | |
Vyžaduje se vícefaktorové ověřování? | No | |
Požadavky na autorizaci dat? | Ano | |
Řízení přístupu na základě role? | Ano | |
Auditování je potřeba? | Ano | |
Šifrování neaktivních uložených dat? | Ano | |
Šifrování dat při přenosu? | Ano | |
Téma: Opětovné předvolby architektury | ||
Jeden cluster vs. konkrétní typy clusterů | Konkrétní typy clusterů | |
Společné přidělení úložiště vs. vzdálené úložiště? | Vzdálené úložiště | |
Menší velikost clusteru, protože se data ukládají vzdáleně? | Menší velikost clusteru | |
Místo jednoho velkého clusteru používejte více menších clusterů? | Použití několika menších clusterů | |
Používáte vzdálený metastor? | Ano | |
Sdílet metastory mezi různými clustery? | Ano | |
Dekonstrukční úlohy? | Nahrazení úloh Hive úlohami Sparku | |
Používáte ADF pro orchestraci dat? | No |
Další kroky
Přečtěte si další článek v této sérii: