Migrace místních clusterů Apache Hadoop do Azure HDInsight – motivace a výhody

Tento článek je první v řadě osvědčených postupů pro migraci místních nasazení prostředí Apache Hadoop do Azure HDInsight. Tato série článků je určená lidem, kteří zodpovídají za návrh, nasazení a migraci řešení Apache Hadoop ve službě Azure HDInsight. Mezi role, které můžou tyto články využívat, patří cloudoví architekti, správci Hadoopu a technici DevOps. Vývojáři softwaru, datoví inženýři a datoví vědci by také měli těžit z vysvětlení toho, jak různé typy clusterů fungují v cloudu.

Proč migrovat do Služby Azure HDInsight

Azure HDInsight je cloudová distribuce komponent Hadoopu. Azure HDInsight umožňuje snadné, rychlé a nákladově efektivní zpracování obrovského množství dat. HDInsight zahrnuje nejoblíbenější opensourcové architektury, jako jsou:

  • Apache Hadoop
  • Apache Spark
  • Apache Hive s LLAP
  • Apache Kafka
  • Apache HBase

Výhody Azure HDInsight oproti místnímu systému Hadoop

  • Nízké náklady – Náklady se dají snížit vytvořením clusterů na vyžádání a placením jenom za to, co používáte. Oddělení výpočetních prostředků a úložiště poskytuje flexibilitu díky zachování objemu dat nezávisle na velikosti clusteru.

  • Automatizované vytváření clusteru – Automatizované vytváření clusteru vyžaduje minimální nastavení a konfiguraci. Automatizaci je možné použít pro clustery na vyžádání.

  • Spravovaný hardware a konfigurace – Nemusíte se starat o fyzický hardware nebo infrastrukturu s clusterem HDInsight. Stačí zadat konfiguraci clusteru a Azure ho nastaví.

  • Snadno škálovatelné – HDInsight umožňuje škálovat úlohy nahoru nebo dolů. Azure se stará o redistribuci dat a vyrovnávání úloh bez přerušení úloh zpracování dat.

  • Globální dostupnost – HDInsight je k dispozici ve více oblastech než jakákoli jiná nabídka analýzy velkých objemů dat. Služba Azure HDInsight je dostupná také pro Azure Government, Čínu a Německo a umožňuje tak splnit požadavky vašeho podniku v klíčových suverénních oblastech.

  • Zabezpečení a dodržování předpisů – HDInsight umožňuje chránit podnikové datové prostředky pomocí služby Azure Virtual Network, šifrování a integrace s Microsoft Entra ID. HDInsight také splňuje nejoblíbenější oborové a vládní standardy dodržování předpisů.

  • Zjednodušená správa verzí – Azure HDInsight spravuje verzi komponent eco-system Hadoop a udržuje je v aktualizovaném stavu. Aktualizace softwaru jsou obvykle složitým procesem pro místní nasazení.

  • Menší clustery optimalizované pro konkrétní úlohy s menším počtem závislostí mezi komponentami – typické místní nastavení Hadoopu používá jeden cluster, který slouží mnoha účelům. S Azure HDInsight je možné vytvářet clustery specifické pro úlohy. Vytváření clusterů pro konkrétní úlohy eliminuje složitost údržby jednoho clusteru s rostoucí složitostí.

  • Produktivita – Ve svém upřednostňovaném vývojovém prostředí můžete použít různé nástroje pro Hadoop a Spark.

  • Rozšiřitelnost pomocí vlastních nástrojů nebo aplikací třetích stran – clustery HDInsight je možné rozšířit o nainstalované komponenty a lze je také integrovat s dalšími řešeními pro velké objemy dat pomocí nasazení jedním kliknutím z webu Azure Market.

  • Snadná správa, správa a monitorování – Azure HDInsight se integruje s protokoly Služby Azure Monitor a poskytuje jedno rozhraní, pomocí kterého můžete monitorovat všechny clustery.

  • Integrace s dalšími službami Azure – HDInsight je možné snadno integrovat s dalšími oblíbenými službami Azure, jako jsou například:

    • Azure Data Factory (ADF)
    • Azure Blob Storage
    • Azure Data Lake Storage Gen2
    • Azure Cosmos DB
    • Azure SQL Database
    • Azure Analysis Services
  • Samoopravené procesy a komponenty – HDInsight neustále kontroluje infrastrukturu a opensourcové komponenty pomocí vlastní monitorovací infrastruktury. Také automaticky obnoví kritické chyby, jako je nedostupnost opensourcových komponent a uzlů. Výstrahy se v Ambari aktivují v případě, že některá komponenta operačního systému selhala.

Další informace najdete v článku Co je Azure HDInsight a sada technologií Apache Hadoop.

Proces plánování migrace

Pro plánování migrace místních clusterů Hadoop do Azure HDInsight se doporučuje následující kroky:

  1. Seznamte se s aktuálním místním nasazením a topologií.
  2. Seznamte se s aktuálním rozsahem projektu, časovými osami a znalostmi týmu.
  3. Seznamte se s požadavky Azure.
  4. Vytvořte podrobný plán založený na osvědčených postupech.

Shromažďování podrobností pro přípravu na migraci

Tato část obsahuje šablonové dotazníky, které vám pomůžou shromáždit důležité informace o:

  • Místní nasazení
  • Podrobnosti projektu
  • Požadavky na Azure

Dotazník pro místní nasazení

Dotaz Příklad Odpověď
Téma: Prostředí
Verze distribuce clusteru HDP 2.6.5, CDH 5.7
Eco-system komponenty pro velké objemy dat HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Typy clusterů Hadoop, Spark, Confluent Kafka, Solr
Počet clusterů 4
Počet hlavních uzlů 2
Počet pracovních uzlů 100
Počet hraničních uzlů 5
Celkové místo na disku 100 TB
Konfigurace hlavního uzlu m/y, cpu, disk atd.
Konfigurace datových uzlů m/y, cpu, disk atd.
Konfigurace hraničních uzlů m/y, cpu, disk atd.
Šifrování HDFS? Ano
Vysoká dostupnost VYSOKÁ DOSTUPNOST HDFS, Vysoká dostupnost metastoru
Zotavení po havárii / zálohování Zálohování clusteru?
Systémy závislé na clusteru SQL Server, Teradata, Power BI, MongoDB
Integrace třetích stran Tableau, GridGain, Qubole, Informatica, Splunk
Téma: Zabezpečení
Zabezpečení hraniční sítě Brány firewall
Ověřování a autorizace clusteru Active Directory, Ambari, Cloudera Manager, Bez ověřování
Řízení přístupu HDFS Ruční, uživatelé SSH
Ověřování a autorizace Hive Sentry, LDAP, AD s protokolem Kerberos, Ranger
Auditování Ambari, Cloudera Navigator, Ranger
Sledování Graphite, collectd, statsd, Telegraf, InfluxDB
Upozorňování Kapacitor, Prometheus, Datadog
Doba uchovávání dat Tři roky, pět let
Správa istrátory clusteru Jeden Správa istrator, více Správa istrátorů

Dotazník podrobností o projektu

Dotaz Příklad Odpověď
Téma: Úlohy a frekvence
Úlohy MapReduce 10 úloh – dvakrát denně
Úlohy Hive 100 úloh – každou hodinu
Dávkové úlohy Sparku 50 úloh – každých 15 minut
Úlohy streamování Sparku 5 úloh – každých 3 minuty
Úlohy strukturovaného streamování 5 úloh – každou minutu
Programovací jazyky Python, Scala, Java
Skriptování Shell, Python
Téma: Data
Zdroje dat Ploché soubory, Json, Kafka, RDBMS
Orchestrace dat Pracovní postupy Oozie, Airflow
Ve vyhledávání paměti Apache Ignite, Redis
Cíle dat HDFS, RDBMS, Kafka, MPP
Téma: Meta data
Typ databáze Hive Mysql, Postgres
Počet metastorů Hive 2
Počet tabulek Hive 100
Počet zásad Rangeru 20
Počet pracovních postupů Oozie 100
Téma: Škálování
Objem dat včetně replikace 100 TB
Objem denního příjmu dat 50 GB
Rychlost růstu dat 10 % za rok
Míra růstu uzlů clusteru 5 % za rok
Téma: Využití clusteru
Průměrné procento využití procesoru 60 %
Průměrné procento využité paměti 75 %
Využité místo na disku 75 %
Průměrné procento využití sítě 25 %
Téma: Zaměstnanci
Počet Správa istrátorů 2
Počet vývojářů 10
Počet koncových uživatelů 100
Kvalifikace Hadoop, Spark
Počet dostupných prostředků pro úsilí o migraci 2
Téma: Omezení
Aktuální omezení Latence je vysoká
Aktuální výzvy Problém s souběžností

Dotazník požadavků na Azure

Dotaz Příklad Odpověď
Téma: Infrastruktura
Upřednostňovaná oblast Východ USA
Upřednostňovaná virtuální síť? Ano
Ha / DR potřeba? Ano
Integrace s jinými cloudovými službami? ADF, Azure Cosmos DB
Téma: Přesun dat
Předvolba počátečního načtení DistCp, Data box, ADF, WANDisco
Rozdíl přenosu dat DistCp, AzCopy
Průběžný přírůstkový přenos dat DistCp, Sqoop
Téma: Monitorování a upozorňování
Použití monitorování a upozorňování Azure vs. Integrace monitorování třetích stran Použití monitorování a upozorňování Azure
Téma: Předvolby zabezpečení
Privátní a chráněný datový kanál? Ano
Cluster připojený k doméně (ESP)? Ano
Místní synchronizace AD do cloudu? Ano
Počet uživatelů AD, kteří se mají synchronizovat? 100
Chcete synchronizovat hesla do cloudu? Ano
Jenom cloudoví uživatelé? Ano
Vyžaduje se vícefaktorové ověřování? No
Požadavky na autorizaci dat? Ano
Řízení přístupu na základě role? Ano
Auditování je potřeba? Ano
Šifrování neaktivních uložených dat? Ano
Šifrování dat při přenosu? Ano
Téma: Opětovné předvolby architektury
Jeden cluster vs. konkrétní typy clusterů Konkrétní typy clusterů
Společné přidělení úložiště vs. vzdálené úložiště? Vzdálené úložiště
Menší velikost clusteru, protože se data ukládají vzdáleně? Menší velikost clusteru
Místo jednoho velkého clusteru používejte více menších clusterů? Použití několika menších clusterů
Používáte vzdálený metastor? Ano
Sdílet metastory mezi různými clustery? Ano
Dekonstrukční úlohy? Nahrazení úloh Hive úlohami Sparku
Používáte ADF pro orchestraci dat? No

Další kroky

Přečtěte si další článek v této sérii: