On-premises Apache Hadoop-clusters migreren naar Azure HDInsight - motivatie en voordelen

Dit artikel is de eerste in een reeks aanbevolen procedures voor het migreren van on-premises Apache Hadoop-ecosysteemimplementaties naar Azure HDInsight. Deze reeks artikelen is bedoeld voor personen die verantwoordelijk zijn voor het ontwerp, de implementatie en de migratie van Apache Hadoop-oplossingen in Azure HDInsight. De rollen die kunnen profiteren van deze artikelen zijn cloudarchitecten, Hadoop-beheerders en DevOps-engineers. Softwareontwikkelaars, data engineers en gegevenswetenschappers moeten ook profiteren van de uitleg over hoe verschillende typen clusters in de cloud werken.

Waarom migreren naar Azure HDInsight

Azure HDInsight is een clouddistributie van Hadoop-onderdelen. Azure HDInsight maakt het eenvoudig, snel en kosteneffectief om enorme hoeveelheden gegevens te verwerken. HDInsight bevat de populairste opensource-frameworks, zoals:

  • Apache Hadoop
  • Apache Spark
  • Apache Hive met LLAP
  • Apache Kafka
  • Apache HBase

Voordelen van Azure HDInsight ten opzichte van on-premises Hadoop

  • Lage kosten : kosten kunnen worden verlaagd door clusters op aanvraag te maken en alleen te betalen voor wat u gebruikt. Ontkoppelde rekenkracht en opslag bieden flexibiliteit door het gegevensvolume onafhankelijk van de clustergrootte te houden.

  • Automatisch maken van clusters: voor het automatisch maken van clusters is minimale installatie en configuratie vereist. Automatisering kan worden gebruikt voor clusters op aanvraag.

  • Beheerde hardware en configuratie : u hoeft zich geen zorgen te maken over de fysieke hardware of infrastructuur met een HDInsight-cluster. Geef de configuratie van het cluster op en Azure stelt het in.

  • Eenvoudig schaalbaar : MET HDInsight kunt u workloads omhoog of omlaag schalen . Azure zorgt voor herverdeling van gegevens en herverdeling van werkbelastingen zonder de gegevensverwerkingstaken te onderbreken.

  • Wereldwijde beschikbaarheid : HDInsight is beschikbaar in meer regio's dan elke andere aanbieding voor big data-analyses. Azure HDInsight is ook beschikbaar in Azure Government, China en Duitsland, waarmee u kunt voldoen aan de behoeften van uw bedrijf in belangrijke soevereine gebieden.

  • Met HdInsight kunt u uw zakelijke gegevensassets beveiligen met Azure Virtual Network, versleuteling en integratie met Microsoft Entra ID. HDInsight voldoet aan de meeste populaire nalevingsstandaarden van de industrie en de overheid.

  • Vereenvoudigd versiebeheer : Azure HDInsight beheert de versie van Hadoop-ecosysteemonderdelen en houdt ze up-to-date. Software-updates zijn meestal een complex proces voor on-premises implementaties.

  • Kleinere clusters die zijn geoptimaliseerd voor specifieke workloads met minder afhankelijkheden tussen onderdelen : een typische on-premises Hadoop-installatie maakt gebruik van één cluster dat veel doeleinden dient. Met Azure HDInsight kunnen workloadspecifieke clusters worden gemaakt. Het maken van clusters voor specifieke workloads verwijdert de complexiteit van het onderhouden van één cluster met groeiende complexiteit.

  • Productiviteit: u kunt verschillende hulpprogramma's voor Hadoop en Spark gebruiken in uw favoriete ontwikkelomgeving.

  • Uitbreidbaarheid met aangepaste hulpprogramma's of toepassingen van derden: HDInsight-clusters kunnen worden uitgebreid met geïnstalleerde onderdelen en kunnen ook worden geïntegreerd met de andere big data-oplossingen met behulp van implementaties met één klik vanuit de Azure Market Place.

  • Eenvoudig beheer, beheer en bewaking : Azure HDInsight kan worden geïntegreerd met Azure Monitor-logboeken om één interface te bieden waarmee u al uw clusters kunt bewaken.

  • Integratie met andere Azure-services - HDInsight kan eenvoudig worden geïntegreerd met andere populaire Azure-services, zoals de volgende:

    • Azure Data Factory (ADF)
    • Azure Blob Storage
    • Azure Data Lake Storage Gen2
    • Azure Cosmos DB
    • Azure SQL-database
    • Azure Analysis Services
  • Zelfherstelprocessen en onderdelen - HDInsight controleert voortdurend de infrastructuur en opensource-onderdelen met behulp van een eigen bewakingsinfrastructuur. Ook worden kritieke fouten automatisch hersteld, zoals onbeschikbaarheid van opensource-onderdelen en -knooppunten. Waarschuwingen worden geactiveerd in Ambari als een OSS-onderdeel is mislukt.

Zie het artikel Wat is Azure HDInsight en de Apache Hadoop-technologiestack voor meer informatie.

Migratieplanningsproces

De volgende stappen worden aanbevolen voor het plannen van een migratie van on-premises Hadoop-clusters naar Azure HDInsight:

  1. Inzicht in de huidige on-premises implementatie en topologieën.
  2. Inzicht in de huidige projectbereiken, tijdlijnen en teamexpertise.
  3. Inzicht in de Azure-vereisten.
  4. Bouw een gedetailleerd plan op basis van best practices.

Details verzamelen om een migratie voor te bereiden

Deze sectie bevat sjabloonvragenlijsten voor het verzamelen van belangrijke informatie over:

  • De on-premises implementatie
  • Projectdetails
  • Azure-vereisten

Vragenlijst voor on-premises implementatie

Vraag Voorbeeld Antwoord
Onderwerp: Omgeving
Clusterdistributieversie HDP 2.6.5, CDH 5.7
Onderdelen van big data-ecosysteem HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Clustertypen Hadoop, Spark, Confluent Kafka, Solr
Aantal clusters 4
Aantal hoofdknooppunten 2
Aantal werkknooppunten 100
Aantal edge-knooppunten 5
Totale schijfruimte 100 TB
Hoofdknooppuntconfiguratie m/y, cpu, schijf, enzovoort.
Configuratie van gegevensknooppunten m/y, cpu, schijf, enzovoort.
Configuratie van Edge-knooppunten m/y, cpu, schijf, enzovoort.
HDFS-versleuteling? Ja
Hoge beschikbaarheid HDFS HA, Metastore HA
Herstel na noodgeval/back-up Back-upcluster?
Systemen die afhankelijk zijn van cluster SQL Server, Teradata, Power BI, MongoDB
Integraties van derden Tableau, GridGain, Qubole, Informatica, Splunk
Onderwerp: Beveiliging
Perimeterbeveiliging Firewalls
Clusterverificatie en autorisatie Active Directory, Ambari, Cloudera Manager, Geen verificatie
HDFS-toegangsbeheer Handmatige ssh-gebruikers
Hive-verificatie en -autorisatie Sentry, LDAP, AD met Kerberos, Ranger
Controle Ambari, Cloudera Navigator, Ranger
Controleren Grafiet, verzameld, statsdTelegraf, InstroomDB
Waarschuwingen Kapacitor, Prometheus, Datadog
Duur van gegevensretentie Drie jaar, vijf jaar
Cluster-Beheer istrators Single Beheer istrator, Multiple Beheer istrators

Vragenlijst voor projectgegevens

Vraag Voorbeeld Antwoord
Onderwerp: Workloads en frequentie
MapReduce-taken 10 taken- twee keer per dag
Hive-taken 100 jobs---elk uur
Spark-batchtaken 50 taken- om de 15 minuten
Spark-streamingtaken 5 taken--om de 3 minuten
Gestructureerde streamingtaken 5 jobs--elke minuut
Programmeertalen Python, Scala, Java
Scripting Shell, Python
Onderwerp: Gegevens
Gegevensbronnen Platte bestanden, Json, Kafka, RDBMS
Data orchestratie Oozie-werkstromen, Airflow
In geheugenzoekacties Apache Ignite, Redis
Gegevensbestemmingen HDFS, RDBMS, Kafka, MPP
Onderwerp: Metagegevens
Hive DB-type Mysql, Postgres
Aantal Hive-metastores 2
Aantal Hive-tabellen 100
Aantal Ranger-beleidsregels 20
Aantal Oozie-werkstromen 100
Onderwerp: Schalen
Gegevensvolume inclusief replicatie 100 TB
Dagelijkse opnamevolume 50 GB
Groeisnelheid van gegevens 10% per jaar
Groeisnelheid van clusterknooppunten 5% per jaar
Onderwerp: Clustergebruik
Gemiddeld CPU-percentage gebruikt 60%
Gemiddeld geheugenpercentage gebruikt 75%
Gebruikte schijfruimte 75%
Gemiddeld gebruikte netwerkpercentage 25%
Onderwerp: Personeel
Aantal Beheer istrators 2
Aantal ontwikkelaars 10
Aantal eindgebruikers 100
Vaardigheden Hadoop, Spark
Aantal beschikbare resources voor migratie-inspanningen 2
Onderwerp: Beperkingen
Huidige beperkingen Latentie is hoog
Huidige uitdagingen Gelijktijdigheidsprobleem

Vragenlijst voor Azure-vereisten

Vraag Voorbeeld Antwoord
Onderwerp: Infrastructuur
Voorkeursregio US - oost
VNet voorkeur? Ja
HA / DR Nodig? Ja
Integratie met andere cloudservices? ADF, Azure Cosmos DB
Onderwerp: Gegevensverplaatsing
Eerste laadvoorkeur DistCp, Data box, ADF, WANDisco
Delta voor gegevensoverdracht DistCp, AzCopy
Doorlopende incrementele gegevensoverdracht DistCp, Sqoop
Onderwerp: Bewaking en waarschuwingen
Azure Monitoring & Alerting gebruiken versus Bewaking van derden integreren Azure Monitoring & Alerting gebruiken
Onderwerp: Beveiligingsvoorkeuren
Persoonlijke en beveiligde gegevenspijplijn? Ja
Cluster dat lid is van een domein (ESP)? Ja
On-premises AD-synchronisatie met cloud? Ja
Aantal AD-gebruikers dat moet worden gesynchroniseerd? 100
Wilt u wachtwoorden synchroniseren met de cloud? Ja
Alleen cloudgebruikers? Ja
MFA nodig? Nee
Vereisten voor gegevensautorisatie? Ja
Op rollen gebaseerd toegangsbeheer? Ja
Controle nodig? Ja
Versleuteling van data-at-rest? Ja
Gegevensversleuteling tijdens overdracht? Ja
Onderwerp: Voorkeuren voor nieuwe architectuur
Eén cluster versus specifieke clustertypen Specifieke clustertypen
Opgeslagen opslag in plaats van externe opslag? Externe opslag
Kleinere clustergrootte omdat gegevens extern worden opgeslagen? Kleinere clustergrootte
Meerdere kleinere clusters gebruiken in plaats van één groot cluster? Meerdere kleinere clusters gebruiken
Een externe metastore gebruiken? Ja
Metastores delen tussen verschillende clusters? Ja
Workloads deconstrueren? Hive-taken vervangen door Spark-taken
ADF gebruiken voor gegevensindeling? Nee

Volgende stappen

Lees het volgende artikel in deze reeks: