On-premises Apache Hadoop-clusters migreren naar Azure HDInsight - motivatie en voordelen

Artikel
12/08/2023

Dit artikel is de eerste in een reeks aanbevolen procedures voor het migreren van on-premises Apache Hadoop-ecosysteemimplementaties naar Azure HDInsight. Deze reeks artikelen is bedoeld voor personen die verantwoordelijk zijn voor het ontwerp, de implementatie en de migratie van Apache Hadoop-oplossingen in Azure HDInsight. De rollen die kunnen profiteren van deze artikelen zijn cloudarchitecten, Hadoop-beheerders en DevOps-engineers. Softwareontwikkelaars, data engineers en gegevenswetenschappers moeten ook profiteren van de uitleg over hoe verschillende typen clusters in de cloud werken.

Waarom migreren naar Azure HDInsight

Azure HDInsight is een clouddistributie van Hadoop-onderdelen. Azure HDInsight maakt het eenvoudig, snel en kosteneffectief om enorme hoeveelheden gegevens te verwerken. HDInsight bevat de populairste opensource-frameworks, zoals:

Apache Hadoop
Apache Spark
Apache Hive met LLAP
Apache Kafka
Apache HBase

Voordelen van Azure HDInsight ten opzichte van on-premises Hadoop

Lage kosten : kosten kunnen worden verlaagd door clusters op aanvraag te maken en alleen te betalen voor wat u gebruikt. Ontkoppelde rekenkracht en opslag bieden flexibiliteit door het gegevensvolume onafhankelijk van de clustergrootte te houden.
Automatisch maken van clusters: voor het automatisch maken van clusters is minimale installatie en configuratie vereist. Automatisering kan worden gebruikt voor clusters op aanvraag.
Beheerde hardware en configuratie : u hoeft zich geen zorgen te maken over de fysieke hardware of infrastructuur met een HDInsight-cluster. Geef de configuratie van het cluster op en Azure stelt het in.
Eenvoudig schaalbaar : MET HDInsight kunt u workloads omhoog of omlaag schalen . Azure zorgt voor herverdeling van gegevens en herverdeling van werkbelastingen zonder de gegevensverwerkingstaken te onderbreken.
Wereldwijde beschikbaarheid : HDInsight is beschikbaar in meer regio's dan elke andere aanbieding voor big data-analyses. Azure HDInsight is ook beschikbaar in Azure Government, China en Duitsland, waarmee u kunt voldoen aan de behoeften van uw bedrijf in belangrijke soevereine gebieden.
Met HdInsight kunt u uw zakelijke gegevensassets beveiligen met Azure Virtual Network, versleuteling en integratie met Microsoft Entra ID. HDInsight voldoet aan de meeste populaire nalevingsstandaarden van de industrie en de overheid.
Vereenvoudigd versiebeheer : Azure HDInsight beheert de versie van Hadoop-ecosysteemonderdelen en houdt ze up-to-date. Software-updates zijn meestal een complex proces voor on-premises implementaties.
Kleinere clusters die zijn geoptimaliseerd voor specifieke workloads met minder afhankelijkheden tussen onderdelen : een typische on-premises Hadoop-installatie maakt gebruik van één cluster dat veel doeleinden dient. Met Azure HDInsight kunnen workloadspecifieke clusters worden gemaakt. Het maken van clusters voor specifieke workloads verwijdert de complexiteit van het onderhouden van één cluster met groeiende complexiteit.
Productiviteit: u kunt verschillende hulpprogramma's voor Hadoop en Spark gebruiken in uw favoriete ontwikkelomgeving.
Uitbreidbaarheid met aangepaste hulpprogramma's of toepassingen van derden: HDInsight-clusters kunnen worden uitgebreid met geïnstalleerde onderdelen en kunnen ook worden geïntegreerd met de andere big data-oplossingen met behulp van implementaties met één klik vanuit de Azure Market Place.
Eenvoudig beheer, beheer en bewaking : Azure HDInsight kan worden geïntegreerd met Azure Monitor-logboeken om één interface te bieden waarmee u al uw clusters kunt bewaken.
Integratie met andere Azure-services - HDInsight kan eenvoudig worden geïntegreerd met andere populaire Azure-services, zoals de volgende:
- Azure Data Factory (ADF)
- Azure Blob Storage
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure SQL-database
- Azure Analysis Services
Zelfherstelprocessen en onderdelen - HDInsight controleert voortdurend de infrastructuur en opensource-onderdelen met behulp van een eigen bewakingsinfrastructuur. Ook worden kritieke fouten automatisch hersteld, zoals onbeschikbaarheid van opensource-onderdelen en -knooppunten. Waarschuwingen worden geactiveerd in Ambari als een OSS-onderdeel is mislukt.

Zie het artikel Wat is Azure HDInsight en de Apache Hadoop-technologiestack voor meer informatie.

Migratieplanningsproces

De volgende stappen worden aanbevolen voor het plannen van een migratie van on-premises Hadoop-clusters naar Azure HDInsight:

Inzicht in de huidige on-premises implementatie en topologieën.
Inzicht in de huidige projectbereiken, tijdlijnen en teamexpertise.
Inzicht in de Azure-vereisten.
Bouw een gedetailleerd plan op basis van best practices.

Details verzamelen om een migratie voor te bereiden

Deze sectie bevat sjabloonvragenlijsten voor het verzamelen van belangrijke informatie over:

De on-premises implementatie
Projectdetails
Azure-vereisten

Vragenlijst voor on-premises implementatie

Vraag	Voorbeeld	Antwoord
Onderwerp: Omgeving
Clusterdistributieversie	HDP 2.6.5, CDH 5.7
Onderdelen van big data-ecosysteem	HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Clustertypen	Hadoop, Spark, Confluent Kafka, Solr
Aantal clusters	4
Aantal hoofdknooppunten	2
Aantal werkknooppunten	100
Aantal edge-knooppunten	5
Totale schijfruimte	100 TB
Hoofdknooppuntconfiguratie	m/y, cpu, schijf, enzovoort.
Configuratie van gegevensknooppunten	m/y, cpu, schijf, enzovoort.
Configuratie van Edge-knooppunten	m/y, cpu, schijf, enzovoort.
HDFS-versleuteling?	Ja
Hoge beschikbaarheid	HDFS HA, Metastore HA
Herstel na noodgeval/back-up	Back-upcluster?
Systemen die afhankelijk zijn van cluster	SQL Server, Teradata, Power BI, MongoDB
Integraties van derden	Tableau, GridGain, Qubole, Informatica, Splunk
Onderwerp: Beveiliging
Perimeterbeveiliging	Firewalls
Clusterverificatie en autorisatie	Active Directory, Ambari, Cloudera Manager, Geen verificatie
HDFS-toegangsbeheer	Handmatige ssh-gebruikers
Hive-verificatie en -autorisatie	Sentry, LDAP, AD met Kerberos, Ranger
Controle	Ambari, Cloudera Navigator, Ranger
Controleren	Grafiet, verzameld, `statsd`Telegraf, InstroomDB
Waarschuwingen	`Kapacitor`, Prometheus, Datadog
Duur van gegevensretentie	Drie jaar, vijf jaar
Cluster-Beheer istrators	Single Beheer istrator, Multiple Beheer istrators

Vragenlijst voor projectgegevens

Vraag	Voorbeeld	Antwoord
Onderwerp: Workloads en frequentie
MapReduce-taken	10 taken- twee keer per dag
Hive-taken	100 jobs---elk uur
Spark-batchtaken	50 taken- om de 15 minuten
Spark-streamingtaken	5 taken--om de 3 minuten
Gestructureerde streamingtaken	5 jobs--elke minuut
Programmeertalen	Python, Scala, Java
Scripting	Shell, Python
Onderwerp: Gegevens
Gegevensbronnen	Platte bestanden, Json, Kafka, RDBMS
Data orchestratie	Oozie-werkstromen, Airflow
In geheugenzoekacties	Apache Ignite, Redis
Gegevensbestemmingen	HDFS, RDBMS, Kafka, MPP
Onderwerp: Metagegevens
Hive DB-type	Mysql, Postgres
Aantal Hive-metastores	2
Aantal Hive-tabellen	100
Aantal Ranger-beleidsregels	20
Aantal Oozie-werkstromen	100
Onderwerp: Schalen
Gegevensvolume inclusief replicatie	100 TB
Dagelijkse opnamevolume	50 GB
Groeisnelheid van gegevens	10% per jaar
Groeisnelheid van clusterknooppunten	5% per jaar
Onderwerp: Clustergebruik
Gemiddeld CPU-percentage gebruikt	60%
Gemiddeld geheugenpercentage gebruikt	75%
Gebruikte schijfruimte	75%
Gemiddeld gebruikte netwerkpercentage	25%
Onderwerp: Personeel
Aantal Beheer istrators	2
Aantal ontwikkelaars	10
Aantal eindgebruikers	100
Vaardigheden	Hadoop, Spark
Aantal beschikbare resources voor migratie-inspanningen	2
Onderwerp: Beperkingen
Huidige beperkingen	Latentie is hoog
Huidige uitdagingen	Gelijktijdigheidsprobleem

Vragenlijst voor Azure-vereisten

Vraag	Voorbeeld	Antwoord
Onderwerp: Infrastructuur
Voorkeursregio	US - oost
VNet voorkeur?	Ja
HA / DR Nodig?	Ja
Integratie met andere cloudservices?	ADF, Azure Cosmos DB
Onderwerp: Gegevensverplaatsing
Eerste laadvoorkeur	DistCp, Data box, ADF, WANDisco
Delta voor gegevensoverdracht	DistCp, AzCopy
Doorlopende incrementele gegevensoverdracht	DistCp, Sqoop
Onderwerp: Bewaking en waarschuwingen
Azure Monitoring & Alerting gebruiken versus Bewaking van derden integreren	Azure Monitoring & Alerting gebruiken
Onderwerp: Beveiligingsvoorkeuren
Persoonlijke en beveiligde gegevenspijplijn?	Ja
Cluster dat lid is van een domein (ESP)?	Ja
On-premises AD-synchronisatie met cloud?	Ja
Aantal AD-gebruikers dat moet worden gesynchroniseerd?	100
Wilt u wachtwoorden synchroniseren met de cloud?	Ja
Alleen cloudgebruikers?	Ja
MFA nodig?	Nee
Vereisten voor gegevensautorisatie?	Ja
Op rollen gebaseerd toegangsbeheer?	Ja
Controle nodig?	Ja
Versleuteling van data-at-rest?	Ja
Gegevensversleuteling tijdens overdracht?	Ja
Onderwerp: Voorkeuren voor nieuwe architectuur
Eén cluster versus specifieke clustertypen	Specifieke clustertypen
Opgeslagen opslag in plaats van externe opslag?	Externe opslag
Kleinere clustergrootte omdat gegevens extern worden opgeslagen?	Kleinere clustergrootte
Meerdere kleinere clusters gebruiken in plaats van één groot cluster?	Meerdere kleinere clusters gebruiken
Een externe metastore gebruiken?	Ja
Metastores delen tussen verschillende clusters?	Ja
Workloads deconstrueren?	Hive-taken vervangen door Spark-taken
ADF gebruiken voor gegevensindeling?	Nee

Volgende stappen

Lees het volgende artikel in deze reeks:

Best practices voor architectuur voor on-premises naar Azure HDInsight Hadoop-migratie

Delen via