Helyszíni Apache Hadoop-fürtök migrálása az Azure HDInsightba – motiváció és előnyök
Ez a cikk a helyszíni Apache Hadoop ökorendszer-telepítések Azure HDInsightba való migrálásának ajánlott eljárásait ismertető sorozat első része. Ez a cikksorozat olyan személyeknek szól, akik felelősek az Apache Hadoop-megoldások tervezéséért, üzembe helyezéséért és migrálásáért az Azure HDInsightban. A cikkekben hasznos szerepkörök közé tartoznak a felhőmérnökök, a Hadoop-rendszergazdák és a DevOps mérnökei. A szoftverfejlesztőknek, az adatmérnököknek és az adattudósoknak is hasznosnak kell lenniük annak magyarázatában, hogy a különböző típusú fürtök hogyan működnek a felhőben.
Miért érdemes migrálni az Azure HDInsightba?
Az Azure HDInsight a Hadoop-összetevők felhőalapú eloszlása. Az Azure HDInsight segítségével könnyen, gyorsan és költséghatékonyan dolgozható fel nagy mennyiségű adat. A HDInsight a legnépszerűbb nyílt forráskódú keretrendszereket tartalmazza, például:
- Apache Hadoop
- Apache Spark
- Apache Hive és LLAP
- Apache Kafka
- Apache HBase
Az Azure HDInsight előnyei a helyszíni Hadooppal szemben
Alacsony költség – A költségek csökkenthetők fürtök igény szerinti létrehozásával, és csak a használt elemekért való fizetéssel. A leválasztott számítás és tárolás rugalmasságot biztosít azáltal, hogy az adatkötetet függetleníti a fürt méretétől.
Automatizált fürtlétrehozás – Az automatizált fürtlétrehozáshoz minimális beállításra és konfigurálásra van szükség. Az automation igény szerinti fürtökhöz használható.
Felügyelt hardver és konfiguráció – A HDInsight-fürttel nem kell aggódnia a fizikai hardver vagy az infrastruktúra miatt. Adja meg a fürt konfigurációját, és az Azure beállítja.
Egyszerűen méretezhető – A HDInsight lehetővé teszi a számítási feladatok vertikális fel- vagy leskálázását . Az Azure gondoskodik az adatok újraelosztásáról és a számítási feladatok újraelosztásáról az adatfeldolgozási feladatok megszakítása nélkül.
Globális rendelkezésre állás – A HDInsight több régióban érhető el, mint bármely más big data-elemzési ajánlat. Az Azure HDInsight elérhető az Azure Governmentben, Kínában, és Németországban is, így megfelelhet a vállalati igényeknek a főbb szuverén területeken.
Biztonságos és megfelelő – A HDInsight lehetővé teszi a vállalati adategységek védelmét az Azure Virtual Network használatával, a titkosítással és a Microsoft Entra ID-val való integrációval. A HDInsight továbbá megfelel a legnépszerűbb iparági és kormányzati megfelelőségi szabványoknak.
Egyszerűsített verziókezelés – Az Azure HDInsight felügyeli a Hadoop ökorendszer-összetevők verzióját, és naprakészen tartja őket. A szoftverfrissítések általában a helyszíni üzembe helyezés összetett folyamatai.
Kisebb, adott számítási feladatokra optimalizált fürtök, amelyek kevesebb függőséggel rendelkeznek az összetevők között – A helyszíni Hadoop-beállítások egy tipikusan egyetlen fürtöt használnak, amely számos célt szolgál. Az Azure HDInsight használatával számítási feladatspecifikus fürtök hozhatók létre. A fürtök adott számítási feladatokhoz való létrehozása megszünteti egy növekvő összetettségű fürt fenntartásának összetettségét.
Termelékenység – A Hadoophoz és a Sparkhoz különböző eszközöket használhat az előnyben részesített fejlesztési környezetben.
Bővíthetőség egyéni eszközökkel vagy külső alkalmazásokkal – A HDInsight-fürtök kiterjeszthetők a telepített összetevőkkel, és integrálhatók a többi big data-megoldással is az Azure Market helyről egykattintásos üzembe helyezéssel.
Egyszerű felügyelet, felügyelet és figyelés – Az Azure HDInsight integrálható az Azure Monitor-naplókkal , hogy egyetlen felületet biztosítson, amellyel az összes fürtöt figyelheti.
Integráció más Azure-szolgáltatásokkal – A HDInsight egyszerűen integrálható más népszerű Azure-szolgáltatásokkal, például a következőkkel:
- Azure Data Factory (ADF)
- Azure Blob Storage
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure SQL Database
- Azure Analysis Services
Öngyógyító folyamatok és összetevők – A HDInsight folyamatosan ellenőrzi az infrastruktúrát és a nyílt forráskódú összetevőket saját monitorozási infrastruktúrájával. Emellett automatikusan helyreállítja a kritikus hibákat, például a nyílt forráskódú összetevők és csomópontok elérhetetlenségét. A riasztások az Ambariban aktiválódnak, ha valamelyik OSS-összetevő sikertelen.
További információt az Azure HDInsight és az Apache Hadoop technológiai verem bemutatása című cikkben talál.
Migrálástervezési folyamat
A helyszíni Hadoop-fürtök Azure HDInsightba való migrálásának megtervezéséhez a következő lépések ajánlottak:
- Ismerje meg az aktuális helyszíni üzembe helyezést és topológiákat.
- Ismerje meg a projekt aktuális hatókörét, ütemterveit és a csapat szakértelmét.
- Ismerje meg az Azure követelményeit.
- Hozzon létre egy részletes tervet az ajánlott eljárások alapján.
Adatok összegyűjtése a migrálásra való felkészüléshez
Ez a szakasz sablon kérdőíveket tartalmaz, amelyek segítenek összegyűjteni a következőkkel kapcsolatos fontos információkat:
- A helyszíni üzembe helyezés
- Projekt részletei
- Azure requirements
Helyszíni üzembe helyezési kérdőív
Kérdés | Példa | Válasz |
---|---|---|
Témakör: Környezet | ||
Fürtterjesztési verzió | HDP 2.6.5, CDH 5.7 | |
Big Data ökorendszer-összetevők | HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R | |
Fürttípusok | Hadoop, Spark, Confluent Kafka, Solr | |
Fürtök száma | 4 | |
Fő csomópontok száma | 2 | |
Feldolgozó csomópontok száma | 100 | |
Élcsomópontok száma | 5 | |
Teljes lemezterület | 100 TB | |
Főcsomópont konfigurálása | m/y, processzor, lemez stb. | |
Adatcsomópontok konfigurálása | m/y, processzor, lemez stb. | |
Edge-csomópontok konfigurálása | m/y, processzor, lemez stb. | |
HDFS-titkosítás? | Igen | |
High Availability | HDFS HA, Metastore HA | |
Vészhelyreállítás / Biztonsági mentés | Biztonsági mentési fürt? | |
Fürttől függő rendszerek | SQL Server, Teradata, Power BI, MongoDB | |
Külső integrációk | Tableau, GridGain, Qubole, Informatica, Splunk | |
Témakör: Biztonság | ||
Szegélybiztonság | Tűzfalak | |
Fürthitelesítés > engedélyezés | Active Directory, Ambari, Cloudera Manager, Nincs hitelesítés | |
HDFS-hozzáférés-vezérlés | Manuális, ssh-felhasználók | |
Hive-hitelesítés > engedélyezés | Sentry, LDAP, AD kerberossal, Ranger | |
Naplózás | Ambari, Cloudera Navigator, Ranger | |
Figyelés | Graphite, collectd, statsd , Telegraf, InfluxDB |
|
Riasztások kezelése | Kapacitor , Prometheus, Datadog |
|
Adatmegőrzés időtartama | Három év, öt év | |
Fürt Rendszergazda istratorok | Egy Rendszergazda istrator, több Rendszergazda istrator |
Projektinformációs kérdőív
Kérdés | Példa | Válasz |
---|---|---|
Témakör: Számítási feladatok és gyakoriság | ||
MapReduce-feladatok | 10 feladat – naponta kétszer | |
Hive-feladatok | 100 feladat óránként | |
Spark batch-feladatok | 50 feladat – 15 percenként | |
Spark Streaming-feladatok | 5 feladat – 3 percenként | |
Strukturált streamelési feladatok | 5 feladat – percenként | |
Programozási nyelvek | Python, Scala, Java | |
Parancsfájlkezelés | Shell, Python | |
Témakör: Adatok | ||
Adatforrások | Lapos fájlok, Json, Kafka, RDBMS | |
Adatkoordinálás | Oozie-munkafolyamatok, Airflow | |
Memóriakeresésekben | Apache Ignite, Redis | |
Adatcélok | HDFS, RDBMS, Kafka, MPP | |
Témakör: Metaadatok | ||
Hive DB típusa | Mysql, Postgres | |
Hive-metaadattárak száma | 2 | |
Hive-táblák száma | 100 | |
Ranger-szabályzatok száma | 20 | |
Oozie-munkafolyamatok száma | 100 | |
Témakör: Skálázás | ||
Adatkötet, beleértve a replikációt | 100 TB | |
Napi betöltési mennyiség | 50 GB | |
Adatnövekedési arány | 10% évente | |
Fürtcsomópontok növekedési üteme | 5% évente | |
Témakör: Fürt kihasználtsága | ||
Felhasznált processzor átlagos %-a | 60% | |
Felhasznált memória átlagos aránya | 75% | |
Felhasznált lemezterület | 75% | |
Felhasznált átlagos hálózati %. | 25% | |
Témakör: Személyzet | ||
Rendszergazda istratorok száma | 2 | |
Fejlesztők száma | 10 | |
Végfelhasználók száma | 100 | |
Szakértelem | Hadoop, Spark | |
A migrálási erőfeszítésekhez rendelkezésre álló erőforrások száma | 2 | |
Témakör: Korlátozások | ||
Current limitations | A késés magas | |
Aktuális feladvány | Egyidejűségi probléma |
Azure-követelményekre vonatkozó kérdőív
Kérdés | Példa | Válasz |
---|---|---|
Témakör: Infrastruktúra | ||
Előnyben részesített régió | USA keleti régiója | |
Előnyben részesített virtuális hálózat? | Igen | |
HA / DR Szükséges? | Igen | |
Integráció más felhőszolgáltatásokkal? | ADF, Azure Cosmos DB | |
Témakör: Adatáthelyezés | ||
Kezdeti terhelési beállítás | DistCp, Data box, ADF, WANDisco | |
Adatátviteli eltérés | DistCp, AzCopy | |
Folyamatos növekményes adatátvitel | DistCp, Sqoop | |
Témakör: Figyelés és riasztás | ||
Az Azure Monitorozás és a Külső figyelés integrálása szolgáltatás használata | Az Azure Monitorozás és riasztások használata | |
Témakör: Biztonsági beállítások | ||
Privát és védett adatfolyam? | Igen | |
Tartományhoz csatlakoztatott fürt (ESP)? | Igen | |
Helyszíni AD-szinkronizáló a felhőbe? | Igen | |
Szinkronizálandó AD-felhasználók száma? | 100 | |
Rendben van a jelszavak felhőbe való szinkronizálása? | Igen | |
Csak felhőbeli felhasználók? | Igen | |
MFA szükséges? | Nem | |
Adatengedélyezési követelmények? | Igen | |
Szerepköralapú hozzáférés-vezérlés? | Igen | |
Naplózásra van szükség? | Igen | |
Inaktív adattitkosítás? | Igen | |
Adattitkosítás átvitel közben? | Igen | |
Témakör: Az újraarchitektúra beállításai | ||
Önálló fürt és adott fürttípusok | Adott fürttípusok | |
Megosztott tárolás és távoli tárolás? | Távoli tárolás | |
Kisebb fürtméret az adatok távoli tárolásakor? | Kisebb fürtméret | |
Több kisebb fürtöt használ egyetlen nagy fürt helyett? | Több kisebb fürt használata | |
Távoli metaadattárat használ? | Igen | |
Metaadattárakat oszt meg különböző fürtök között? | Igen | |
Számítási feladatok dekonstruálása? | Hive-feladatok cseréje Spark-feladatokra | |
Az ADF-et használja az adatvezényléshez? | Nem |
További lépések
Olvassa el a következő cikket ebben a sorozatban: