Megosztás a következőn keresztül:


Helyszíni Apache Hadoop-fürtök migrálása az Azure HDInsightba – motiváció és előnyök

Ez a cikk a helyszíni Apache Hadoop ökorendszer-telepítések Azure HDInsightba való migrálásának ajánlott eljárásait ismertető sorozat első része. Ez a cikksorozat olyan személyeknek szól, akik felelősek az Apache Hadoop-megoldások tervezéséért, üzembe helyezéséért és migrálásáért az Azure HDInsightban. A cikkekben hasznos szerepkörök közé tartoznak a felhőmérnökök, a Hadoop-rendszergazdák és a DevOps mérnökei. A szoftverfejlesztőknek, az adatmérnököknek és az adattudósoknak is hasznosnak kell lenniük annak magyarázatában, hogy a különböző típusú fürtök hogyan működnek a felhőben.

Miért érdemes migrálni az Azure HDInsightba?

Az Azure HDInsight a Hadoop-összetevők felhőalapú eloszlása. Az Azure HDInsight segítségével könnyen, gyorsan és költséghatékonyan dolgozható fel nagy mennyiségű adat. A HDInsight a legnépszerűbb nyílt forráskódú keretrendszereket tartalmazza, például:

  • Apache Hadoop
  • Apache Spark
  • Apache Hive és LLAP
  • Apache Kafka
  • Apache HBase

Az Azure HDInsight előnyei a helyszíni Hadooppal szemben

  • Alacsony költség – A költségek csökkenthetők fürtök igény szerinti létrehozásával, és csak a használt elemekért való fizetéssel. A leválasztott számítás és tárolás rugalmasságot biztosít azáltal, hogy az adatkötetet függetleníti a fürt méretétől.

  • Automatizált fürtlétrehozás – Az automatizált fürtlétrehozáshoz minimális beállításra és konfigurálásra van szükség. Az automation igény szerinti fürtökhöz használható.

  • Felügyelt hardver és konfiguráció – A HDInsight-fürttel nem kell aggódnia a fizikai hardver vagy az infrastruktúra miatt. Adja meg a fürt konfigurációját, és az Azure beállítja.

  • Egyszerűen méretezhető – A HDInsight lehetővé teszi a számítási feladatok vertikális fel- vagy leskálázását . Az Azure gondoskodik az adatok újraelosztásáról és a számítási feladatok újraelosztásáról az adatfeldolgozási feladatok megszakítása nélkül.

  • Globális rendelkezésre állás – A HDInsight több régióban érhető el, mint bármely más big data-elemzési ajánlat. Az Azure HDInsight elérhető az Azure Governmentben, Kínában, és Németországban is, így megfelelhet a vállalati igényeknek a főbb szuverén területeken.

  • Biztonságos és megfelelő – A HDInsight lehetővé teszi a vállalati adategységek védelmét az Azure Virtual Network használatával, a titkosítással és a Microsoft Entra ID-val való integrációval. A HDInsight továbbá megfelel a legnépszerűbb iparági és kormányzati megfelelőségi szabványoknak.

  • Egyszerűsített verziókezelés – Az Azure HDInsight felügyeli a Hadoop ökorendszer-összetevők verzióját, és naprakészen tartja őket. A szoftverfrissítések általában a helyszíni üzembe helyezés összetett folyamatai.

  • Kisebb, adott számítási feladatokra optimalizált fürtök, amelyek kevesebb függőséggel rendelkeznek az összetevők között – A helyszíni Hadoop-beállítások egy tipikusan egyetlen fürtöt használnak, amely számos célt szolgál. Az Azure HDInsight használatával számítási feladatspecifikus fürtök hozhatók létre. A fürtök adott számítási feladatokhoz való létrehozása megszünteti egy növekvő összetettségű fürt fenntartásának összetettségét.

  • Termelékenység – A Hadoophoz és a Sparkhoz különböző eszközöket használhat az előnyben részesített fejlesztési környezetben.

  • Bővíthetőség egyéni eszközökkel vagy külső alkalmazásokkal – A HDInsight-fürtök kiterjeszthetők a telepített összetevőkkel, és integrálhatók a többi big data-megoldással is az Azure Market helyről egykattintásos üzembe helyezéssel.

  • Egyszerű felügyelet, felügyelet és figyelés – Az Azure HDInsight integrálható az Azure Monitor-naplókkal , hogy egyetlen felületet biztosítson, amellyel az összes fürtöt figyelheti.

  • Integráció más Azure-szolgáltatásokkal – A HDInsight egyszerűen integrálható más népszerű Azure-szolgáltatásokkal, például a következőkkel:

    • Azure Data Factory (ADF)
    • Azure Blob Storage
    • Azure Data Lake Storage Gen2
    • Azure Cosmos DB
    • Azure SQL Database
    • Azure Analysis Services
  • Öngyógyító folyamatok és összetevők – A HDInsight folyamatosan ellenőrzi az infrastruktúrát és a nyílt forráskódú összetevőket saját monitorozási infrastruktúrájával. Emellett automatikusan helyreállítja a kritikus hibákat, például a nyílt forráskódú összetevők és csomópontok elérhetetlenségét. A riasztások az Ambariban aktiválódnak, ha valamelyik OSS-összetevő sikertelen.

További információt az Azure HDInsight és az Apache Hadoop technológiai verem bemutatása című cikkben talál.

Migrálástervezési folyamat

A helyszíni Hadoop-fürtök Azure HDInsightba való migrálásának megtervezéséhez a következő lépések ajánlottak:

  1. Ismerje meg az aktuális helyszíni üzembe helyezést és topológiákat.
  2. Ismerje meg a projekt aktuális hatókörét, ütemterveit és a csapat szakértelmét.
  3. Ismerje meg az Azure követelményeit.
  4. Hozzon létre egy részletes tervet az ajánlott eljárások alapján.

Adatok összegyűjtése a migrálásra való felkészüléshez

Ez a szakasz sablon kérdőíveket tartalmaz, amelyek segítenek összegyűjteni a következőkkel kapcsolatos fontos információkat:

  • A helyszíni üzembe helyezés
  • Projekt részletei
  • Azure requirements

Helyszíni üzembe helyezési kérdőív

Kérdés Példa Válasz
Témakör: Környezet
Fürtterjesztési verzió HDP 2.6.5, CDH 5.7
Big Data ökorendszer-összetevők HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Fürttípusok Hadoop, Spark, Confluent Kafka, Solr
Fürtök száma 4
Fő csomópontok száma 2
Feldolgozó csomópontok száma 100
Élcsomópontok száma 5
Teljes lemezterület 100 TB
Főcsomópont konfigurálása m/y, processzor, lemez stb.
Adatcsomópontok konfigurálása m/y, processzor, lemez stb.
Edge-csomópontok konfigurálása m/y, processzor, lemez stb.
HDFS-titkosítás? Igen
High Availability HDFS HA, Metastore HA
Vészhelyreállítás / Biztonsági mentés Biztonsági mentési fürt?
Fürttől függő rendszerek SQL Server, Teradata, Power BI, MongoDB
Külső integrációk Tableau, GridGain, Qubole, Informatica, Splunk
Témakör: Biztonság
Szegélybiztonság Tűzfalak
Fürthitelesítés > engedélyezés Active Directory, Ambari, Cloudera Manager, Nincs hitelesítés
HDFS-hozzáférés-vezérlés Manuális, ssh-felhasználók
Hive-hitelesítés > engedélyezés Sentry, LDAP, AD kerberossal, Ranger
Naplózás Ambari, Cloudera Navigator, Ranger
Figyelés Graphite, collectd, statsd, Telegraf, InfluxDB
Riasztások kezelése Kapacitor, Prometheus, Datadog
Adatmegőrzés időtartama Három év, öt év
Fürt Rendszergazda istratorok Egy Rendszergazda istrator, több Rendszergazda istrator

Projektinformációs kérdőív

Kérdés Példa Válasz
Témakör: Számítási feladatok és gyakoriság
MapReduce-feladatok 10 feladat – naponta kétszer
Hive-feladatok 100 feladat óránként
Spark batch-feladatok 50 feladat – 15 percenként
Spark Streaming-feladatok 5 feladat – 3 percenként
Strukturált streamelési feladatok 5 feladat – percenként
Programozási nyelvek Python, Scala, Java
Parancsfájlkezelés Shell, Python
Témakör: Adatok
Adatforrások Lapos fájlok, Json, Kafka, RDBMS
Adatkoordinálás Oozie-munkafolyamatok, Airflow
Memóriakeresésekben Apache Ignite, Redis
Adatcélok HDFS, RDBMS, Kafka, MPP
Témakör: Metaadatok
Hive DB típusa Mysql, Postgres
Hive-metaadattárak száma 2
Hive-táblák száma 100
Ranger-szabályzatok száma 20
Oozie-munkafolyamatok száma 100
Témakör: Skálázás
Adatkötet, beleértve a replikációt 100 TB
Napi betöltési mennyiség 50 GB
Adatnövekedési arány 10% évente
Fürtcsomópontok növekedési üteme 5% évente
Témakör: Fürt kihasználtsága
Felhasznált processzor átlagos %-a 60%
Felhasznált memória átlagos aránya 75%
Felhasznált lemezterület 75%
Felhasznált átlagos hálózati %. 25%
Témakör: Személyzet
Rendszergazda istratorok száma 2
Fejlesztők száma 10
Végfelhasználók száma 100
Szakértelem Hadoop, Spark
A migrálási erőfeszítésekhez rendelkezésre álló erőforrások száma 2
Témakör: Korlátozások
Current limitations A késés magas
Aktuális feladvány Egyidejűségi probléma

Azure-követelményekre vonatkozó kérdőív

Kérdés Példa Válasz
Témakör: Infrastruktúra
Előnyben részesített régió USA keleti régiója
Előnyben részesített virtuális hálózat? Igen
HA / DR Szükséges? Igen
Integráció más felhőszolgáltatásokkal? ADF, Azure Cosmos DB
Témakör: Adatáthelyezés
Kezdeti terhelési beállítás DistCp, Data box, ADF, WANDisco
Adatátviteli eltérés DistCp, AzCopy
Folyamatos növekményes adatátvitel DistCp, Sqoop
Témakör: Figyelés és riasztás
Az Azure Monitorozás és a Külső figyelés integrálása szolgáltatás használata Az Azure Monitorozás és riasztások használata
Témakör: Biztonsági beállítások
Privát és védett adatfolyam? Igen
Tartományhoz csatlakoztatott fürt (ESP)? Igen
Helyszíni AD-szinkronizáló a felhőbe? Igen
Szinkronizálandó AD-felhasználók száma? 100
Rendben van a jelszavak felhőbe való szinkronizálása? Igen
Csak felhőbeli felhasználók? Igen
MFA szükséges? Nem
Adatengedélyezési követelmények? Igen
Szerepköralapú hozzáférés-vezérlés? Igen
Naplózásra van szükség? Igen
Inaktív adattitkosítás? Igen
Adattitkosítás átvitel közben? Igen
Témakör: Az újraarchitektúra beállításai
Önálló fürt és adott fürttípusok Adott fürttípusok
Megosztott tárolás és távoli tárolás? Távoli tárolás
Kisebb fürtméret az adatok távoli tárolásakor? Kisebb fürtméret
Több kisebb fürtöt használ egyetlen nagy fürt helyett? Több kisebb fürt használata
Távoli metaadattárat használ? Igen
Metaadattárakat oszt meg különböző fürtök között? Igen
Számítási feladatok dekonstruálása? Hive-feladatok cseréje Spark-feladatokra
Az ADF-et használja az adatvezényléshez? Nem

További lépések

Olvassa el a következő cikket ebben a sorozatban: