Aracılığıyla paylaş


Şirket içi Apache Hadoop kümelerini Azure HDInsight'a geçirme - motivasyon ve avantajlar

Bu makale, şirket içi Apache Hadoop eko sistem dağıtımlarını Azure HDInsight'a geçirmek için en iyi yöntemler serisinin ilkidir. Bu makale serisi, Azure HDInsight'ta Apache Hadoop çözümlerinin tasarımından, dağıtımından ve geçişinden sorumlu kişilere yöneliktir. Bu makalelerden yararlanabilecek roller arasında bulut mimarları, Hadoop yöneticileri ve DevOps mühendisleri yer alır. Yazılım geliştiricileri, veri mühendisleri ve veri bilimcileri de farklı küme türlerinin bulutta nasıl çalıştığına ilişkin açıklamalardan yararlanmalıdır.

Neden Azure HDInsight'a geçirilmeli?

Azure HDInsight, Hadoop bileşenlerinin bulut dağıtımıdır. Azure HDInsight, çok büyük miktarda veriyi işlemeyi kolay, hızlı ve uygun maliyetli hale getirir. HDInsight aşağıdakiler gibi en popüler açık kaynak çerçevelerini içerir:

  • Apache Hadoop
  • Apache Spark
  • LLAP ile Apache Hive
  • Apache Kafka
  • Apache HBase

Azure HDInsight'ın şirket içi Hadoop'a göre avantajları

  • Düşük maliyet - İsteğe bağlı kümeler oluşturup yalnızca kullandığınız kadar ödeyerek maliyetler azaltılabilir. Ayrılmış işlem ve depolama, veri hacmini küme boyutundan bağımsız tutarak esneklik sağlar.

  • Otomatik küme oluşturma - Otomatik küme oluşturma işlemi en az kurulum ve yapılandırma gerektirir. Otomasyon, isteğe bağlı kümeler için kullanılabilir.

  • Yönetilen donanım ve yapılandırma - HDInsight kümesine sahip fiziksel donanım veya altyapı konusunda endişelenmenize gerek yoktur. Kümenin yapılandırmasını belirtmeniz ve Azure'ın kümeyi ayarlaması gerekir.

  • Kolayca ölçeklenebilir - HDInsight, iş yüklerinin ölçeğini artırmanıza veya azaltmanıza olanak tanır. Azure, veri işleme işlerini kesintiye uğratmadan veri yeniden dağıtımını ve iş yükünü yeniden dengelemeyi üstlenir.

  • Genel kullanılabilirlik - HDInsight, diğer tüm büyük veri analizi tekliflerinden daha fazla bölgede kullanılabilir. Azure HDInsight ayrıca temel bağımsız bölgelerde kurumsal ihtiyaçlarınızı karşılamanıza olanak sağlayan Azure Kamu, Çin ve Almanya’da da kullanılabilir.

  • Güvenli ve uyumlu - HDInsight, Azure Sanal Ağ, şifreleme ve Microsoft Entra Id ile tümleştirme ile kurumsal veri varlıklarınızı korumanıza olanak tanır. HDInsight ayrıca en popüler sektör ve kamu uyumluluk standartlarını da karşılar.

  • Basitleştirilmiş sürüm yönetimi - Azure HDInsight, Hadoop eko sistem bileşenlerinin sürümünü yönetir ve bunları güncel tutar. Yazılım güncelleştirmeleri genellikle şirket içi dağıtımlar için karmaşık bir işlemdir.

  • Bileşenler arasında daha az bağımlılığı olan belirli iş yükleri için iyileştirilmiş daha küçük kümeler - Tipik bir şirket içi Hadoop kurulumu, birçok amaca hizmet eden tek bir küme kullanır. Azure HDInsight ile iş yüküne özgü kümeler oluşturulabilir. Belirli iş yükleri için kümeler oluşturmak, artan karmaşıklık ile tek bir kümenin bakımının karmaşıklığını ortadan kaldırır.

  • Üretkenlik - Hadoop ve Spark için tercih ettiğiniz geliştirme ortamında çeşitli araçlar kullanabilirsiniz.

  • Özel araçlar veya üçüncü taraf uygulamalarla genişletilebilirlik - HDInsight kümeleri yüklü bileşenlerle genişletilebilir ve Azure Market'ten tek tıklamayla yapılan dağıtımlar kullanılarak diğer büyük veri çözümleriyle tümleştirilebilir.

  • Kolay yönetim, yönetim ve izleme - Azure HDInsight, tüm kümelerinizi izleyebildiğiniz tek bir arabirim sağlamak için Azure İzleyici günlükleriyle tümleşir.

  • Diğer Azure hizmetleriyle tümleştirme - HDInsight, aşağıdaki gibi diğer popüler Azure hizmetleriyle kolayca tümleştirilebilir:

    • Azure Data Factory (ADF)
    • Azure Blob Depolama
    • Azure Data Lake Storage Gen2
    • Azure Cosmos DB veritabanı
    • Azure SQL Veritabanı
    • Azure Analysis Services
  • Kendi kendini iyileştiren süreçler ve bileşenler - HDInsight, kendi izleme altyapısını kullanarak altyapıyı ve açık kaynak bileşenleri sürekli olarak denetler. Ayrıca, açık kaynak bileşenlerin ve düğümlerin kullanılamaması gibi kritik hataları otomatik olarak kurtarır. Herhangi bir OSS bileşeni başarısız olursa Ambari'de uyarılar tetiklenir.

Daha fazla bilgi için Azure HDInsight ve Apache Hadoop teknoloji yığını nedir? makalesine bakın.

Geçiş planlama işlemi

Şirket içi Hadoop kümelerinin Azure HDInsight'a geçişini planlamak için aşağıdaki adımlar önerilir:

  1. Mevcut şirket içi dağıtımı ve topolojileri anlamak.
  2. Geçerli proje kapsamını, zaman çizelgelerini ve ekip uzmanlığını anlayın.
  3. Azure gereksinimlerini anlama.
  4. En iyi yöntemleri temel alan ayrıntılı bir plan oluşturun.

Geçişe hazırlanmak için ayrıntıları toplama

Bu bölümde, aşağıdakiler hakkında önemli bilgilerin toplanmasına yardımcı olmak için şablon anketleri sağlanır:

  • Şirket içi dağıtım
  • Proje ayrıntıları
  • Azure gereksinimleri

Şirket içi dağıtım anketi

Soru Örnek Yanıt
Konu: Ortam
Küme Dağıtımı sürümü HDP 2.6.5, CDH 5.7
Büyük Veri eko sistem bileşenleri HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Küme türleri Hadoop, Spark, Confluent Kafka, Solr
Küme sayısı 4
Ana düğüm sayısı 2
İşçi düğüm sayısı 100
Kenar düğümlerinin sayısı 5
Toplam Disk alanı 100 TB
Ana Düğümün Yapılandırılması m/y, cpu, disk vb.
Veri Düğümleri yapılandırması m/y, cpu, disk vb.
Uç Düğümler Yapılandırması m/y, cpu, disk vb.
HDFS Şifrelemesi mi? Evet
Yüksek Kullanılabilirlik HDFS HA, Metastore HA
Olağanüstü Durum Kurtarma / Yedekleme Yedekleme kümesi mi?
Kümeye bağımlı sistemler SQL Server, Teradata, Power BI, MongoDB
Üçüncü taraf tümleştirmeleri Tableau, GridGain, Qubole, Informatica, Splunk
Konu: Güvenlik
Çevre güvenliği Güvenlik duvarları
Küme kimlik doğrulaması ve yetkilendirme Active Directory, Ambari, Cloudera Manager, Kimlik doğrulaması yok
HDFS Erişim Denetimi El ile, ssh kullanıcıları
Hive kimlik doğrulaması ve yetkilendirme Sentry, LDAP, Kerberos ile AD, Ranger
Denetim Ambari, Cloudera Navigator, Ranger
İzleme Grafit, collectd, statsd, Telegraf, InfluxDB
Uyarı Kapacitor, Prometheus, Datadog
Veri Saklama süresi Üç yıl, beş yıl
Küme Yöneticileri Tek Yönetici, Birden Çok Yönetici

Proje ayrıntıları anketi

Soru Örnek Yanıt
Konu: İş Yükleri ve Sıklık
MapReduce işleri 10 iş--günde iki kez
Hive görevleri Saatte bir 100 iş
Spark toplu işleri 50 iş--her 15 dakikada bir
Spark Akış işleri 5 iş--her 3 dakikada bir
Yapılandırılmış Akış görevleri 5 iş--her dakika
Programlama Dilleri Python, Scala, Java
Betik Yazma Shell, Python
Konu: Veriler
Veri kaynakları Düz dosyalar, JSON, Kafka, RDBMS
Veri düzenleme Oozie iş akışları, Airflow
Bellekteki veriye erişim Apache Ignite, Redis
Veri hedefleri HDFS, RDBMS, Kafka, MPP
Konu: Meta veriler
Hive DB türü Mysql, Postgres
Hive meta veri deposu sayısı 2
Hive tablolarının sayısı 100
Ranger ilkeleri sayısı 20
Oozie iş akışı sayısı 100
Konu: Ölçeklendirme
Çoğaltma dahil olmak üzere veri birimi 100 TB
Günlük alım hacmi 50 GB
Veri büyüme hızı Yılda 10%
Küme Düğümleri büyüme hızı Yılda 5%
Konu: Küme kullanımı
Kullanılan ortalama CPU % %60
Kullanılan Ortalama Bellek % 75%
Kullanılan disk alanı %75
Kullanılan Ortalama Ağ % %25
Konu: Personel
Yönetici Sayısı 2
Geliştirici Sayısı 10
Son kullanıcı sayısı 100
Beceri Hadoop, Spark
Geçiş çalışmaları için kullanılabilir kaynak sayısı 2
Konu: Sınırlamalar
Geçerli sınırlamalar Gecikme süresi yüksek
Mevcut sınamalar Eşzamanlılık sorunu

Azure gereksinimleri anketi

Soru Örnek Yanıt
Konu: Altyapı
Tercih Edilen Bölge ABD Doğu
VNet tercih edilir mi? Evet
HA / DR Gerekli mi? Evet
Diğer bulut hizmetleriyle tümleştirme mi? ADF, Azure Cosmos DB
Konu: Veri Taşıma
İlk yükleme tercihi DistCp, Veri kutusu, ADF, WANDisco
Veri aktarımı deltası DistCp, AzCopy
Devam eden artımlı veri aktarımı DistCp, Sqoop
Konu: İzleme ve Uyarı
Azure İzleme ve Uyarı kullanma ve Üçüncü taraf izlemeyi tümleştirme Azure İzleme ve Uyarı Kullanma
Konu: Güvenlik tercihleri
Özel ve korumalı veri işlem hattı? Evet
Etki Alanına Katılmış küme (ESP)? Evet
Şirket İçi AD Buluta Eşitleme mi? Evet
Eşitlenecek AD kullanıcılarının sayısı nedir? 100
Parolaları buluta eşitlemek için tamam mısınız? Evet
Yalnızca Bulut Kullanıcıları mı? Evet
MFA gerekli mi? Hayı
Veri yetkilendirme gereksinimleri? Evet
Rol tabanlı erişim denetimi mi? Evet
Denetim gerekiyor mu? Evet
Bekleyen veri şifrelemesi mi? Evet
Aktarımda veri şifrelemesi mi var? Evet
Konu: Re-Architecture tercihleri
Tek küme ile Belirli küme türleri karşılaştırması Belirli küme türleri
Birlikte Bulunan Depolama ile Uzak Depolama Karşılaştırması Uzakta Depolama
Veriler uzaktan depolandığından küme boyutu daha küçük mü? Daha küçük küme boyutu
Tek bir büyük küme yerine birden çok küçük küme mi kullanacağız? Birden çok küçük küme kullanma
Uzak bir meta veri deposu kullanılsın mı? Evet
Meta veri depoları farklı kümeler arasında paylaşılasın mı? Evet
İş yükleri parçalanıp incelensin mi? Hive işlerini Spark işlerine değiştirme
Veri düzenleme için ADF kullanalım mı? Hayı

Sonraki adımlar

Bu serinin sonraki makalesini okuyun: