Aracılığıyla paylaş


Şirket içi Apache Hadoop kümelerini Azure HDInsight'a geçirme - motivasyon ve avantajlar

Bu makale, şirket içi Apache Hadoop eko sistem dağıtımlarını Azure HDInsight'a geçirmek için en iyi yöntemler serisinin ilkidir. Bu makale serisi, Azure HDInsight'ta Apache Hadoop çözümlerinin tasarımından, dağıtımından ve geçişinden sorumlu kişilere yöneliktir. Bu makalelerden yararlanabilecek roller arasında bulut mimarları, Hadoop yöneticileri ve DevOps mühendisleri yer alır. Yazılım geliştiricileri, veri mühendisleri ve veri bilimcileri de farklı küme türlerinin bulutta nasıl çalıştığına ilişkin açıklamalardan yararlanmalıdır.

Neden Azure HDInsight'a geçirilmeli?

Azure HDInsight, Hadoop bileşenlerinin bulut dağıtımıdır. Azure HDInsight, devasa miktarlardaki verileri işlemeyi kolay, hızlı ve uygun maliyetli hale getirir. HDInsight aşağıdakiler gibi en popüler açık kaynak çerçevelerini içerir:

  • Apache Hadoop
  • Apache Spark
  • LLAP ile Apache Hive
  • Apache Kafka
  • Apache HBase

Azure HDInsight'ın şirket içi Hadoop'a göre avantajları

  • Düşük maliyet - İsteğe bağlı kümeler oluşturup yalnızca kullandığınız kadar ödeyerek maliyetler azaltılabilir. Ayrılmış işlem ve depolama, veri hacmini küme boyutundan bağımsız tutarak esneklik sağlar.

  • Otomatik küme oluşturma - Otomatik küme oluşturma işlemi en az kurulum ve yapılandırma gerektirir. Otomasyon, isteğe bağlı kümeler için kullanılabilir.

  • Yönetilen donanım ve yapılandırma - HDInsight kümesine sahip fiziksel donanım veya altyapı konusunda endişelenmenize gerek yoktur. Kümenin yapılandırmasını belirtmeniz ve Azure'ın kümeyi ayarlaması gerekir.

  • Kolayca ölçeklenebilir - HDInsight, iş yüklerinin ölçeğini artırmanıza veya azaltmanıza olanak tanır. Azure, veri işleme işlerini kesintiye uğratmadan veri yeniden dağıtımını ve iş yükünü yeniden dengelemeyi üstlenir.

  • Genel kullanılabilirlik - HDInsight, diğer tüm büyük veri analizi tekliflerinden daha fazla bölgede kullanılabilir. Azure HDInsight ayrıca temel bağımsız bölgelerde kurumsal ihtiyaçlarınızı karşılamanıza olanak sağlayan Azure Kamu, Çin ve Almanya’da da kullanılabilir.

  • Güvenli ve uyumlu - HDInsight, Azure Sanal Ağ, şifreleme ve Microsoft Entra ID ile tümleştirme ile kurumsal veri varlıklarınızı korumanıza olanak tanır. HDInsight ayrıca en popüler sektör ve kamu uyumluluk standartlarını karşılar.

  • Basitleştirilmiş sürüm yönetimi - Azure HDInsight, Hadoop eko sistem bileşenlerinin sürümünü yönetir ve bunları güncel tutar. Yazılım güncelleştirmeleri genellikle şirket içi dağıtımlar için karmaşık bir işlemdir.

  • Bileşenler arasında daha az bağımlılığı olan belirli iş yükleri için iyileştirilmiş daha küçük kümeler - Tipik bir şirket içi Hadoop kurulumu, birçok amaca hizmet eden tek bir küme kullanır. Azure HDInsight ile iş yüküne özgü kümeler oluşturulabilir. Belirli iş yükleri için kümeler oluşturmak, artan karmaşıklık ile tek bir kümenin bakımının karmaşıklığını ortadan kaldırır.

  • Üretkenlik - Hadoop ve Spark için tercih ettiğiniz geliştirme ortamında çeşitli araçlar kullanabilirsiniz.

  • Özel araçlar veya üçüncü taraf uygulamalarla genişletilebilirlik - HDInsight kümeleri yüklü bileşenlerle genişletilebilir ve Azure Market'ten tek tıklamayla yapılan dağıtımlar kullanılarak diğer büyük veri çözümleriyle tümleştirilebilir.

  • Kolay yönetim, yönetim ve izleme - Azure HDInsight, tüm kümelerinizi izleyebildiğiniz tek bir arabirim sağlamak için Azure İzleyici günlükleriyle tümleşir.

  • Diğer Azure hizmetleriyle tümleştirme - HDInsight, aşağıdaki gibi diğer popüler Azure hizmetleriyle kolayca tümleştirilebilir:

    • Azure Data Factory (ADF)
    • Azure Blob Depolama
    • Azure Data Lake Storage 2. Nesil
    • Azure Cosmos DB
    • Azure SQL Veritabanı
    • Azure Analysis Services
  • Kendi kendini iyileştiren süreçler ve bileşenler - HDInsight, kendi izleme altyapısını kullanarak altyapıyı ve açık kaynak bileşenleri sürekli olarak denetler. Ayrıca, açık kaynak bileşenlerin ve düğümlerin kullanılamaması gibi kritik hataları otomatik olarak kurtarır. Herhangi bir OSS bileşeni başarısız olursa Ambari'de uyarılar tetiklenir.

Daha fazla bilgi için Azure HDInsight ve Apache Hadoop teknoloji yığını nedir? makalesine bakın.

Geçiş planlama işlemi

Şirket içi Hadoop kümelerinin Azure HDInsight'a geçişini planlamak için aşağıdaki adımlar önerilir:

  1. Geçerli şirket içi dağıtımı ve topolojileri anlama.
  2. Geçerli proje kapsamını, zaman çizelgelerini ve ekip uzmanlığını anlayın.
  3. Azure gereksinimlerini anlama.
  4. En iyi yöntemleri temel alan ayrıntılı bir plan oluşturun.

Geçişe hazırlanmak için ayrıntıları toplama

Bu bölümde, aşağıdakiler hakkında önemli bilgilerin toplanmasına yardımcı olmak için şablon anketleri sağlanır:

  • Şirket içi dağıtım
  • Proje ayrıntıları
  • Azure gereksinimleri

Şirket içi dağıtım anketi

Soru Örnek Yanıt
Konu: Ortam
Küme Dağıtımı sürümü HDP 2.6.5, CDH 5.7
Büyük Veri eko sistem bileşenleri HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Küme türleri Hadoop, Spark, Confluent Kafka, Solr
Küme sayısı 4
Ana düğüm sayısı 2
Çalışan düğümlerinin sayısı Kategori 100
Kenar düğümlerinin sayısı 5
Toplam Disk alanı 100 TB
Ana Düğüm yapılandırması m/y, cpu, disk vb.
Veri Düğümleri yapılandırması m/y, cpu, disk vb.
Uç Düğümler yapılandırması m/y, cpu, disk vb.
HDFS Şifrelemesi mi? Evet
Yüksek Kullanılabilirlik HDFS HA, Meta veri deposu HA
Olağanüstü Durum Kurtarma / Yedekleme Yedekleme kümesi mi?
Kümeye bağımlı sistemler SQL Server, Teradata, Power BI, MongoDB
Üçüncü taraf tümleştirmeleri Tableau, GridGain, Qubole, Informatica, Splunk
Konu: Güvenlik
Çevre güvenliği Güvenlik duvarları
Küme kimlik doğrulaması ve yetkilendirme Active Directory, Ambari, Cloudera Manager, Kimlik doğrulaması yok
HDFS Erişim Denetimi El ile, ssh kullanıcıları
Hive kimlik doğrulaması ve yetkilendirme Sentry, LDAP, Kerberos ile AD, Ranger
Denetim Ambari, Cloudera Navigator, Ranger
İzleme Grafit, collectd, statsd, Telegraf, InfluxDB
Uyarı Kapacitor, Prometheus, Datadog
Veri Saklama süresi Üç yıl, beş yıl
Küme Yönetici istrator'ları Tek Yönetici Istrator, Birden Çok Yönetici Istrator

Proje ayrıntıları anketi

Soru Örnek Yanıt
Konu: İş Yükleri ve Sıklık
MapReduce işleri 10 iş--günde iki kez
Hive işleri Saatte bir 100 iş
Spark toplu işleri 50 iş--her 15 dakikada bir
Spark Akış işleri 5 iş--her 3 dakikada bir
Yapılandırılmış Akış işleri 5 iş--her dakika
Programlama Dilleri Python, Scala, Java
Komut dosyası Kabuk, Python
Konu: Veriler
Veri kaynakları Düz dosyalar, Json, Kafka, RDBMS
Veri düzenleme Oozie iş akışları, Airflow
Bellek aramalarında Apache Ignite, Redis
Veri hedefleri HDFS, RDBMS, Kafka, MPP
Konu: Meta veriler
Hive DB türü Mysql, Postgres
Hive meta veri deposu sayısı 2
Hive tablolarının sayısı Kategori 100
Ranger ilkeleri sayısı 20
Oozie iş akışı sayısı Kategori 100
Konu: Ölçeklendirme
Çoğaltma dahil olmak üzere veri birimi 100 TB
Günlük alım hacmi 50 GB
Veri büyüme hızı Yılda %10
Küme Düğümleri büyüme hızı Yılda %5
Konu: Küme kullanımı
Kullanılan ortalama CPU yüzdesi %60
Kullanılan Ortalama Bellek Yüzdesi %75
Kullanılan disk alanı %75
Kullanılan Ortalama Ağ Yüzdesi %25
Konu: Personel
Yönetici istrator sayısı 2
Geliştirici Sayısı 10
Son kullanıcı sayısı Kategori 100
Beceriler Hadoop, Spark
Geçiş çalışmaları için kullanılabilir kaynak sayısı 2
Konu: Sınırlamalar
Geçerli sınırlamalar Gecikme süresi yüksek
Mevcut sınamalar Eşzamanlılık sorunu

Azure gereksinimleri anketi

Soru Örnek Yanıt
Konu: Altyapı
Tercih Edilen Bölge ABD Doğu
Tercih edilen sanal ağ mı? Evet
HA / DR Gerekli mi? Evet
Diğer bulut hizmetleriyle tümleştirme mi? ADF, Azure Cosmos DB
Konu: Veri Taşıma
İlk yükleme tercihi DistCp, Veri kutusu, ADF, WANDisco
Veri aktarımı deltası DistCp, AzCopy
Devam eden artımlı veri aktarımı DistCp, Sqoop
Konu: İzleme ve Uyarı
Azure İzleme ve Uyarı kullanma ve Üçüncü taraf izlemeyi tümleştirme Azure İzleme ve Uyarı Kullanma
Konu: Güvenlik tercihleri
Özel ve korumalı veri işlem hattı? Evet
Etki Alanına Katılmış küme (ESP)? Evet
Şirket İçi AD Eşitleme Buluta mı? Evet
Eşitlenecek AD kullanıcılarının sayısı nedir? Kategori 100
Parolaları buluta eşitlemek için tamam mısınız? Evet
Yalnızca Bulut Kullanıcıları mı? Evet
MFA gerekli mi? No
Veri yetkilendirme gereksinimleri? Evet
Rol tabanlı erişim denetimi mi? Evet
Denetim gerekiyor mu? Evet
Bekleyen veri şifrelemesi mi? Evet
Aktarımda veri şifrelemesi mi var? Evet
Konu: Yeniden Mimari tercihleri
Tek küme ile Belirli küme türleri karşılaştırması Belirli küme türleri
Birlikte bulunan Depolama Vs Uzak Depolama? Uzak Depolama
Veriler uzaktan depolandığından küme boyutu daha küçük mü? Daha küçük küme boyutu
Tek bir büyük küme yerine birden çok küçük küme mi kullanacağız? Birden çok küçük küme kullanma
Uzak meta veri deposu mu kullanılasın? Evet
Meta veri depoları farklı kümeler arasında paylaşılasın mı? Evet
İş yükleri yapılsın mı? Hive işlerini Spark işleri ile değiştirme
Veri düzenleme için ADF kullanalım mı? No

Sonraki adımlar

Bu serinin sonraki makalesini okuyun: