Şirket içi Apache Hadoop kümelerini Azure HDInsight'a geçirme - motivasyon ve avantajlar
Bu makale, şirket içi Apache Hadoop eko sistem dağıtımlarını Azure HDInsight'a geçirmek için en iyi yöntemler serisinin ilkidir. Bu makale serisi, Azure HDInsight'ta Apache Hadoop çözümlerinin tasarımından, dağıtımından ve geçişinden sorumlu kişilere yöneliktir. Bu makalelerden yararlanabilecek roller arasında bulut mimarları, Hadoop yöneticileri ve DevOps mühendisleri yer alır. Yazılım geliştiricileri, veri mühendisleri ve veri bilimcileri de farklı küme türlerinin bulutta nasıl çalıştığına ilişkin açıklamalardan yararlanmalıdır.
Neden Azure HDInsight'a geçirilmeli?
Azure HDInsight, Hadoop bileşenlerinin bulut dağıtımıdır. Azure HDInsight, devasa miktarlardaki verileri işlemeyi kolay, hızlı ve uygun maliyetli hale getirir. HDInsight aşağıdakiler gibi en popüler açık kaynak çerçevelerini içerir:
- Apache Hadoop
- Apache Spark
- LLAP ile Apache Hive
- Apache Kafka
- Apache HBase
Azure HDInsight'ın şirket içi Hadoop'a göre avantajları
Düşük maliyet - İsteğe bağlı kümeler oluşturup yalnızca kullandığınız kadar ödeyerek maliyetler azaltılabilir. Ayrılmış işlem ve depolama, veri hacmini küme boyutundan bağımsız tutarak esneklik sağlar.
Otomatik küme oluşturma - Otomatik küme oluşturma işlemi en az kurulum ve yapılandırma gerektirir. Otomasyon, isteğe bağlı kümeler için kullanılabilir.
Yönetilen donanım ve yapılandırma - HDInsight kümesine sahip fiziksel donanım veya altyapı konusunda endişelenmenize gerek yoktur. Kümenin yapılandırmasını belirtmeniz ve Azure'ın kümeyi ayarlaması gerekir.
Kolayca ölçeklenebilir - HDInsight, iş yüklerinin ölçeğini artırmanıza veya azaltmanıza olanak tanır. Azure, veri işleme işlerini kesintiye uğratmadan veri yeniden dağıtımını ve iş yükünü yeniden dengelemeyi üstlenir.
Genel kullanılabilirlik - HDInsight, diğer tüm büyük veri analizi tekliflerinden daha fazla bölgede kullanılabilir. Azure HDInsight ayrıca temel bağımsız bölgelerde kurumsal ihtiyaçlarınızı karşılamanıza olanak sağlayan Azure Kamu, Çin ve Almanya’da da kullanılabilir.
Güvenli ve uyumlu - HDInsight, Azure Sanal Ağ, şifreleme ve Microsoft Entra ID ile tümleştirme ile kurumsal veri varlıklarınızı korumanıza olanak tanır. HDInsight ayrıca en popüler sektör ve kamu uyumluluk standartlarını karşılar.
Basitleştirilmiş sürüm yönetimi - Azure HDInsight, Hadoop eko sistem bileşenlerinin sürümünü yönetir ve bunları güncel tutar. Yazılım güncelleştirmeleri genellikle şirket içi dağıtımlar için karmaşık bir işlemdir.
Bileşenler arasında daha az bağımlılığı olan belirli iş yükleri için iyileştirilmiş daha küçük kümeler - Tipik bir şirket içi Hadoop kurulumu, birçok amaca hizmet eden tek bir küme kullanır. Azure HDInsight ile iş yüküne özgü kümeler oluşturulabilir. Belirli iş yükleri için kümeler oluşturmak, artan karmaşıklık ile tek bir kümenin bakımının karmaşıklığını ortadan kaldırır.
Üretkenlik - Hadoop ve Spark için tercih ettiğiniz geliştirme ortamında çeşitli araçlar kullanabilirsiniz.
Özel araçlar veya üçüncü taraf uygulamalarla genişletilebilirlik - HDInsight kümeleri yüklü bileşenlerle genişletilebilir ve Azure Market'ten tek tıklamayla yapılan dağıtımlar kullanılarak diğer büyük veri çözümleriyle tümleştirilebilir.
Kolay yönetim, yönetim ve izleme - Azure HDInsight, tüm kümelerinizi izleyebildiğiniz tek bir arabirim sağlamak için Azure İzleyici günlükleriyle tümleşir.
Diğer Azure hizmetleriyle tümleştirme - HDInsight, aşağıdaki gibi diğer popüler Azure hizmetleriyle kolayca tümleştirilebilir:
- Azure Data Factory (ADF)
- Azure Blob Depolama
- Azure Data Lake Storage 2. Nesil
- Azure Cosmos DB
- Azure SQL Veritabanı
- Azure Analysis Services
Kendi kendini iyileştiren süreçler ve bileşenler - HDInsight, kendi izleme altyapısını kullanarak altyapıyı ve açık kaynak bileşenleri sürekli olarak denetler. Ayrıca, açık kaynak bileşenlerin ve düğümlerin kullanılamaması gibi kritik hataları otomatik olarak kurtarır. Herhangi bir OSS bileşeni başarısız olursa Ambari'de uyarılar tetiklenir.
Daha fazla bilgi için Azure HDInsight ve Apache Hadoop teknoloji yığını nedir? makalesine bakın.
Geçiş planlama işlemi
Şirket içi Hadoop kümelerinin Azure HDInsight'a geçişini planlamak için aşağıdaki adımlar önerilir:
- Geçerli şirket içi dağıtımı ve topolojileri anlama.
- Geçerli proje kapsamını, zaman çizelgelerini ve ekip uzmanlığını anlayın.
- Azure gereksinimlerini anlama.
- En iyi yöntemleri temel alan ayrıntılı bir plan oluşturun.
Geçişe hazırlanmak için ayrıntıları toplama
Bu bölümde, aşağıdakiler hakkında önemli bilgilerin toplanmasına yardımcı olmak için şablon anketleri sağlanır:
- Şirket içi dağıtım
- Proje ayrıntıları
- Azure gereksinimleri
Şirket içi dağıtım anketi
Soru | Örnek | Yanıt |
---|---|---|
Konu: Ortam | ||
Küme Dağıtımı sürümü | HDP 2.6.5, CDH 5.7 | |
Büyük Veri eko sistem bileşenleri | HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R | |
Küme türleri | Hadoop, Spark, Confluent Kafka, Solr | |
Küme sayısı | 4 | |
Ana düğüm sayısı | 2 | |
Çalışan düğümlerinin sayısı | Kategori 100 | |
Kenar düğümlerinin sayısı | 5 | |
Toplam Disk alanı | 100 TB | |
Ana Düğüm yapılandırması | m/y, cpu, disk vb. | |
Veri Düğümleri yapılandırması | m/y, cpu, disk vb. | |
Uç Düğümler yapılandırması | m/y, cpu, disk vb. | |
HDFS Şifrelemesi mi? | Evet | |
Yüksek Kullanılabilirlik | HDFS HA, Meta veri deposu HA | |
Olağanüstü Durum Kurtarma / Yedekleme | Yedekleme kümesi mi? | |
Kümeye bağımlı sistemler | SQL Server, Teradata, Power BI, MongoDB | |
Üçüncü taraf tümleştirmeleri | Tableau, GridGain, Qubole, Informatica, Splunk | |
Konu: Güvenlik | ||
Çevre güvenliği | Güvenlik duvarları | |
Küme kimlik doğrulaması ve yetkilendirme | Active Directory, Ambari, Cloudera Manager, Kimlik doğrulaması yok | |
HDFS Erişim Denetimi | El ile, ssh kullanıcıları | |
Hive kimlik doğrulaması ve yetkilendirme | Sentry, LDAP, Kerberos ile AD, Ranger | |
Denetim | Ambari, Cloudera Navigator, Ranger | |
İzleme | Grafit, collectd, statsd , Telegraf, InfluxDB |
|
Uyarı | Kapacitor , Prometheus, Datadog |
|
Veri Saklama süresi | Üç yıl, beş yıl | |
Küme Yönetici istrator'ları | Tek Yönetici Istrator, Birden Çok Yönetici Istrator |
Proje ayrıntıları anketi
Soru | Örnek | Yanıt |
---|---|---|
Konu: İş Yükleri ve Sıklık | ||
MapReduce işleri | 10 iş--günde iki kez | |
Hive işleri | Saatte bir 100 iş | |
Spark toplu işleri | 50 iş--her 15 dakikada bir | |
Spark Akış işleri | 5 iş--her 3 dakikada bir | |
Yapılandırılmış Akış işleri | 5 iş--her dakika | |
Programlama Dilleri | Python, Scala, Java | |
Komut dosyası | Kabuk, Python | |
Konu: Veriler | ||
Veri kaynakları | Düz dosyalar, Json, Kafka, RDBMS | |
Veri düzenleme | Oozie iş akışları, Airflow | |
Bellek aramalarında | Apache Ignite, Redis | |
Veri hedefleri | HDFS, RDBMS, Kafka, MPP | |
Konu: Meta veriler | ||
Hive DB türü | Mysql, Postgres | |
Hive meta veri deposu sayısı | 2 | |
Hive tablolarının sayısı | Kategori 100 | |
Ranger ilkeleri sayısı | 20 | |
Oozie iş akışı sayısı | Kategori 100 | |
Konu: Ölçeklendirme | ||
Çoğaltma dahil olmak üzere veri birimi | 100 TB | |
Günlük alım hacmi | 50 GB | |
Veri büyüme hızı | Yılda %10 | |
Küme Düğümleri büyüme hızı | Yılda %5 | |
Konu: Küme kullanımı | ||
Kullanılan ortalama CPU yüzdesi | %60 | |
Kullanılan Ortalama Bellek Yüzdesi | %75 | |
Kullanılan disk alanı | %75 | |
Kullanılan Ortalama Ağ Yüzdesi | %25 | |
Konu: Personel | ||
Yönetici istrator sayısı | 2 | |
Geliştirici Sayısı | 10 | |
Son kullanıcı sayısı | Kategori 100 | |
Beceriler | Hadoop, Spark | |
Geçiş çalışmaları için kullanılabilir kaynak sayısı | 2 | |
Konu: Sınırlamalar | ||
Geçerli sınırlamalar | Gecikme süresi yüksek | |
Mevcut sınamalar | Eşzamanlılık sorunu |
Azure gereksinimleri anketi
Soru | Örnek | Yanıt |
---|---|---|
Konu: Altyapı | ||
Tercih Edilen Bölge | ABD Doğu | |
Tercih edilen sanal ağ mı? | Evet | |
HA / DR Gerekli mi? | Evet | |
Diğer bulut hizmetleriyle tümleştirme mi? | ADF, Azure Cosmos DB | |
Konu: Veri Taşıma | ||
İlk yükleme tercihi | DistCp, Veri kutusu, ADF, WANDisco | |
Veri aktarımı deltası | DistCp, AzCopy | |
Devam eden artımlı veri aktarımı | DistCp, Sqoop | |
Konu: İzleme ve Uyarı | ||
Azure İzleme ve Uyarı kullanma ve Üçüncü taraf izlemeyi tümleştirme | Azure İzleme ve Uyarı Kullanma | |
Konu: Güvenlik tercihleri | ||
Özel ve korumalı veri işlem hattı? | Evet | |
Etki Alanına Katılmış küme (ESP)? | Evet | |
Şirket İçi AD Eşitleme Buluta mı? | Evet | |
Eşitlenecek AD kullanıcılarının sayısı nedir? | Kategori 100 | |
Parolaları buluta eşitlemek için tamam mısınız? | Evet | |
Yalnızca Bulut Kullanıcıları mı? | Evet | |
MFA gerekli mi? | No | |
Veri yetkilendirme gereksinimleri? | Evet | |
Rol tabanlı erişim denetimi mi? | Evet | |
Denetim gerekiyor mu? | Evet | |
Bekleyen veri şifrelemesi mi? | Evet | |
Aktarımda veri şifrelemesi mi var? | Evet | |
Konu: Yeniden Mimari tercihleri | ||
Tek küme ile Belirli küme türleri karşılaştırması | Belirli küme türleri | |
Birlikte bulunan Depolama Vs Uzak Depolama? | Uzak Depolama | |
Veriler uzaktan depolandığından küme boyutu daha küçük mü? | Daha küçük küme boyutu | |
Tek bir büyük küme yerine birden çok küçük küme mi kullanacağız? | Birden çok küçük küme kullanma | |
Uzak meta veri deposu mu kullanılasın? | Evet | |
Meta veri depoları farklı kümeler arasında paylaşılasın mı? | Evet | |
İş yükleri yapılsın mı? | Hive işlerini Spark işleri ile değiştirme | |
Veri düzenleme için ADF kullanalım mı? | No |
Sonraki adımlar
Bu serinin sonraki makalesini okuyun: