Şirket içi Apache Hadoop kümelerini Azure HDInsight'a geçirme - motivasyon ve avantajlar

Makale
12/09/2023

Bu makale, şirket içi Apache Hadoop eko sistem dağıtımlarını Azure HDInsight'a geçirmek için en iyi yöntemler serisinin ilkidir. Bu makale serisi, Azure HDInsight'ta Apache Hadoop çözümlerinin tasarımından, dağıtımından ve geçişinden sorumlu kişilere yöneliktir. Bu makalelerden yararlanabilecek roller arasında bulut mimarları, Hadoop yöneticileri ve DevOps mühendisleri yer alır. Yazılım geliştiricileri, veri mühendisleri ve veri bilimcileri de farklı küme türlerinin bulutta nasıl çalıştığına ilişkin açıklamalardan yararlanmalıdır.

Neden Azure HDInsight'a geçirilmeli?

Azure HDInsight, Hadoop bileşenlerinin bulut dağıtımıdır. Azure HDInsight, devasa miktarlardaki verileri işlemeyi kolay, hızlı ve uygun maliyetli hale getirir. HDInsight aşağıdakiler gibi en popüler açık kaynak çerçevelerini içerir:

Apache Hadoop
Apache Spark
LLAP ile Apache Hive
Apache Kafka
Apache HBase

Azure HDInsight'ın şirket içi Hadoop'a göre avantajları

Düşük maliyet - İsteğe bağlı kümeler oluşturup yalnızca kullandığınız kadar ödeyerek maliyetler azaltılabilir. Ayrılmış işlem ve depolama, veri hacmini küme boyutundan bağımsız tutarak esneklik sağlar.
Otomatik küme oluşturma - Otomatik küme oluşturma işlemi en az kurulum ve yapılandırma gerektirir. Otomasyon, isteğe bağlı kümeler için kullanılabilir.
Yönetilen donanım ve yapılandırma - HDInsight kümesine sahip fiziksel donanım veya altyapı konusunda endişelenmenize gerek yoktur. Kümenin yapılandırmasını belirtmeniz ve Azure'ın kümeyi ayarlaması gerekir.
Kolayca ölçeklenebilir - HDInsight, iş yüklerinin ölçeğini artırmanıza veya azaltmanıza olanak tanır. Azure, veri işleme işlerini kesintiye uğratmadan veri yeniden dağıtımını ve iş yükünü yeniden dengelemeyi üstlenir.
Genel kullanılabilirlik - HDInsight, diğer tüm büyük veri analizi tekliflerinden daha fazla bölgede kullanılabilir. Azure HDInsight ayrıca temel bağımsız bölgelerde kurumsal ihtiyaçlarınızı karşılamanıza olanak sağlayan Azure Kamu, Çin ve Almanya’da da kullanılabilir.
Güvenli ve uyumlu - HDInsight, Azure Sanal Ağ, şifreleme ve Microsoft Entra ID ile tümleştirme ile kurumsal veri varlıklarınızı korumanıza olanak tanır. HDInsight ayrıca en popüler sektör ve kamu uyumluluk standartlarını karşılar.
Basitleştirilmiş sürüm yönetimi - Azure HDInsight, Hadoop eko sistem bileşenlerinin sürümünü yönetir ve bunları güncel tutar. Yazılım güncelleştirmeleri genellikle şirket içi dağıtımlar için karmaşık bir işlemdir.
Bileşenler arasında daha az bağımlılığı olan belirli iş yükleri için iyileştirilmiş daha küçük kümeler - Tipik bir şirket içi Hadoop kurulumu, birçok amaca hizmet eden tek bir küme kullanır. Azure HDInsight ile iş yüküne özgü kümeler oluşturulabilir. Belirli iş yükleri için kümeler oluşturmak, artan karmaşıklık ile tek bir kümenin bakımının karmaşıklığını ortadan kaldırır.
Üretkenlik - Hadoop ve Spark için tercih ettiğiniz geliştirme ortamında çeşitli araçlar kullanabilirsiniz.
Özel araçlar veya üçüncü taraf uygulamalarla genişletilebilirlik - HDInsight kümeleri yüklü bileşenlerle genişletilebilir ve Azure Market'ten tek tıklamayla yapılan dağıtımlar kullanılarak diğer büyük veri çözümleriyle tümleştirilebilir.
Kolay yönetim, yönetim ve izleme - Azure HDInsight, tüm kümelerinizi izleyebildiğiniz tek bir arabirim sağlamak için Azure İzleyici günlükleriyle tümleşir.
Diğer Azure hizmetleriyle tümleştirme - HDInsight, aşağıdaki gibi diğer popüler Azure hizmetleriyle kolayca tümleştirilebilir:
- Azure Data Factory (ADF)
- Azure Blob Depolama
- Azure Data Lake Storage 2. Nesil
- Azure Cosmos DB
- Azure SQL Veritabanı
- Azure Analysis Services
Kendi kendini iyileştiren süreçler ve bileşenler - HDInsight, kendi izleme altyapısını kullanarak altyapıyı ve açık kaynak bileşenleri sürekli olarak denetler. Ayrıca, açık kaynak bileşenlerin ve düğümlerin kullanılamaması gibi kritik hataları otomatik olarak kurtarır. Herhangi bir OSS bileşeni başarısız olursa Ambari'de uyarılar tetiklenir.

Daha fazla bilgi için Azure HDInsight ve Apache Hadoop teknoloji yığını nedir? makalesine bakın.

Geçiş planlama işlemi

Şirket içi Hadoop kümelerinin Azure HDInsight'a geçişini planlamak için aşağıdaki adımlar önerilir:

Geçerli şirket içi dağıtımı ve topolojileri anlama.
Geçerli proje kapsamını, zaman çizelgelerini ve ekip uzmanlığını anlayın.
Azure gereksinimlerini anlama.
En iyi yöntemleri temel alan ayrıntılı bir plan oluşturun.

Geçişe hazırlanmak için ayrıntıları toplama

Bu bölümde, aşağıdakiler hakkında önemli bilgilerin toplanmasına yardımcı olmak için şablon anketleri sağlanır:

Şirket içi dağıtım
Proje ayrıntıları
Azure gereksinimleri

Şirket içi dağıtım anketi

Soru	Örnek	Yanıt
Konu: Ortam
Küme Dağıtımı sürümü	HDP 2.6.5, CDH 5.7
Büyük Veri eko sistem bileşenleri	HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Küme türleri	Hadoop, Spark, Confluent Kafka, Solr
Küme sayısı	4
Ana düğüm sayısı	2
Çalışan düğümlerinin sayısı	Kategori 100
Kenar düğümlerinin sayısı	5
Toplam Disk alanı	100 TB
Ana Düğüm yapılandırması	m/y, cpu, disk vb.
Veri Düğümleri yapılandırması	m/y, cpu, disk vb.
Uç Düğümler yapılandırması	m/y, cpu, disk vb.
HDFS Şifrelemesi mi?	Evet
Yüksek Kullanılabilirlik	HDFS HA, Meta veri deposu HA
Olağanüstü Durum Kurtarma / Yedekleme	Yedekleme kümesi mi?
Kümeye bağımlı sistemler	SQL Server, Teradata, Power BI, MongoDB
Üçüncü taraf tümleştirmeleri	Tableau, GridGain, Qubole, Informatica, Splunk
Konu: Güvenlik
Çevre güvenliği	Güvenlik duvarları
Küme kimlik doğrulaması ve yetkilendirme	Active Directory, Ambari, Cloudera Manager, Kimlik doğrulaması yok
HDFS Erişim Denetimi	El ile, ssh kullanıcıları
Hive kimlik doğrulaması ve yetkilendirme	Sentry, LDAP, Kerberos ile AD, Ranger
Denetim	Ambari, Cloudera Navigator, Ranger
İzleme	Grafit, collectd, `statsd`, Telegraf, InfluxDB
Uyarı	`Kapacitor`, Prometheus, Datadog
Veri Saklama süresi	Üç yıl, beş yıl
Küme Yönetici istrator'ları	Tek Yönetici Istrator, Birden Çok Yönetici Istrator

Proje ayrıntıları anketi

Soru	Örnek	Yanıt
Konu: İş Yükleri ve Sıklık
MapReduce işleri	10 iş--günde iki kez
Hive işleri	Saatte bir 100 iş
Spark toplu işleri	50 iş--her 15 dakikada bir
Spark Akış işleri	5 iş--her 3 dakikada bir
Yapılandırılmış Akış işleri	5 iş--her dakika
Programlama Dilleri	Python, Scala, Java
Komut dosyası	Kabuk, Python
Konu: Veriler
Veri kaynakları	Düz dosyalar, Json, Kafka, RDBMS
Veri düzenleme	Oozie iş akışları, Airflow
Bellek aramalarında	Apache Ignite, Redis
Veri hedefleri	HDFS, RDBMS, Kafka, MPP
Konu: Meta veriler
Hive DB türü	Mysql, Postgres
Hive meta veri deposu sayısı	2
Hive tablolarının sayısı	Kategori 100
Ranger ilkeleri sayısı	20
Oozie iş akışı sayısı	Kategori 100
Konu: Ölçeklendirme
Çoğaltma dahil olmak üzere veri birimi	100 TB
Günlük alım hacmi	50 GB
Veri büyüme hızı	Yılda %10
Küme Düğümleri büyüme hızı	Yılda %5
Konu: Küme kullanımı
Kullanılan ortalama CPU yüzdesi	%60
Kullanılan Ortalama Bellek Yüzdesi	%75
Kullanılan disk alanı	%75
Kullanılan Ortalama Ağ Yüzdesi	%25
Konu: Personel
Yönetici istrator sayısı	2
Geliştirici Sayısı	10
Son kullanıcı sayısı	Kategori 100
Beceriler	Hadoop, Spark
Geçiş çalışmaları için kullanılabilir kaynak sayısı	2
Konu: Sınırlamalar
Geçerli sınırlamalar	Gecikme süresi yüksek
Mevcut sınamalar	Eşzamanlılık sorunu

Azure gereksinimleri anketi

Soru	Örnek	Yanıt
Konu: Altyapı
Tercih Edilen Bölge	ABD Doğu
Tercih edilen sanal ağ mı?	Evet
HA / DR Gerekli mi?	Evet
Diğer bulut hizmetleriyle tümleştirme mi?	ADF, Azure Cosmos DB
Konu: Veri Taşıma
İlk yükleme tercihi	DistCp, Veri kutusu, ADF, WANDisco
Veri aktarımı deltası	DistCp, AzCopy
Devam eden artımlı veri aktarımı	DistCp, Sqoop
Konu: İzleme ve Uyarı
Azure İzleme ve Uyarı kullanma ve Üçüncü taraf izlemeyi tümleştirme	Azure İzleme ve Uyarı Kullanma
Konu: Güvenlik tercihleri
Özel ve korumalı veri işlem hattı?	Evet
Etki Alanına Katılmış küme (ESP)?	Evet
Şirket İçi AD Eşitleme Buluta mı?	Evet
Eşitlenecek AD kullanıcılarının sayısı nedir?	Kategori 100
Parolaları buluta eşitlemek için tamam mısınız?	Evet
Yalnızca Bulut Kullanıcıları mı?	Evet
MFA gerekli mi?	No
Veri yetkilendirme gereksinimleri?	Evet
Rol tabanlı erişim denetimi mi?	Evet
Denetim gerekiyor mu?	Evet
Bekleyen veri şifrelemesi mi?	Evet
Aktarımda veri şifrelemesi mi var?	Evet
Konu: Yeniden Mimari tercihleri
Tek küme ile Belirli küme türleri karşılaştırması	Belirli küme türleri
Birlikte bulunan Depolama Vs Uzak Depolama?	Uzak Depolama
Veriler uzaktan depolandığından küme boyutu daha küçük mü?	Daha küçük küme boyutu
Tek bir büyük küme yerine birden çok küçük küme mi kullanacağız?	Birden çok küçük küme kullanma
Uzak meta veri deposu mu kullanılasın?	Evet
Meta veri depoları farklı kümeler arasında paylaşılasın mı?	Evet
İş yükleri yapılsın mı?	Hive işlerini Spark işleri ile değiştirme
Veri düzenleme için ADF kullanalım mı?	No

Sonraki adımlar

Bu serinin sonraki makalesini okuyun:

Şirket içi Azure HDInsight Hadoop geçişi için mimari en iyi yöntemleri

Aracılığıyla paylaş