Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makale, şirket içi Apache Hadoop eko sistem dağıtımlarını Azure HDInsight'a geçirmek için en iyi yöntemler serisinin ilkidir. Bu makale serisi, Azure HDInsight'ta Apache Hadoop çözümlerinin tasarımından, dağıtımından ve geçişinden sorumlu kişilere yöneliktir. Bu makalelerden yararlanabilecek roller arasında bulut mimarları, Hadoop yöneticileri ve DevOps mühendisleri yer alır. Yazılım geliştiricileri, veri mühendisleri ve veri bilimcileri de farklı küme türlerinin bulutta nasıl çalıştığına ilişkin açıklamalardan yararlanmalıdır.
Neden Azure HDInsight'a geçirilmeli?
Azure HDInsight, Hadoop bileşenlerinin bulut dağıtımıdır. Azure HDInsight, çok büyük miktarda veriyi işlemeyi kolay, hızlı ve uygun maliyetli hale getirir. HDInsight aşağıdakiler gibi en popüler açık kaynak çerçevelerini içerir:
- Apache Hadoop
- Apache Spark
- LLAP ile Apache Hive
- Apache Kafka
- Apache HBase
Azure HDInsight'ın şirket içi Hadoop'a göre avantajları
Düşük maliyet - İsteğe bağlı kümeler oluşturup yalnızca kullandığınız kadar ödeyerek maliyetler azaltılabilir. Ayrılmış işlem ve depolama, veri hacmini küme boyutundan bağımsız tutarak esneklik sağlar.
Otomatik küme oluşturma - Otomatik küme oluşturma işlemi en az kurulum ve yapılandırma gerektirir. Otomasyon, isteğe bağlı kümeler için kullanılabilir.
Yönetilen donanım ve yapılandırma - HDInsight kümesine sahip fiziksel donanım veya altyapı konusunda endişelenmenize gerek yoktur. Kümenin yapılandırmasını belirtmeniz ve Azure'ın kümeyi ayarlaması gerekir.
Kolayca ölçeklenebilir - HDInsight, iş yüklerinin ölçeğini artırmanıza veya azaltmanıza olanak tanır. Azure, veri işleme işlerini kesintiye uğratmadan veri yeniden dağıtımını ve iş yükünü yeniden dengelemeyi üstlenir.
Genel kullanılabilirlik - HDInsight, diğer tüm büyük veri analizi tekliflerinden daha fazla bölgede kullanılabilir. Azure HDInsight ayrıca temel bağımsız bölgelerde kurumsal ihtiyaçlarınızı karşılamanıza olanak sağlayan Azure Kamu, Çin ve Almanya’da da kullanılabilir.
Güvenli ve uyumlu - HDInsight, Azure Sanal Ağ, şifreleme ve Microsoft Entra Id ile tümleştirme ile kurumsal veri varlıklarınızı korumanıza olanak tanır. HDInsight ayrıca en popüler sektör ve kamu uyumluluk standartlarını da karşılar.
Basitleştirilmiş sürüm yönetimi - Azure HDInsight, Hadoop eko sistem bileşenlerinin sürümünü yönetir ve bunları güncel tutar. Yazılım güncelleştirmeleri genellikle şirket içi dağıtımlar için karmaşık bir işlemdir.
Bileşenler arasında daha az bağımlılığı olan belirli iş yükleri için iyileştirilmiş daha küçük kümeler - Tipik bir şirket içi Hadoop kurulumu, birçok amaca hizmet eden tek bir küme kullanır. Azure HDInsight ile iş yüküne özgü kümeler oluşturulabilir. Belirli iş yükleri için kümeler oluşturmak, artan karmaşıklık ile tek bir kümenin bakımının karmaşıklığını ortadan kaldırır.
Üretkenlik - Hadoop ve Spark için tercih ettiğiniz geliştirme ortamında çeşitli araçlar kullanabilirsiniz.
Özel araçlar veya üçüncü taraf uygulamalarla genişletilebilirlik - HDInsight kümeleri yüklü bileşenlerle genişletilebilir ve Azure Market'ten tek tıklamayla yapılan dağıtımlar kullanılarak diğer büyük veri çözümleriyle tümleştirilebilir.
Kolay yönetim, yönetim ve izleme - Azure HDInsight, tüm kümelerinizi izleyebildiğiniz tek bir arabirim sağlamak için Azure İzleyici günlükleriyle tümleşir.
Diğer Azure hizmetleriyle tümleştirme - HDInsight, aşağıdaki gibi diğer popüler Azure hizmetleriyle kolayca tümleştirilebilir:
- Azure Data Factory (ADF)
- Azure Blob Depolama
- Azure Data Lake Storage Gen2
- Azure Cosmos DB veritabanı
- Azure SQL Veritabanı
- Azure Analysis Services
Kendi kendini iyileştiren süreçler ve bileşenler - HDInsight, kendi izleme altyapısını kullanarak altyapıyı ve açık kaynak bileşenleri sürekli olarak denetler. Ayrıca, açık kaynak bileşenlerin ve düğümlerin kullanılamaması gibi kritik hataları otomatik olarak kurtarır. Herhangi bir OSS bileşeni başarısız olursa Ambari'de uyarılar tetiklenir.
Daha fazla bilgi için Azure HDInsight ve Apache Hadoop teknoloji yığını nedir? makalesine bakın.
Geçiş planlama işlemi
Şirket içi Hadoop kümelerinin Azure HDInsight'a geçişini planlamak için aşağıdaki adımlar önerilir:
- Mevcut şirket içi dağıtımı ve topolojileri anlamak.
- Geçerli proje kapsamını, zaman çizelgelerini ve ekip uzmanlığını anlayın.
- Azure gereksinimlerini anlama.
- En iyi yöntemleri temel alan ayrıntılı bir plan oluşturun.
Geçişe hazırlanmak için ayrıntıları toplama
Bu bölümde, aşağıdakiler hakkında önemli bilgilerin toplanmasına yardımcı olmak için şablon anketleri sağlanır:
- Şirket içi dağıtım
- Proje ayrıntıları
- Azure gereksinimleri
Şirket içi dağıtım anketi
| Soru | Örnek | Yanıt |
|---|---|---|
| Konu: Ortam | ||
| Küme Dağıtımı sürümü | HDP 2.6.5, CDH 5.7 | |
| Büyük Veri eko sistem bileşenleri | HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R | |
| Küme türleri | Hadoop, Spark, Confluent Kafka, Solr | |
| Küme sayısı | 4 | |
| Ana düğüm sayısı | 2 | |
| İşçi düğüm sayısı | 100 | |
| Kenar düğümlerinin sayısı | 5 | |
| Toplam Disk alanı | 100 TB | |
| Ana Düğümün Yapılandırılması | m/y, cpu, disk vb. | |
| Veri Düğümleri yapılandırması | m/y, cpu, disk vb. | |
| Uç Düğümler Yapılandırması | m/y, cpu, disk vb. | |
| HDFS Şifrelemesi mi? | Evet | |
| Yüksek Kullanılabilirlik | HDFS HA, Metastore HA | |
| Olağanüstü Durum Kurtarma / Yedekleme | Yedekleme kümesi mi? | |
| Kümeye bağımlı sistemler | SQL Server, Teradata, Power BI, MongoDB | |
| Üçüncü taraf tümleştirmeleri | Tableau, GridGain, Qubole, Informatica, Splunk | |
| Konu: Güvenlik | ||
| Çevre güvenliği | Güvenlik duvarları | |
| Küme kimlik doğrulaması ve yetkilendirme | Active Directory, Ambari, Cloudera Manager, Kimlik doğrulaması yok | |
| HDFS Erişim Denetimi | El ile, ssh kullanıcıları | |
| Hive kimlik doğrulaması ve yetkilendirme | Sentry, LDAP, Kerberos ile AD, Ranger | |
| Denetim | Ambari, Cloudera Navigator, Ranger | |
| İzleme | Grafit, collectd, statsd, Telegraf, InfluxDB |
|
| Uyarı |
Kapacitor, Prometheus, Datadog |
|
| Veri Saklama süresi | Üç yıl, beş yıl | |
| Küme Yöneticileri | Tek Yönetici, Birden Çok Yönetici |
Proje ayrıntıları anketi
| Soru | Örnek | Yanıt |
|---|---|---|
| Konu: İş Yükleri ve Sıklık | ||
| MapReduce işleri | 10 iş--günde iki kez | |
| Hive görevleri | Saatte bir 100 iş | |
| Spark toplu işleri | 50 iş--her 15 dakikada bir | |
| Spark Akış işleri | 5 iş--her 3 dakikada bir | |
| Yapılandırılmış Akış görevleri | 5 iş--her dakika | |
| Programlama Dilleri | Python, Scala, Java | |
| Betik Yazma | Shell, Python | |
| Konu: Veriler | ||
| Veri kaynakları | Düz dosyalar, JSON, Kafka, RDBMS | |
| Veri düzenleme | Oozie iş akışları, Airflow | |
| Bellekteki veriye erişim | Apache Ignite, Redis | |
| Veri hedefleri | HDFS, RDBMS, Kafka, MPP | |
| Konu: Meta veriler | ||
| Hive DB türü | Mysql, Postgres | |
| Hive meta veri deposu sayısı | 2 | |
| Hive tablolarının sayısı | 100 | |
| Ranger ilkeleri sayısı | 20 | |
| Oozie iş akışı sayısı | 100 | |
| Konu: Ölçeklendirme | ||
| Çoğaltma dahil olmak üzere veri birimi | 100 TB | |
| Günlük alım hacmi | 50 GB | |
| Veri büyüme hızı | Yılda 10% | |
| Küme Düğümleri büyüme hızı | Yılda 5% | |
| Konu: Küme kullanımı | ||
| Kullanılan ortalama CPU % | %60 | |
| Kullanılan Ortalama Bellek % | 75% | |
| Kullanılan disk alanı | %75 | |
| Kullanılan Ortalama Ağ % | %25 | |
| Konu: Personel | ||
| Yönetici Sayısı | 2 | |
| Geliştirici Sayısı | 10 | |
| Son kullanıcı sayısı | 100 | |
| Beceri | Hadoop, Spark | |
| Geçiş çalışmaları için kullanılabilir kaynak sayısı | 2 | |
| Konu: Sınırlamalar | ||
| Geçerli sınırlamalar | Gecikme süresi yüksek | |
| Mevcut sınamalar | Eşzamanlılık sorunu |
Azure gereksinimleri anketi
| Soru | Örnek | Yanıt |
|---|---|---|
| Konu: Altyapı | ||
| Tercih Edilen Bölge | ABD Doğu | |
| VNet tercih edilir mi? | Evet | |
| HA / DR Gerekli mi? | Evet | |
| Diğer bulut hizmetleriyle tümleştirme mi? | ADF, Azure Cosmos DB | |
| Konu: Veri Taşıma | ||
| İlk yükleme tercihi | DistCp, Veri kutusu, ADF, WANDisco | |
| Veri aktarımı deltası | DistCp, AzCopy | |
| Devam eden artımlı veri aktarımı | DistCp, Sqoop | |
| Konu: İzleme ve Uyarı | ||
| Azure İzleme ve Uyarı kullanma ve Üçüncü taraf izlemeyi tümleştirme | Azure İzleme ve Uyarı Kullanma | |
| Konu: Güvenlik tercihleri | ||
| Özel ve korumalı veri işlem hattı? | Evet | |
| Etki Alanına Katılmış küme (ESP)? | Evet | |
| Şirket İçi AD Buluta Eşitleme mi? | Evet | |
| Eşitlenecek AD kullanıcılarının sayısı nedir? | 100 | |
| Parolaları buluta eşitlemek için tamam mısınız? | Evet | |
| Yalnızca Bulut Kullanıcıları mı? | Evet | |
| MFA gerekli mi? | Hayı | |
| Veri yetkilendirme gereksinimleri? | Evet | |
| Rol tabanlı erişim denetimi mi? | Evet | |
| Denetim gerekiyor mu? | Evet | |
| Bekleyen veri şifrelemesi mi? | Evet | |
| Aktarımda veri şifrelemesi mi var? | Evet | |
| Konu: Re-Architecture tercihleri | ||
| Tek küme ile Belirli küme türleri karşılaştırması | Belirli küme türleri | |
| Birlikte Bulunan Depolama ile Uzak Depolama Karşılaştırması | Uzakta Depolama | |
| Veriler uzaktan depolandığından küme boyutu daha küçük mü? | Daha küçük küme boyutu | |
| Tek bir büyük küme yerine birden çok küçük küme mi kullanacağız? | Birden çok küçük küme kullanma | |
| Uzak bir meta veri deposu kullanılsın mı? | Evet | |
| Meta veri depoları farklı kümeler arasında paylaşılasın mı? | Evet | |
| İş yükleri parçalanıp incelensin mi? | Hive işlerini Spark işlerine değiştirme | |
| Veri düzenleme için ADF kullanalım mı? | Hayı |
Sonraki adımlar
Bu serinin sonraki makalesini okuyun: