Azure HDInsight 4.0'a genel bakış

Makale
12/05/2023

Azure HDInsight, Apache Hadoop ve Apache Spark için kurumsal müşteriler arasında en popüler hizmetlerden biridir. HDInsight 4.0, Apache Hadoop bileşenlerinin bulut dağıtımıdır. Bu makalede en güncel Azure HDInsight sürümü hakkında bilgiler verilmekte ve yükseltme yöntemleri anlatılmaktadır.

HDInsight 4.0'daki yenilikler

Apache Hive 3.0 ve düşük gecikme süreli analitik işleme

Apache Hive düşük gecikme süreli analitik işleme (LLAP), kalıcı sorgu sunucularını ve bellek içi önbelleğe almayı kullanır. Bu işlem, uzak bulut depolamadaki veriler üzerinde hızlı SQL sorgu sonuçları sunar. Hive LLAP, Hive sorgularının parçalarını yürüten bir dizi kalıcı daemon kullanır. LLAP üzerinde sorgu yürütme LLAP kullanılmayan Hive ile benzerdir ve çalışan görevleri kapsayıcıların değil LLAP daemon'larının içinde çalışır.

Hive LLAP hizmetinin avantajları şunlardır:

Performans ve uyarlanabilirlikten ödün vermeden ayrıntılı SQL analizi yapabilme. Karmaşık birleşimler, alt sorgular, pencereleme işlevleri, sıralama, kullanıcı tanımlı işlevler ve karmaşık toplamalar gibi.
Etkileşimli sorguların verilerin hazırlandığı depolama alanındaki verilerle gerçekleştirilerek analitik işlem için verilerin depolamadan başka bir altyapıya taşınması ihtiyacınız ortadan kaldırma.
Sorgu sonuçlarını önbelleğe almak, önceden hesaplanan sorgu sonuçlarının yeniden kullanılmasına olanak tanır. Bu önbellek, sorgu için gereken küme görevlerini çalıştırırken harcanan zamandan ve kaynaklardan tasarruf sağlar.

Hive dinamik gerçekleştirilmiş görünümleri

Hive artık dinamik gerçekleştirilmiş görünümleri veya ilgili özetlerin önceden hesaplamasını destekliyor. Görünümler, veri ambarlarında sorgu işlemeyi hızlandırır. Gerçekleştirilmiş görünümler yerel Hive ortamında depolanabilir ve LLAP hızlandırmasından sorunsuz bir şekilde faydalanabilir.

Hive işlem tabloları

HDI 4.0, Apache Hive 3'i içerir. Hive 3, Hive ambarında bulunan işlem tabloları için bölünmezlik, tutarlılık, yalıtım ve dayanıklılık uyumluluğu gerektirir. ACID uyumluluğuna sahip tablolar ve tablo verileri için erişim ve yönetim Hive tarafından gerçekleştirilir. Oluşturma, alma, güncelleştirme ve silme (CRUD) tablolarındaki veriler İyileştirilmiş Satır Sütunu (ORC) dosya biçiminde olmalıdır. Yalnızca ekle tabloları tüm dosya biçimlerini destekler.

Not

ACID/işlem desteği dış tablolar için değil yalnızca yönetilen tablolar için çalışır. Hive dış tabloları, dış tarafların temel alınan verilerde herhangi bir değişiklik yapmadan tablo verilerini okuyup yazabilmesi için tasarlanmıştır. ACID tabloları için Hive, sıkıştırmalar ve işlemler ile temel alınan verileri değiştirebilir.

ACID tablolarının bazı avantajları şunlardır:

ACID v2 hem depolama biçimi hem de yürütme altyapısı alanında performans geliştirmelerine sahiptir.
ACID, veri güncelleştirmelerine tam destek sunmak için varsayılan olarak etkinleştirilir.
Geliştirilmiş ACID özellikleri sayesinde satır düzeyinde güncelleştirme ve silme işlemi gerçekleştirebilirsiniz.
Bu durum Performans açısından ek yük oluşturmaz.
Gruplandırma gerekli değildir.
Spark, Hive Warehouse Connector ile Hive ACID tablolarında veri okuma ve yazma işlemleri gerçekleştirebilir.

Apache Spark

Apache Spark, güncelleştirilebilir tabloları ve ACID işlemlerini Hive Warehouse Connector ile alır. Hive Warehouse Connector, tam işlevlere erişmek için Hive işlem tablolarını Spark'ta dış tablo olarak kaydetmenize izin verir. Önceki sürümler yalnızca tablo bölümü değiştirmeyi destekliyordu. Hive Warehouse Bağlayıcısı, Akış Veri Çerçevelerini de destekler. Bu işlem Okuma ve yazma işlemlerini Spark'tan işlem ve akış Hive tablolarına akışla aktarır.

Spark yürütücüleri doğrudan Hive LLAP daemon'larına bağlanarak verileri işlemsel bir şekilde alabilir ve bu sayede verilerin denetimi Hive'da kalır.

HDInsight 4.0'da Apache Spark şu senaryoları destekler:

Raporlama için kullanılan işlem tablosunda makine öğrenmesi modeli eğitimi çalıştırma.
Hive akış tablosundaki değişiklik akışında bir Spark akış işi çalıştırma.
Doğrudan bir Spark Yapılandırılmış Akış işinden ORC dosyası oluşturma.

Artık yanlışlıkla Doğrudan Spark'tan Hive işlem tablolarına erişmeye çalışma konusunda endişelenmeniz gerekmez. Tutarsız sonuçlara, yinelenen verilere veya veri bozulmasına neden olur. HDInsight 4.0'da Spark tabloları ve Hive tabloları ayrı Meta veri depolarında tutulur. Hive Data Warehouse Connector ile Hive işlem tablolarını açıkça Spark dış tabloları olarak kaydedebilirsiniz.

Apache Oozie

HDI 4.0 sürümünde bulunan Apache Oozie 4.3.1'de aşağıdaki değişiklikler yapılmıştır:

Oozie artık Hive eylemlerini çalıştırmaz. Hive CLI kaldırılmış ve yerine BeeLine getirilmiştir.
job.properties dosyanıza bir hariç tutma deseni ekleyerek istenmeyen bağımlılıkları paylaşma kitaplığından hariç tutabilirsiniz.

HDInsight 4.0'a yükseltme

Bir üretim ortamında en son sürümü uygulamadan önce bileşenlerinizi kapsamlı bir şekilde test edin. YÜKSELTME işlemini başlatmanız için HDInsight 4.0 kullanılabilir. HDInsight 3.6, yanlışlıkla oluşan aksilikleri önlemek için varsayılan seçenektir.

HDInsight'ın önceki sürümlerinden HDInsight 4.0'a desteklenen yükseltme yolu yoktur. Meta veri deposu ve blob veri biçimleri değiştiği için 4.0 önceki sürümlerle uyumlu değildir. Yeni HDInsight 4.0 ortamınızı geçerli üretim ortamınızdan ayrı tutmanız önemlidir. HDInsight 4.0'ı geçerli ortamınıza dağıtırsanız Meta veri deponuz kalıcı olarak yükseltilir.

Sınırlamalar

HDInsight 4.0, Apache Storm'u desteklemez.
HDInsight 4.0, ML Services küme türünü desteklemez.
Apache Zeppelin'deki kabuk yorumlayıcısı Spark ve Interactive Query kümelerinde desteklenmez.
Apache Pig varsayılan olarak Tez üzerinde çalışır. Ancak bunu MapReduce olarak değiştirebilirsiniz.
Satır ve sütun güvenliği için Spark SQL Ranger tümleştirmesi kullanım dışıdır.

Aracılığıyla paylaş