Azure'da toplu işlem teknolojisi seçme

Büyük veri çözümleri genellikle verileri filtrelemek, toplamak ve başka şekilde analize hazırlamak için uzun süre çalışan toplu işler kullanır. Bu işler genellikle ölçeklenebilir depolamadan (HDFS, Azure Data Lake Store ve Azure Depolama gibi) kaynak dosyaları okumayı, bunları işlemeyi ve çıkışı ölçeklenebilir depolamadaki yeni dosyalara yazmayı içerir.

Bu tür toplu işleme altyapılarının temel gereksinimi, büyük hacimli verileri işlemek için hesaplamaların ölçeğini genişletmektir. Gerçek zamanlı işlemeden farklı olarak, toplu işlemenin dakikalar ile saat cinsinden ölçülecek gecikme sürelerine (veri alımı ile sonuç hesaplama arasındaki süre) sahip olması beklenir.

Toplu işleme için teknoloji seçenekleri

Azure Synapse Analytics

Azure Synapse , büyük verilerde analiz gerçekleştirmek için tasarlanmış dağıtılmış bir sistemdir. Yüksek hacimli paralel işleme (MPP) özelliğini destekleyen Azure Synapse yüksek performanslı analiz çalıştırmaya uygundur. Büyük miktarda veriniz (1 TB'den fazla) olduğunda ve paralellikten yararlanacak bir analiz iş yükü çalıştırıyorsanız Azure Synapse'i göz önünde bulundurun.

Azure Data Lake Analytics

Data Lake Analytics , isteğe bağlı bir analiz iş hizmetidir. Azure Data Lake Store'da depolanan büyük veri kümelerinin dağıtılmış işlenmesi için iyileştirilmiştir.

  • Diller: U-SQL (Python, R ve C# uzantıları dahil).
  • Azure Data Lake Store, Azure Depolama blobları, Azure SQL Veritabanı ve Azure Synapse ile tümleşir.
  • Fiyatlandırma modeli iş başınadır.

HDInsight

HDInsight yönetilen bir Hadoop hizmetidir. Azure'da Hadoop kümelerini dağıtmak ve yönetmek için bunu kullanın. Toplu işlem için Spark, Hive, Hive LLAP, MapReduce kullanabilirsiniz.

  • Diller: R, Python, Java, Scala, SQL
  • Active Directory ile Kerberos kimlik doğrulaması, Apache Ranger tabanlı erişim denetimi
  • Hadoop kümesinde tam denetim sağlar

Azure Databricks

Azure Databricks , Apache Spark tabanlı bir analiz platformudur. Bunu "Hizmet olarak Spark" olarak düşünebilirsiniz. Spark'ı Azure platformunda kullanmanın en kolay yolu budur.

  • Diller: R, Python, Java, Scala, Spark SQL
  • Hızlı küme başlangıç süreleri, otomatik ölçeklendirme, otomatik ölçeklendirme.
  • Spark kümesini sizin için yönetir.
  • Azure Blob Depolama, Azure Data Lake Depolama (ADLS), Azure Synapse ve diğer hizmetlerle yerleşik tümleştirme. Bkz. Veri Kaynakları.
  • Microsoft Entra Id ile kullanıcı kimlik doğrulaması.
  • İşbirliği ve veri keşfi için web tabanlı not defterleri .
  • GPU özellikli kümeleri destekler

Anahtar seçim ölçütleri

Seçenekleri daraltmak için şu soruları yanıtlayarak başlayın:

  • Kendi sunucularınızı yönetmek yerine yönetilen bir hizmet mi istiyorsunuz?

  • Toplu işleme mantığını bildirimli veya kesin olarak yazmak istiyor musunuz?

  • Seri seri işleme gerçekleştirecek misiniz? Evet ise, kümeyi otomatik olarak sonlandırmanıza veya fiyatlandırma modeli toplu iş başına olan seçenekleri göz önünde bulundurun.

  • İlişkisel veri depolarını, örneğin başvuru verilerini aramak için toplu işleminizle birlikte sorgulamanız mı gerekiyor? Evet ise, dış ilişkisel depoların sorgusunu etkinleştiren seçenekleri göz önünde bulundurun.

Yetenek matrisi

Aşağıdaki tablolarda, özelliklerdeki temel farklar özetlemektedir.

Genel özellikler

Özellik Azure Data Lake Analytics Azure Synapse HDInsight Azure Databricks
Yönetilen hizmettir Evet Evet Evet 1 Evet
İlişkisel veri deposu Evet Evet Hayı Evet
Fiyatlandırma modeli Toplu iş başına Küme saatlerine göre Küme saatlerine göre Databricks Birim2 + küme saati

[1] El ile yapılandırma ile.

[2] Databricks Birimi (DBU), saatte bir işleme özelliği birimidir.

Özellikler

Özellik Azure Data Lake Analytics Azure Synapse Spark ile HDInsight Hive ile HDInsight Hive LLAP ile HDInsight Azure Databricks
Otomatik ölçeklendirme Hayır Hayı Evet Evet Evet Evet
Ölçeği genişletme ayrıntı düzeyi İş başına Küme başına Küme başına Küme başına Küme başına Küme başına
Verilerin bellek içi önbelleğe alınmasını sağlama Hayır Evet Evet Hayı Evet Evet
Dış ilişkisel depolardan sorgu Evet Hayı Evet Hayı Hayı Evet
Kimlik Doğrulaması Microsoft Entra ID SQL / Microsoft Entra ID No Microsoft Entra Id1 Microsoft Entra Id1 Microsoft Entra ID
Denetim Evet Evet Hayır Evet 1 Evet 1 Evet
Satır düzeyi güvenlik No Evet2 No Evet 1 Evet 1 Evet
Güvenlik duvarlarını destekler Evet Evet Evet Evet 3 Evet 3 Evet
Dinamik veri maskeleme Hayır Evet Hayır Evet 1 Evet 1 Evet

[1] Etki alanına katılmış bir HDInsight kümesi kullanılmasını gerektirir.

[2] Yalnızca filtre koşulu. Bkz. Satır Düzeyi Güvenlik

[3] Azure Sanal Ağ içinde kullanıldığında desteklenir.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Sonraki adımlar