Azure'da toplu işlem teknolojisi seçme
Büyük veri çözümleri genellikle verileri filtrelemek, toplamak ve başka şekilde analize hazırlamak için uzun süre çalışan toplu işler kullanır. Bu işler genellikle ölçeklenebilir depolamadan (HDFS, Azure Data Lake Store ve Azure Depolama gibi) kaynak dosyaları okumayı, bunları işlemeyi ve çıkışı ölçeklenebilir depolamadaki yeni dosyalara yazmayı içerir.
Bu tür toplu işleme altyapılarının temel gereksinimi, büyük hacimli verileri işlemek için hesaplamaların ölçeğini genişletmektir. Gerçek zamanlı işlemeden farklı olarak, toplu işlemenin dakikalar ile saat cinsinden ölçülecek gecikme sürelerine (veri alımı ile sonuç hesaplama arasındaki süre) sahip olması beklenir.
Toplu işleme için teknoloji seçenekleri
Azure Synapse Analytics
Azure Synapse , büyük verilerde analiz gerçekleştirmek için tasarlanmış dağıtılmış bir sistemdir. Yüksek hacimli paralel işleme (MPP) özelliğini destekleyen Azure Synapse yüksek performanslı analiz çalıştırmaya uygundur. Büyük miktarda veriniz (1 TB'den fazla) olduğunda ve paralellikten yararlanacak bir analiz iş yükü çalıştırıyorsanız Azure Synapse'i göz önünde bulundurun.
Azure Data Lake Analytics
Data Lake Analytics , isteğe bağlı bir analiz iş hizmetidir. Azure Data Lake Store'da depolanan büyük veri kümelerinin dağıtılmış işlenmesi için iyileştirilmiştir.
- Diller: U-SQL (Python, R ve C# uzantıları dahil).
- Azure Data Lake Store, Azure Depolama blobları, Azure SQL Veritabanı ve Azure Synapse ile tümleşir.
- Fiyatlandırma modeli iş başınadır.
HDInsight
HDInsight yönetilen bir Hadoop hizmetidir. Azure'da Hadoop kümelerini dağıtmak ve yönetmek için bunu kullanın. Toplu işlem için Spark, Hive, Hive LLAP, MapReduce kullanabilirsiniz.
- Diller: R, Python, Java, Scala, SQL
- Active Directory ile Kerberos kimlik doğrulaması, Apache Ranger tabanlı erişim denetimi
- Hadoop kümesinde tam denetim sağlar
Azure Databricks
Azure Databricks , Apache Spark tabanlı bir analiz platformudur. Bunu "Hizmet olarak Spark" olarak düşünebilirsiniz. Spark'ı Azure platformunda kullanmanın en kolay yolu budur.
- Diller: R, Python, Java, Scala, Spark SQL
- Hızlı küme başlangıç süreleri, otomatik ölçeklendirme, otomatik ölçeklendirme.
- Spark kümesini sizin için yönetir.
- Azure Blob Depolama, Azure Data Lake Depolama (ADLS), Azure Synapse ve diğer hizmetlerle yerleşik tümleştirme. Bkz. Veri Kaynakları.
- Microsoft Entra Id ile kullanıcı kimlik doğrulaması.
- İşbirliği ve veri keşfi için web tabanlı not defterleri .
- GPU özellikli kümeleri destekler
Anahtar seçim ölçütleri
Seçenekleri daraltmak için şu soruları yanıtlayarak başlayın:
Kendi sunucularınızı yönetmek yerine yönetilen bir hizmet mi istiyorsunuz?
Toplu işleme mantığını bildirimli veya kesin olarak yazmak istiyor musunuz?
Seri seri işleme gerçekleştirecek misiniz? Evet ise, kümeyi otomatik olarak sonlandırmanıza veya fiyatlandırma modeli toplu iş başına olan seçenekleri göz önünde bulundurun.
İlişkisel veri depolarını, örneğin başvuru verilerini aramak için toplu işleminizle birlikte sorgulamanız mı gerekiyor? Evet ise, dış ilişkisel depoların sorgusunu etkinleştiren seçenekleri göz önünde bulundurun.
Yetenek matrisi
Aşağıdaki tablolarda, özelliklerdeki temel farklar özetlemektedir.
Genel özellikler
Özellik | Azure Data Lake Analytics | Azure Synapse | HDInsight | Azure Databricks |
---|---|---|---|---|
Yönetilen hizmettir | Evet | Evet | Evet 1 | Evet |
İlişkisel veri deposu | Evet | Evet | Hayı | Evet |
Fiyatlandırma modeli | Toplu iş başına | Küme saatlerine göre | Küme saatlerine göre | Databricks Birim2 + küme saati |
[1] El ile yapılandırma ile.
[2] Databricks Birimi (DBU), saatte bir işleme özelliği birimidir.
Özellikler
Özellik | Azure Data Lake Analytics | Azure Synapse | Spark ile HDInsight | Hive ile HDInsight | Hive LLAP ile HDInsight | Azure Databricks |
---|---|---|---|---|---|---|
Otomatik ölçeklendirme | Hayır | Hayı | Evet | Evet | Evet | Evet |
Ölçeği genişletme ayrıntı düzeyi | İş başına | Küme başına | Küme başına | Küme başına | Küme başına | Küme başına |
Verilerin bellek içi önbelleğe alınmasını sağlama | Hayır | Evet | Evet | Hayı | Evet | Evet |
Dış ilişkisel depolardan sorgu | Evet | Hayı | Evet | Hayı | Hayı | Evet |
Kimlik Doğrulaması | Microsoft Entra ID | SQL / Microsoft Entra ID | No | Microsoft Entra Id1 | Microsoft Entra Id1 | Microsoft Entra ID |
Denetim | Evet | Evet | Hayır | Evet 1 | Evet 1 | Evet |
Satır düzeyi güvenlik | No | Evet2 | No | Evet 1 | Evet 1 | Evet |
Güvenlik duvarlarını destekler | Evet | Evet | Evet | Evet 3 | Evet 3 | Evet |
Dinamik veri maskeleme | Hayır | Evet | Hayır | Evet 1 | Evet 1 | Evet |
[1] Etki alanına katılmış bir HDInsight kümesi kullanılmasını gerektirir.
[2] Yalnızca filtre koşulu. Bkz. Satır Düzeyi Güvenlik
[3] Azure Sanal Ağ içinde kullanıldığında desteklenir.
Katkıda Bulunanlar
Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.
Asıl yazar:
- Zoiner Tejada | CEO ve Mimar
Sonraki adımlar
- Azure Synapse Analytics'te göl veritabanı oluşturma
- Azure Databricks çalışma alanı oluşturma
- Azure Databricks'i keşfedin
- Azure portalını kullanarak Azure Data Lake Analytics'i kullanmaya başlama
- Azure Synapse Analytics'e giriş
- Azure Databricks nedir?
- Azure Synapse Analytics nedir?
İlgili kaynaklar
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin