Azure'da büyük veri depolama teknolojisi seçme

Dekont

29 Şubat 2024'te Azure Data Lake Storage 1. Nesil kullanımdan kaldırılacaktır. Daha fazla bilgi için resmi duyuruya bakın. Azure Data Lake Storage 1. Nesil kullanıyorsanız, bu tarihten önce Azure Data Lake Storage 2. Nesil geçiş yaptığınızdan emin olun. Nasıl yapılacağını öğrenmek için bkz. Azure portalını kullanarak Azure Data Lake Depolama 1. Nesil'den 2. Nesil'e geçirme.

Zaten bir Azure Data Lake Storage 1. Nesil hesabınız yoksa yeni hesap oluşturamazsınız.

Bu konu, analitik veri depolarının veya gerçek zamanlı akış alımının aksine, özellikle toplu veri alımı ve toplu işleme için veri depolama gibi büyük veri çözümleri için veri depolama seçeneklerini karşılaştırır.

Azure'da veri depolamayı seçerken seçenekleriniz nelerdir?

İhtiyaçlarınıza bağlı olarak Azure'a veri almak için çeşitli seçenekler vardır.

Dosya depolama:

NoSQL veritabanları:

Analitik veritabanları:

Azure Veri Gezgini

Azure Depolama blobları

Azure Depolama yüksek oranda kullanılabilir, güvenli, dayanıklı, ölçeklenebilir ve yedekli bir yönetilen depolama hizmetidir. Microsoft bakımı üstlenir ve kritik sorunları sizin yerinize çözer. Azure Depolama, azure ile kullanılabilen hizmet ve araç sayısı nedeniyle Azure'ın sağladığı en yaygın depolama çözümüdür.

Verileri depolamak için kullanabileceğiniz çeşitli Azure Depolama hizmetleri vardır. Birçok veri kaynağından blob depolamak için en esnek seçenek Blob depolamadır. Bloblar temelde dosyalardır. Resimleri, belgeleri, HTML dosyalarını, sanal sabit diskleri (VHD'ler), günlükler, veritabanı yedeklemeleri gibi büyük verileri (hemen hemen her şeyi) depolar. Bloblar klasörlere benzer kapsayıcılarda depolanır. Kapsayıcı, bir dizi blobun gruplandırılması sağlar. Depolama hesabında sınırsız sayıda kapsayıcı olabilir ve her kapsayıcı sınırsız sayıda blob depolayabilir.

Azure Depolama, esnekliği, yüksek kullanılabilirliği ve düşük maliyeti nedeniyle büyük veri ve analiz çözümleri için iyi bir seçimdir. Farklı kullanım örnekleri için sık erişimli, seyrek erişimli ve arşiv depolama katmanları sağlar. Daha fazla bilgi için bkz. Azure Blob Depolama: Sık erişimli, seyrek erişimli ve arşiv depolama katmanları.

Azure Blob depolamaya Hadoop'tan erişilebilir (HDInsight aracılığıyla kullanılabilir). HDInsight, Azure Depolama’daki bir blob kapsayıcıyı kümenin varsayılan dosya sistemi olarak kullanabilir. WASB sürücüsü tarafından sağlanan hadoop dağıtılmış dosya sistemi (HDFS) arabirimi aracılığıyla, HDInsight'taki bileşenlerin tamamı doğrudan blob olarak depolanan yapılandırılmış veya yapılandırılmamış veriler üzerinde çalışabilir. Azure Blob depolamaya PolyBase özelliği kullanılarak Azure Synapse Analytics aracılığıyla da erişilebilir.

Azure Depolama iyi bir seçim haline getiren diğer özellikler şunlardır:

Azure Data Lake Storage Gen1

Azure Data Lake Storage 1. Nesil, büyük veri analizi iş yükleri için kurumsal ölçekte bir hiper ölçek deposudur. Data Lake, operasyonel ve keşif analizi için tek bir güvenli konumda her boyutta, türde ve alım hızında veri yakalamanızı sağlar.

Azure Data Lake Storage 1. Nesil hesap boyutlarına, dosya boyutlarına veya bir veri gölünde depolanabilecek veri miktarına herhangi bir sınır getirmez. Veriler, birden çok kopya oluşturularak durabilir bir şekilde depolanır ve verilerin Data Lake'te depolanma süresiyle ilgili bir sınır yoktur. Data lake, beklenmeyen hatalara karşı korumak için dosyaların birden çok kopyasını oluşturmanın yanı sıra, bir dosyanın parçalarını bir dizi ayrı depolama sunucusuna yayar. Bu, veri analizinin gerçekleştirilmesi için dosyanın paralel olarak okunması sırasında okuma verimini artırır.

Azure Data Lake Storage 1. Nesil WebHDFS uyumlu REST API'leri kullanılarak Hadoop'tan (HDInsight aracılığıyla kullanılabilir) erişilebilir. Bireysel veya birleşik dosya boyutlarınız Azure Depolama tarafından desteklenen boyutu aştığında bunu Azure Depolama alternatif olarak kullanmayı düşünebilirsiniz. Ancak HdInsight kümesi için birincil depolama alanınız olarak Azure Data Lake Storage 1. Nesil kullanırken izlemeniz gereken performans ayarlama yönergeleri vardır ve Spark, Hive ve MapReduce için belirli yönergeler vardır. Ayrıca Azure Depolama kadar bölgede kullanılamadığından ve HDInsight kümenizle aynı bölgede bulunması gerektiğinden Azure Data Lake Storage 1. Nesil'nin bölgesel kullanılabilirliğini de denetlemeyi unutmayın.

Azure Data Lake Analytics ile birlikte, Azure Data Lake Storage 1. Nesil depolanan verilerde analizi etkinleştirmek üzere tasarlanmıştır ve veri analizi senaryoları için performans için ayarlanır. Azure Data Lake Storage 1. Nesil,PolyBase özelliği kullanılarak Azure Synapse aracılığıyla da erişilebilir.

Azure Cosmos DB

Azure Cosmos DB , Microsoft'un genel olarak dağıtılmış çok modelli veritabanıdır. Azure Cosmos DB, dünyanın her yerindeki 99. yüzdebirlik dilimde tek basamaklı milisaniyelik gecikme sürelerini garanti eder, performansa ince ayar yapmak için birden çok iyi tanımlanmış tutarlılık modeli sunar ve çoklu giriş özellikleriyle yüksek kullanılabilirlik garantisi sunar.

Azure Cosmos DB şemadan bağımsızdır. Şema ve dizin yönetimiyle ilgilenmenize gerek kalmadan tüm verileri otomatik olarak dizinler. Ayrıca belge, anahtar-değer, graf ve sütun ailesi veri modellerini yerel olarak destekleyen çok modelli bir modeldir.

Azure Cosmos DB özellikleri:

HDInsight'ta HBase

Apache HBase , Hadoop üzerinde oluşturulan ve Google BigTable'dan sonra modellenen açık kaynaklı bir NoSQL veritabanıdır. HBase, sütun aileleri tarafından düzenlenen şemasız bir veritabanında büyük miktarlarda yapılandırılmamış ve yarı yapılandırılmış veriler için rastgele erişim ve güçlü tutarlılık sağlar.

Veriler bir tablonun satırlarında depolanır ve satır içindeki veriler sütun ailesi tarafından gruplandırılır. HBase, sütunların veya bu sütunlarda depolanan veri türlerinin kullanmadan önce tanımlanması gerekmeden şemasızdır. Açık kaynak kodu, binlerce düğümdeki petabaytlarca verileri işlemek için doğrusal olarak ölçeklendirir. Veri yedekleme, toplu işleme ve Hadoop ekosistemindeki dağıtılmış uygulamalar tarafından sağlanan diğer özelliklere dayanabilir.

HDInsight uygulaması, tabloların otomatik parçalanması, okuma ve yazma işlemleri için güçlü tutarlılık ve otomatik yük devretme sağlamak için HBase'in ölçeği genişletme mimarisinden yararlanıyor. Performans, okumalar için bellek içi önbelleğe alma ve yazmalar için yüksek verimlilikli akış tarafından geliştirilmiştir. Çoğu durumda, diğer HDInsight kümelerinin ve uygulamalarının tablolara doğrudan erişebilmesi için bir sanal ağ içinde HBase kümesi oluşturmak istersiniz.

Azure Veri Gezgini

Azure Veri Gezgini, günlük ve telemetri verileri için hızlı ve yüksek oranda ölçeklenebilir bir veri araştırma hizmetidir. Verileri toplamak, depolamak ve analiz etmek için modern yazılımlar tarafından yayılan birçok veri akışını işlemenize yardımcı olur. Azure Veri Gezgini web siteleri, uygulamalar, IoT cihazları ve benzeri veri kaynaklarından gelen yüksek miktarlardaki çeşitli verileri analiz etmek için idealdir. Bu veriler tanılama, izleme, raporlama, makine öğrenmesi ve ek analiz özellikleri için kullanılır. Azure Veri Gezgini bu verileri alma işlemini basitleştirir ve veriler üzerinde saniyeler içinde karmaşık geçici sorgular yapmanıza olanak tanır.

Azure Veri Gezgini, alım ve sorgu işleme aktarım hızını artırmak için doğrusal olarak ölçeklendirilebilir. Azure Veri Gezgini kümesi, özel ağları etkinleştirmek için bir Sanal Ağ dağıtılabilir.

Anahtar seçim ölçütleri

Seçenekleri daraltmak için şu soruları yanıtlayarak başlayın:

  • Herhangi bir metin veya ikili veri türü için yönetilen, yüksek hızlı, bulut tabanlı depolamaya ihtiyacınız var mı? Evet ise dosya depolama veya analiz seçeneklerinden birini seçin.

  • Paralel analiz iş yükleri ve yüksek aktarım hızı/IOPS için iyileştirilmiş dosya depolamaya mı ihtiyacınız var? Evet ise analiz iş yükü performansına ayarlanmış bir seçenek belirleyin.

  • Yapılandırılmamış veya yarı yapılandırılmış verileri şemasız bir veritabanında depolamanız mı gerekiyor? Öyleyse ilişkisel olmayan veya analiz seçeneklerinden birini seçin. Dizin oluşturma ve veritabanı modelleri seçeneklerini karşılaştırın. Depolamanız gereken veri türüne bağlı olarak, birincil veritabanı modelleri en büyük faktör olabilir.

  • Hizmeti bölgenizde kullanabilir misiniz? Her Azure hizmetinin bölgesel kullanılabilirliğini denetleyin. Bkz. Bölgelere göre kullanılabilir ürünler.

Yetenek matrisi

Aşağıdaki tablolarda, özelliklerdeki temel farklar özetlemektedir.

Dosya depolama özellikleri

Özellik Azure Data Lake Storage Gen1 kapsayıcıları Azure Blob Depolama
Amaç Büyük veri analizi iş yükleri için iyileştirilmiş depolama Çok çeşitli depolama senaryoları için genel amaçlı nesne deposu
Kullanım örnekleri Toplu işlem, akış analizi ve günlük dosyaları, IoT verileri, tıklama akışları, büyük veri kümeleri gibi makine öğrenmesi verileri Uygulama arka ucu, yedekleme verileri, akış için medya depolama alanı ve genel amaçlı veriler gibi her tür metin veya ikili veri
Yapı Hiyerarşik dosya sistemi Düz ad alanına sahip nesne deposu
Kimlik Doğrulaması Microsoft Entra kimliklerini temel alır Paylaşılan gizli dizilere göre Hesap Erişim Anahtarları ve Paylaşılan Erişim İmza Anahtarları ve Azure rol tabanlı erişim denetimi (Azure RBAC)
Kimlik doğrulama protokolü OAuth 2.0. Çağrılar, Microsoft Entra ID tarafından verilen geçerli bir JWT (JSON web belirteci) içermelidir Karma tabanlı ileti kimlik doğrulama kodu (HMAC). Çağrılar, HTTP isteğinin bir parçası üzerinde Base64 kodlamalı SHA-256 karması içermelidir.
Yetkilendirme POSIX erişim denetim listeleri (ACL'ler). Microsoft Entra kimliklerini temel alan ACL'ler dosya ve klasör düzeyi olarak ayarlanabilir. Hesap düzeyinde yetkilendirme için Hesap Erişim Anahtarları'nı kullanın. Hesap, kapsayıcı veya blob yetkilendirmesi için Paylaşılan Erişim İmza Anahtarları'nı kullanın.
Denetim Kullanılabilir. Kullanılabilir
Bekleme sırasında şifreleme Saydam, sunucu tarafı Saydam, sunucu tarafı; İstemci tarafı şifrelemesi
Geliştirici SDK'ları .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Analiz iş yükü performansı Paralel analiz iş yükleri, Yüksek Aktarım Hızı ve IOPS için iyileştirilmiş performans Analiz iş yükleri için iyileştirilmemiş
Boyut limitleri Hesap boyutlarında, dosya boyutlarında veya dosya sayısında sınır yok Burada belgelenen belirli sınırlar
Coğrafi yedeklilik Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişim genel olarak yedekli (RA-GRS), alanlar arası yedekli (ZRS). Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişim genel olarak yedekli (RA-GRS), alanlar arası yedekli (ZRS). Burada daha fazla bilgi bulabilirsiniz

NoSQL veritabanı özellikleri

Özellik Azure Cosmos DB HDInsight'ta HBase
Birincil veritabanı modeli Belge deposu, grafik, anahtar-değer deposu, geniş sütun deposu Geniş sütun deposu
İkincil dizinler Evet Hayır
SQL dil desteği Evet Evet (Phoenix JDBC sürücüsünü kullanarak)
Tutarlılık Güçlü, sınırlanmış eskime durumu, oturum, tutarlı ön ek, nihai Güçlü
Yerel Azure İşlevleri tümleştirmesi Evet Hayır
Otomatik genel dağıtım Evet Sontutarlılığa sahip bölgeler arasında HBase kümesi çoğaltması yapılandırılamaz
Fiyatlandırma modeli Gerektiğinde saniye başına ücretlendirilen esnek ölçeklenebilir istek birimleri (RU), esnek olarak ölçeklenebilir depolama HDInsight kümesi için dakika başına fiyatlandırma (düğümlerin yatay ölçeklendirmesi), depolama

Analitik veritabanı özellikleri

Özellik Azure Veri Gezgini
Birincil veritabanı modeli İlişkisel (sütun deposu), telemetri ve zaman serisi deposu
SQL dil desteği Evet
Fiyatlandırma modeli Esnek olarak ölçeklenebilir küme örnekleri
Kimlik Doğrulaması Microsoft Entra kimliklerini temel alır
Bekleme sırasında şifreleme Desteklenen, müşteri tarafından yönetilen anahtarlar
Analiz iş yükü performansı Paralel analiz iş yükleri için iyileştirilmiş performans
Boyut limitleri Doğrusal olarak ölçeklenebilir

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Sonraki adımlar