Azure'da büyük veri depolama teknolojisi seçme
Dekont
29 Şubat 2024'te Azure Data Lake Storage 1. Nesil kullanımdan kaldırılacaktır. Daha fazla bilgi için resmi duyuruya bakın. Azure Data Lake Storage 1. Nesil kullanıyorsanız, bu tarihten önce Azure Data Lake Storage 2. Nesil geçiş yaptığınızdan emin olun. Nasıl yapılacağını öğrenmek için bkz. Azure portalını kullanarak Azure Data Lake Depolama 1. Nesil'den 2. Nesil'e geçirme.
Zaten bir Azure Data Lake Storage 1. Nesil hesabınız yoksa yeni hesap oluşturamazsınız.
Bu konu, analitik veri depolarının veya gerçek zamanlı akış alımının aksine, özellikle toplu veri alımı ve toplu işleme için veri depolama gibi büyük veri çözümleri için veri depolama seçeneklerini karşılaştırır.
Azure'da veri depolamayı seçerken seçenekleriniz nelerdir?
İhtiyaçlarınıza bağlı olarak Azure'a veri almak için çeşitli seçenekler vardır.
Dosya depolama:
NoSQL veritabanları:
Analitik veritabanları:
Azure Depolama blobları
Azure Depolama yüksek oranda kullanılabilir, güvenli, dayanıklı, ölçeklenebilir ve yedekli bir yönetilen depolama hizmetidir. Microsoft bakımı üstlenir ve kritik sorunları sizin yerinize çözer. Azure Depolama, azure ile kullanılabilen hizmet ve araç sayısı nedeniyle Azure'ın sağladığı en yaygın depolama çözümüdür.
Verileri depolamak için kullanabileceğiniz çeşitli Azure Depolama hizmetleri vardır. Birçok veri kaynağından blob depolamak için en esnek seçenek Blob depolamadır. Bloblar temelde dosyalardır. Resimleri, belgeleri, HTML dosyalarını, sanal sabit diskleri (VHD'ler), günlükler, veritabanı yedeklemeleri gibi büyük verileri (hemen hemen her şeyi) depolar. Bloblar klasörlere benzer kapsayıcılarda depolanır. Kapsayıcı, bir dizi blobun gruplandırılması sağlar. Depolama hesabında sınırsız sayıda kapsayıcı olabilir ve her kapsayıcı sınırsız sayıda blob depolayabilir.
Azure Depolama, esnekliği, yüksek kullanılabilirliği ve düşük maliyeti nedeniyle büyük veri ve analiz çözümleri için iyi bir seçimdir. Farklı kullanım örnekleri için sık erişimli, seyrek erişimli ve arşiv depolama katmanları sağlar. Daha fazla bilgi için bkz. Azure Blob Depolama: Sık erişimli, seyrek erişimli ve arşiv depolama katmanları.
Azure Blob depolamaya Hadoop'tan erişilebilir (HDInsight aracılığıyla kullanılabilir). HDInsight, Azure Depolama’daki bir blob kapsayıcıyı kümenin varsayılan dosya sistemi olarak kullanabilir. WASB sürücüsü tarafından sağlanan hadoop dağıtılmış dosya sistemi (HDFS) arabirimi aracılığıyla, HDInsight'taki bileşenlerin tamamı doğrudan blob olarak depolanan yapılandırılmış veya yapılandırılmamış veriler üzerinde çalışabilir. Azure Blob depolamaya PolyBase özelliği kullanılarak Azure Synapse Analytics aracılığıyla da erişilebilir.
Azure Depolama iyi bir seçim haline getiren diğer özellikler şunlardır:
- Birden çok eşzamanlılık stratejisi.
- Olağanüstü durum kurtarma ve yüksek kullanılabilirlik seçenekleri.
- Bekleyen şifreleme.
- Microsoft Entra kullanıcılarını ve gruplarını kullanarak erişimi denetlemek için Azure rol tabanlı erişim denetimi (Azure RBAC).
Azure Data Lake Storage Gen1
Azure Data Lake Storage 1. Nesil, büyük veri analizi iş yükleri için kurumsal ölçekte bir hiper ölçek deposudur. Data Lake, operasyonel ve keşif analizi için tek bir güvenli konumda her boyutta, türde ve alım hızında veri yakalamanızı sağlar.
Azure Data Lake Storage 1. Nesil hesap boyutlarına, dosya boyutlarına veya bir veri gölünde depolanabilecek veri miktarına herhangi bir sınır getirmez. Veriler, birden çok kopya oluşturularak durabilir bir şekilde depolanır ve verilerin Data Lake'te depolanma süresiyle ilgili bir sınır yoktur. Data lake, beklenmeyen hatalara karşı korumak için dosyaların birden çok kopyasını oluşturmanın yanı sıra, bir dosyanın parçalarını bir dizi ayrı depolama sunucusuna yayar. Bu, veri analizinin gerçekleştirilmesi için dosyanın paralel olarak okunması sırasında okuma verimini artırır.
Azure Data Lake Storage 1. Nesil WebHDFS uyumlu REST API'leri kullanılarak Hadoop'tan (HDInsight aracılığıyla kullanılabilir) erişilebilir. Bireysel veya birleşik dosya boyutlarınız Azure Depolama tarafından desteklenen boyutu aştığında bunu Azure Depolama alternatif olarak kullanmayı düşünebilirsiniz. Ancak HdInsight kümesi için birincil depolama alanınız olarak Azure Data Lake Storage 1. Nesil kullanırken izlemeniz gereken performans ayarlama yönergeleri vardır ve Spark, Hive ve MapReduce için belirli yönergeler vardır. Ayrıca Azure Depolama kadar bölgede kullanılamadığından ve HDInsight kümenizle aynı bölgede bulunması gerektiğinden Azure Data Lake Storage 1. Nesil'nin bölgesel kullanılabilirliğini de denetlemeyi unutmayın.
Azure Data Lake Analytics ile birlikte, Azure Data Lake Storage 1. Nesil depolanan verilerde analizi etkinleştirmek üzere tasarlanmıştır ve veri analizi senaryoları için performans için ayarlanır. Azure Data Lake Storage 1. Nesil,PolyBase özelliği kullanılarak Azure Synapse aracılığıyla da erişilebilir.
Azure Cosmos DB
Azure Cosmos DB , Microsoft'un genel olarak dağıtılmış çok modelli veritabanıdır. Azure Cosmos DB, dünyanın her yerindeki 99. yüzdebirlik dilimde tek basamaklı milisaniyelik gecikme sürelerini garanti eder, performansa ince ayar yapmak için birden çok iyi tanımlanmış tutarlılık modeli sunar ve çoklu giriş özellikleriyle yüksek kullanılabilirlik garantisi sunar.
Azure Cosmos DB şemadan bağımsızdır. Şema ve dizin yönetimiyle ilgilenmenize gerek kalmadan tüm verileri otomatik olarak dizinler. Ayrıca belge, anahtar-değer, graf ve sütun ailesi veri modellerini yerel olarak destekleyen çok modelli bir modeldir.
Azure Cosmos DB özellikleri:
- Coğrafi çoğaltma
- Tüm dünyada aktarım hızını ve depolamayı esnek bir şekilde ölçeklendirme
- Beş iyi tanımlanmış tutarlılık düzeyi
HDInsight'ta HBase
Apache HBase , Hadoop üzerinde oluşturulan ve Google BigTable'dan sonra modellenen açık kaynaklı bir NoSQL veritabanıdır. HBase, sütun aileleri tarafından düzenlenen şemasız bir veritabanında büyük miktarlarda yapılandırılmamış ve yarı yapılandırılmış veriler için rastgele erişim ve güçlü tutarlılık sağlar.
Veriler bir tablonun satırlarında depolanır ve satır içindeki veriler sütun ailesi tarafından gruplandırılır. HBase, sütunların veya bu sütunlarda depolanan veri türlerinin kullanmadan önce tanımlanması gerekmeden şemasızdır. Açık kaynak kodu, binlerce düğümdeki petabaytlarca verileri işlemek için doğrusal olarak ölçeklendirir. Veri yedekleme, toplu işleme ve Hadoop ekosistemindeki dağıtılmış uygulamalar tarafından sağlanan diğer özelliklere dayanabilir.
HDInsight uygulaması, tabloların otomatik parçalanması, okuma ve yazma işlemleri için güçlü tutarlılık ve otomatik yük devretme sağlamak için HBase'in ölçeği genişletme mimarisinden yararlanıyor. Performans, okumalar için bellek içi önbelleğe alma ve yazmalar için yüksek verimlilikli akış tarafından geliştirilmiştir. Çoğu durumda, diğer HDInsight kümelerinin ve uygulamalarının tablolara doğrudan erişebilmesi için bir sanal ağ içinde HBase kümesi oluşturmak istersiniz.
Azure Veri Gezgini
Azure Veri Gezgini, günlük ve telemetri verileri için hızlı ve yüksek oranda ölçeklenebilir bir veri araştırma hizmetidir. Verileri toplamak, depolamak ve analiz etmek için modern yazılımlar tarafından yayılan birçok veri akışını işlemenize yardımcı olur. Azure Veri Gezgini web siteleri, uygulamalar, IoT cihazları ve benzeri veri kaynaklarından gelen yüksek miktarlardaki çeşitli verileri analiz etmek için idealdir. Bu veriler tanılama, izleme, raporlama, makine öğrenmesi ve ek analiz özellikleri için kullanılır. Azure Veri Gezgini bu verileri alma işlemini basitleştirir ve veriler üzerinde saniyeler içinde karmaşık geçici sorgular yapmanıza olanak tanır.
Azure Veri Gezgini, alım ve sorgu işleme aktarım hızını artırmak için doğrusal olarak ölçeklendirilebilir. Azure Veri Gezgini kümesi, özel ağları etkinleştirmek için bir Sanal Ağ dağıtılabilir.
Anahtar seçim ölçütleri
Seçenekleri daraltmak için şu soruları yanıtlayarak başlayın:
Herhangi bir metin veya ikili veri türü için yönetilen, yüksek hızlı, bulut tabanlı depolamaya ihtiyacınız var mı? Evet ise dosya depolama veya analiz seçeneklerinden birini seçin.
Paralel analiz iş yükleri ve yüksek aktarım hızı/IOPS için iyileştirilmiş dosya depolamaya mı ihtiyacınız var? Evet ise analiz iş yükü performansına ayarlanmış bir seçenek belirleyin.
Yapılandırılmamış veya yarı yapılandırılmış verileri şemasız bir veritabanında depolamanız mı gerekiyor? Öyleyse ilişkisel olmayan veya analiz seçeneklerinden birini seçin. Dizin oluşturma ve veritabanı modelleri seçeneklerini karşılaştırın. Depolamanız gereken veri türüne bağlı olarak, birincil veritabanı modelleri en büyük faktör olabilir.
Hizmeti bölgenizde kullanabilir misiniz? Her Azure hizmetinin bölgesel kullanılabilirliğini denetleyin. Bkz. Bölgelere göre kullanılabilir ürünler.
Yetenek matrisi
Aşağıdaki tablolarda, özelliklerdeki temel farklar özetlemektedir.
Dosya depolama özellikleri
Özellik | Azure Data Lake Storage Gen1 | kapsayıcıları Azure Blob Depolama |
---|---|---|
Amaç | Büyük veri analizi iş yükleri için iyileştirilmiş depolama | Çok çeşitli depolama senaryoları için genel amaçlı nesne deposu |
Kullanım örnekleri | Toplu işlem, akış analizi ve günlük dosyaları, IoT verileri, tıklama akışları, büyük veri kümeleri gibi makine öğrenmesi verileri | Uygulama arka ucu, yedekleme verileri, akış için medya depolama alanı ve genel amaçlı veriler gibi her tür metin veya ikili veri |
Yapı | Hiyerarşik dosya sistemi | Düz ad alanına sahip nesne deposu |
Kimlik Doğrulaması | Microsoft Entra kimliklerini temel alır | Paylaşılan gizli dizilere göre Hesap Erişim Anahtarları ve Paylaşılan Erişim İmza Anahtarları ve Azure rol tabanlı erişim denetimi (Azure RBAC) |
Kimlik doğrulama protokolü | OAuth 2.0. Çağrılar, Microsoft Entra ID tarafından verilen geçerli bir JWT (JSON web belirteci) içermelidir | Karma tabanlı ileti kimlik doğrulama kodu (HMAC). Çağrılar, HTTP isteğinin bir parçası üzerinde Base64 kodlamalı SHA-256 karması içermelidir. |
Yetkilendirme | POSIX erişim denetim listeleri (ACL'ler). Microsoft Entra kimliklerini temel alan ACL'ler dosya ve klasör düzeyi olarak ayarlanabilir. | Hesap düzeyinde yetkilendirme için Hesap Erişim Anahtarları'nı kullanın. Hesap, kapsayıcı veya blob yetkilendirmesi için Paylaşılan Erişim İmza Anahtarları'nı kullanın. |
Denetim | Kullanılabilir. | Kullanılabilir |
Bekleme sırasında şifreleme | Saydam, sunucu tarafı | Saydam, sunucu tarafı; İstemci tarafı şifrelemesi |
Geliştirici SDK'ları | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Analiz iş yükü performansı | Paralel analiz iş yükleri, Yüksek Aktarım Hızı ve IOPS için iyileştirilmiş performans | Analiz iş yükleri için iyileştirilmemiş |
Boyut limitleri | Hesap boyutlarında, dosya boyutlarında veya dosya sayısında sınır yok | Burada belgelenen belirli sınırlar |
Coğrafi yedeklilik | Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişim genel olarak yedekli (RA-GRS), alanlar arası yedekli (ZRS). | Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişim genel olarak yedekli (RA-GRS), alanlar arası yedekli (ZRS). Burada daha fazla bilgi bulabilirsiniz |
NoSQL veritabanı özellikleri
Özellik | Azure Cosmos DB | HDInsight'ta HBase |
---|---|---|
Birincil veritabanı modeli | Belge deposu, grafik, anahtar-değer deposu, geniş sütun deposu | Geniş sütun deposu |
İkincil dizinler | Evet | Hayır |
SQL dil desteği | Evet | Evet (Phoenix JDBC sürücüsünü kullanarak) |
Tutarlılık | Güçlü, sınırlanmış eskime durumu, oturum, tutarlı ön ek, nihai | Güçlü |
Yerel Azure İşlevleri tümleştirmesi | Evet | Hayır |
Otomatik genel dağıtım | Evet | Sontutarlılığa sahip bölgeler arasında HBase kümesi çoğaltması yapılandırılamaz |
Fiyatlandırma modeli | Gerektiğinde saniye başına ücretlendirilen esnek ölçeklenebilir istek birimleri (RU), esnek olarak ölçeklenebilir depolama | HDInsight kümesi için dakika başına fiyatlandırma (düğümlerin yatay ölçeklendirmesi), depolama |
Analitik veritabanı özellikleri
Özellik | Azure Veri Gezgini |
---|---|
Birincil veritabanı modeli | İlişkisel (sütun deposu), telemetri ve zaman serisi deposu |
SQL dil desteği | Evet |
Fiyatlandırma modeli | Esnek olarak ölçeklenebilir küme örnekleri |
Kimlik Doğrulaması | Microsoft Entra kimliklerini temel alır |
Bekleme sırasında şifreleme | Desteklenen, müşteri tarafından yönetilen anahtarlar |
Analiz iş yükü performansı | Paralel analiz iş yükleri için iyileştirilmiş performans |
Boyut limitleri | Doğrusal olarak ölçeklenebilir |
Katkıda Bulunanlar
Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.
Asıl yazar:
- Zoiner Tejada | CEO ve Mimar
Sonraki adımlar
- Azure Cloud Depolama Çözümleri ve Hizmetleri
- Depolama seçeneklerinizi gözden geçirin
- Azure Depolama’ya giriş
- Azure Veri Gezgini'a giriş
İlgili kaynaklar
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin