Aracılığıyla paylaş


Azure'da büyük veri depolama teknolojisi seçme

Bu makalede, analitik veri depoları veya gerçek zamanlı akış alımı yerine büyük veri çözümleri için veri depolama seçenekleri (özellikle toplu veri alımı ve toplu işleme için veri depolama) karşılaştırılır.

Azure'da veri depolamayı seçerken seçenekleriniz nelerdir?

İhtiyaçlarınıza bağlı olarak Azure'a veri almak için çeşitli seçenekler vardır.

Birleşik mantıksal veri gölü:

Dosya depolama:

NoSQL veritabanları:

Analitik veritabanları:

Fabric'de OneLake

Fabric'te OneLake, tüm kuruluş için uyarlanmış birleşik ve mantıksal bir veri gölüdür. Tüm analiz verileri için merkezi merkez görevi görür ve her Microsoft Fabric kiracısıyla birlikte sunulur. OneLake in Fabric, Data Lake Storage 2. Nesil temeli üzerine kurulmuştur.

Fabric'de OneLake

  • Yapılandırılmış ve yapılandırılmamış dosya türlerini destekler.
  • Tüm tablosal verileri Delta Parquet biçiminde depolar.
  • Kiracı sınırları içinde varsayılan olarak yönetilen tek bir veri gölü sağlar.
  • Bir kuruluşun sahiplik ve erişim ilkelerini dağıtabilmesi için kiracı içinde çalışma alanı oluşturmayı destekler.
  • Verilere erişebileceğiniz göl evleri ve ambarlar gibi çeşitli veri öğelerinin oluşturulmasını destekler.

Dokuda OneLake, alım, dönüşüm, gerçek zamanlı içgörüler ve iş zekası görselleştirmeleri için ortak depolama konumu olarak hizmet eder. Çeşitli Doku hizmetlerini merkezileştirir ve tüm iş yüklerinin Doku'da kullandığı veri öğelerini depolar. Fabric iş yükleriniz için doğru veri deposunu seçmek üzere karar kılavuzunu görmek için Veri deposu seçme: Fabric karar kılavuzu'ya bakın.

Azure Depolama blobları

Azure Depolama yüksek oranda kullanılabilir, güvenli, dayanıklı, ölçeklenebilir ve yedekli bir yönetilen depolama hizmetidir. Microsoft bakımı üstlenir ve kritik sorunları sizin yerinize çözer. Azure Depolama, azure ile kullanılabilen hizmet ve araç sayısı nedeniyle Azure'ın sağladığı en yaygın depolama çözümüdür.

Verileri depolamak için kullanabileceğiniz çeşitli Azure Depolama hizmetleri vardır. Birçok veri kaynağından blob depolamak için en esnek seçenek Blob depolamadır. Bloblar temelde dosyalardır. Resimleri, belgeleri, HTML dosyalarını, sanal sabit diskleri (VHD'ler), günlükler, veritabanı yedeklemeleri gibi büyük verileri (hemen hemen her şeyi) depolar. Bloblar klasörlere benzer kapsayıcılarda depolanır. Kapsayıcı, bir dizi blobun gruplandırılması sağlar. Depolama hesabında sınırsız sayıda kapsayıcı olabilir ve her kapsayıcı sınırsız sayıda blob depolayabilir.

Azure Depolama, esnekliği, yüksek kullanılabilirliği ve düşük maliyeti nedeniyle büyük veri ve analiz çözümleri için iyi bir seçimdir. Farklı kullanım örnekleri için sık erişimli, seyrek erişimli ve arşiv depolama katmanları sağlar. Daha fazla bilgi için bkz. Azure Blob Depolama: Sık erişimli, seyrek erişimli ve arşiv depolama katmanları.

Azure Blob depolamaya Hadoop'tan erişilebilir (HDInsight aracılığıyla kullanılabilir). HDInsight, Azure Depolama’daki bir blob kapsayıcıyı kümenin varsayılan dosya sistemi olarak kullanabilir. WASB sürücüsü tarafından sağlanan Hadoop Dağıtılmış Dosya Sistemi (HDFS) arabirimi aracılığıyla, HDInsight'taki bileşenlerin tamamı doğrudan blob olarak depolanan yapılandırılmış veya yapılandırılmamış veriler üzerinde çalışabilir. Azure Blob depolamaya PolyBase özelliği kullanılarak Azure Synapse Analytics aracılığıyla da erişilebilir.

Azure Depolama'yı iyi bir seçim haline getiren diğer özellikler şunlardır:

Data Lake Storage Gen 2

Data Lake Storage 2. Nesil, hem yapılandırılmış hem de yapılandırılmamış tüm verilerinizi depolayabileceğiniz tek, merkezi bir depodur. Veri gölü, kuruluşunuzun çok çeşitli verileri tek bir konumda hızla ve daha kolay bir şekilde depolamasına, erişmesine ve analiz etmesine olanak tanır. Bir veri gölü ile verilerinizi mevcut bir yapıya uyacak şekilde uyumlu hale getirmek zorunda değilsiniz. Bunun yerine, verilerinizi genellikle dosyalar veya ikili büyük nesneler (bloblar) olarak ham veya yerel biçiminde depolayabilirsiniz.

Data Lake Storage Gen2, Azure Data Lake Storage Gen1 özelliklerini Azure Blob Depolama ile birleştiriyor. Örneğin, Data Lake Storage 2. Nesil dosya sistemi semantiği, dosya düzeyi güvenlik ve ölçeklendirme sağlar. Bu özellikler Blob depolama üzerine oluşturulduğundan, yüksek kullanılabilirlik/olağanüstü durum kurtarma özellikleriyle düşük maliyetli, katmanlı depolama da elde edersiniz.

Data Lake Storage 2. Nesil, Azure Depolama'yı Azure'da kurumsal veri gölleri oluşturmanın temeli haline getirir. Başlangıçtan petabaytlarca bilgiye hizmet vermeye kadar yüzlerce gigabit aktarım hızı sağlarken tasarlanan Data Lake Storage 2. Nesil çok büyük miktarda veriyi kolayca yönetmenizi sağlar.

Azure Cosmos DB veritabanı

Azure Cosmos DB , Microsoft'un genel olarak dağıtılmış çok modelli veritabanıdır. Azure Cosmos DB, dünyanın her yerindeki yüzde birlik dilimde tek basamaklı milisaniyelik gecikme sürelerini garanti eder, performansa ince ayar yapmak için birden çok iyi tanımlanmış tutarlılık modeli sağlar ve birden fazla yerleşim özellikleriyle yüksek kullanılabilirlik sağlar.

Azure Cosmos DB şemadan bağımsızdır. Şema ve dizin yönetimiyle ilgilenmenize gerek kalmadan tüm verileri otomatik olarak dizinler. Ayrıca belge, anahtar-değer, graf ve sütun ailesi veri modellerini yerel olarak destekleyen çok modelli bir modeldir.

Azure Cosmos DB özellikleri:

HDInsight'ta HBase

Apache HBase , Hadoop üzerinde oluşturulan ve Google BigTable'dan sonra modellenen açık kaynaklı bir NoSQL veritabanıdır. HBase, sütun aileleri tarafından düzenlenen şemasız bir veritabanında büyük miktarlarda yapılandırılmamış ve yarı yapılandırılmış veriler için rastgele erişim ve güçlü tutarlılık sağlar.

Veriler bir tablonun satırlarında depolanır ve satır içindeki veriler sütun ailesi tarafından gruplandırılır. HBase, sütunların veya bu sütunlarda depolanan veri türlerinin kullanmadan önce tanımlanması gerekmeden şemasızdır. Açık kaynak kodu, binlerce düğümdeki petabaytlarca verileri işlemek için doğrusal olarak ölçeklendirir. Veri yedekleme, toplu işleme ve Hadoop ekosistemindeki dağıtılmış uygulamalar tarafından sağlanan diğer özelliklere dayanabilir.

HDInsight uygulaması, tabloların otomatik parçalanması, okuma ve yazma işlemleri için güçlü tutarlılık ve otomatik yük devretme sağlamak için HBase'in ölçeği genişletme mimarisini kullanır. Performans, okumalar için bellek içi önbelleğe alma ve yazmalar için yüksek hızlı veri akışı ile artırılmıştır. Çoğu durumda, diğer HDInsight kümelerinin ve uygulamalarının tablolara doğrudan erişebilmesi için bir sanal ağ içinde HBase kümesi oluşturmak istersiniz.

Azure Veri Gezgini

Azure Veri Gezgini, günlük ve telemetri verileri için hızlı ve yüksek oranda ölçeklenebilir bir veri araştırma hizmetidir. Verileri toplamak, depolamak ve analiz etmek için modern yazılımlar tarafından yayılan birçok veri akışını işlemenize yardımcı olur. Azure Veri Gezgini web siteleri, uygulamalar, IoT cihazları ve benzeri veri kaynaklarından gelen yüksek miktarlardaki çeşitli verileri analiz etmek için idealdir. Bu veriler tanılama, izleme, raporlama, makine öğrenmesi ve ek analiz özellikleri için kullanılır. Azure Veri Gezgini bu verileri alma işlemini basitleştirir ve veriler üzerinde saniyeler içinde karmaşık planlanmamış sorgular yapmanıza olanak tanır.

Azure Veri Gezgini, alım ve sorgu işleme aktarım hızını artırmak için doğrusal olarak ölçeklendirilebilir. Azure Veri Gezgini kümesi, özel ağları etkinleştirmek için bir Sanal Ağ dağıtılabilir.

Anahtar seçim ölçütleri

Seçenekleri daraltmak için şu soruları yanıtlayarak başlayın:

  • Çoklu bulut desteğine, güçlü idareye ve analitik araçlarla sorunsuz tümleştirmeye sahip birleşik bir veri gölüne mi ihtiyacınız var? Evetse, basitleştirilmiş veri yönetimi ve artırılmış işbirliği için Fabric içinde OneLake'i seçin.

  • Herhangi bir metin veya ikili veri türü için yönetilen, yüksek hızlı, bulut tabanlı depolamaya ihtiyacınız var mı? Evet ise dosya depolama veya analiz seçeneklerinden birini seçin.

  • Paralel analiz iş yükleri ve yüksek aktarım hızı/IOPS için iyileştirilmiş dosya depolamaya mı ihtiyacınız var? Evet ise analiz iş yükü performansına ayarlanmış bir seçenek belirleyin.

  • Yapılandırılmamış veya yarı yapılandırılmış verileri şemasız bir veritabanında depolamanız mı gerekiyor? Öyleyse, ilişkisel olmayan veya analiz seçeneklerinden birini seçin. Dizin oluşturma ve veritabanı modelleri seçeneklerini karşılaştırın. Depolamanız gereken veri türüne bağlı olarak, birincil veritabanı modelleri en büyük faktör olabilir.

  • Hizmeti bölgenizde kullanabilir misiniz? Her Azure hizmetinin bölgesel kullanılabilirliğini denetleyin. Daha fazla bilgi için bkz. Bölgelere göre kullanılabilir ürünler.

Yetenek matrisi

Aşağıdaki tablolarda, özelliklerdeki temel farklar özetlemektedir.

Yapıdaki OneLake özellikleri

Yetkinlik Fabric'de OneLake
Birleşik veri gölü Tüm kuruluş için veri silolarını ortadan kaldıran tek bir birleşik veri gölü sağlar.
Çoklu bulut desteği Çeşitli bulut platformlarıyla tümleştirmeyi ve uyumluluğu destekler.
Veri idaresi Veri kökeni, veri koruma, sertifikasyon ve katalog tümleştirmesi gibi özellikleri içerir.
Merkezi veri hub'ı Veri bulma ve yönetim için merkezi bir merkez görevi görür.
Analiz altyapısı desteği Birden çok analiz motoruyla uyumludur. Bu uyumluluk, farklı araçların ve teknolojilerin aynı veriler üzerinde çalışmasına olanak tanır.
Güvenlik ve uyumluluk Hassas verilerin güvende kalmasını ve erişimin yalnızca yetkili kullanıcılarla kısıtlanmasını sağlar.
Kullanım kolaylığı Her Fabric kiracısında otomatik olarak kullanılabilen ve kurulum gerektirmeyen kullanıcı dostu bir tasarım sağlar.
Ölçeklenebilirlik Çeşitli kaynaklardan gelen büyük hacimli verileri işleyebilme özelliğine sahiptir.

Dosya depolama özellikleri

Yetkinlik Data Lake Storage Gen 2 Azure Blob Depolama kapsayıcıları
Amaç Büyük veri analizi iş yükleri için iyileştirilmiş depolama Çok çeşitli depolama senaryoları için genel amaçlı nesne deposu
Kullanım örnekleri Toplu işlem, akış analizi ve günlük dosyaları, IoT verileri, tıklama akışları, büyük veri kümeleri gibi makine öğrenmesi verileri Uygulama arka ucu, yedekleme verileri, akış için medya depolama alanı ve genel amaçlı veriler gibi her tür metin veya ikili veri
Yapı Hiyerarşik dosya sistemi Düz ad alanına sahip nesne deposu
Kimlik Doğrulaması Microsoft Entra kimlikleri esas alınarak Paylaşılan sırları temel alarak Hesap Erişim Anahtarları ve Paylaşılan Erişim İmza Anahtarları ile Azure rol tabanlı erişim denetimi (Azure RBAC)
Kimlik doğrulama protokolü Yetkilendirme (OAuth) 2.0'ı açın. Çağrılar, Microsoft Entra ID tarafından verilen geçerli bir JWT (JSON web belirteci) içermelidir Karma Tabanlı İleti Kimlik Doğrulama Kodu (HMAC). HTTP isteğinin bir bölümünde Base64 ile kodlanmış SHA-256 karması içeren çağrılar yapılmalıdır.
Yetkilendirme Taşınabilir İşletim Sistemi Arabirimi (POSIX) erişim denetimi listeleri (ACL'ler). Microsoft Entra kimliklerini temel alan ACL'ler dosya ve klasör düzeyi olarak ayarlanabilir. Hesap düzeyinde yetkilendirme için Hesap Erişim Anahtarları'nı kullanın. Hesap, kapsayıcı veya blob yetkilendirmesi için Paylaşılan Erişim İmza Anahtarları'nı kullanın.
Mali Denetim Mevcut. Mevcut
Bekleme sırasında şifreleme Saydam, sunucu tarafı Saydam, sunucu tarafı; İstemci tarafı şifrelemesi
Geliştirici SDK'ları .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Analiz iş yükü performansı Paralel analiz iş yükleri, Yüksek Aktarım Hızı ve IOPS için iyileştirilmiş performans Analiz iş yükleri için iyileştirilmemiş
Boyut limitleri Hesap boyutlarında, dosya boyutlarında veya dosya sayısında sınır yok Burada belgelenen belirli sınırlar
Coğrafi yedeklilik Yerel olarak yedekli (yerel olarak yedekli depolama (LRS)), genel olarak yedekli (coğrafi olarak yedekli depolama (GRS)), okuma erişimli genel olarak yedekli (okuma erişimli coğrafi olarak yedekli depolama (RA-GRS)), alanlar arası yedekli (alanlar arası yedekli depolama (ZRS)). Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişim genel olarak yedekli (RA-GRS), alanlar arası yedekli (ZRS). Daha fazla bilgi için bkz. Azure Depolama yedekliliği

NoSQL veritabanı özellikleri

Yetkinlik Azure Cosmos DB veritabanı HDInsight'ta HBase
Birincil veritabanı modeli Belge deposu, grafik, anahtar-değer deposu, geniş sütun deposu Geniş kolon deposu
İkincil dizinler Evet Hayır
SQL dil desteği Evet Evet (Phoenix JDBC sürücüsünü kullanarak)
Tutarlılık Güçlü, sınırlanmış eskime durumu, oturum, tutarlı ön ek, nihai Güçlü
Yerel Azure İşlevleri tümleştirmesi Evet Hayır
Otomatik genel dağıtım Evet Sontutarlılığa sahip bölgeler arasında HBase kümesi çoğaltması yapılandırılamaz
Fiyatlandırma modeli Gerektiğinde saniye başına ücretlendirilen esnek ölçeklenebilir istek birimleri (RU), esnek olarak ölçeklenebilir depolama HDInsight kümesi için dakika başına fiyatlandırma (düğümlerin yatay ölçeklendirmesi), depolama

Analitik veritabanı özellikleri

Yetkinlik Azure Veri Gezgini
Birincil veritabanı modeli İlişkisel (sütun veritabanı), telemetri ve zaman serisi veritabanı
SQL dil desteği Evet
Fiyatlandırma modeli Esnek olarak ölçeklenebilir küme örnekleri
Kimlik Doğrulaması Microsoft Entra kimliklerini temel alır
Bekleme sırasında şifreleme Desteklenen, müşteri tarafından yönetilen anahtarlar
Analiz iş yükü performansı Paralel analiz iş yükleri için iyileştirilmiş performans
Boyut limitleri Doğrusal olarak ölçeklenebilir

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Sonraki adımlar