Azure Data Lake Storage’a Giriş
Azure Data Lake Storage, Azure Blob Depolama üzerine oluşturulmuş, büyük veri analizine ayrılmış bir özellik kümesidir.
Azure Data Lake Storage, Azure Data Lake Storage 1. Nesil özelliklerini Azure Blob Depolama ile birleştirilmiştir. Örneğin, Data Lake Storage dosya sistemi semantiği, dosya düzeyi güvenlik ve ölçeklendirme sağlar. Bu özellikler Blob depolama üzerine oluşturulduğundan, yüksek kullanılabilirlik/olağanüstü durum kurtarma özellikleriyle düşük maliyetli, katmanlı depolama da elde edersiniz.
Data Lake Storage, Azure Depolama'yı Azure'da kurumsal veri gölleri oluşturmanın temeli haline getirir. Başlangıçtan petabaytlarca bilgiye hizmet verirken yüzlerce gigabit aktarım hızına sahip olacak şekilde tasarlanan Data Lake Storage, çok miktarda veriyi kolayca yönetmenizi sağlar.
Data Lake nedir?
Veri gölü, hem yapılandırılmış hem de yapılandırılmamış tüm verilerinizi depolayabileceğiniz tek ve merkezi bir depodur. Veri gölü, kuruluşunuzun çok çeşitli verileri tek bir konumda hızla ve daha kolay bir şekilde depolamasına, erişmesine ve analiz etmesine olanak tanır. Bir veri gölü ile verilerinizi mevcut bir yapıya uyacak şekilde uyumlu hale getirmek zorunda değilsiniz. Bunun yerine, verilerinizi genellikle dosyalar veya ikili büyük nesneler (bloblar) olarak ham veya yerel biçiminde depolayabilirsiniz.
Azure Data Lake Storage , bulut tabanlı bir kurumsal data lake çözümüdür. Büyük miktarda veriyi herhangi bir biçimde depolamak ve büyük veri analiz iş yüklerini kolaylaştırmak için tasarlanmıştır. Bunu, çeşitli çerçeveleri kullanarak kolay erişim ve analiz için her tür ve alım hızında verileri tek bir konumda yakalamak için kullanırsınız.
Data Lake Storage
Azure Data Lake Storage ayrılmış bir hizmet veya hesap türü değildir. Bunun yerine, Azure Depolama hesabınızın Blob Depolama hizmetiyle kullandığınız bir özellik kümesi olarak uygulanır. Hiyerarşik ad alanı ayarını etkinleştirerek bu özelliklerin kilidini açabilirsiniz.
Data Lake Storage aşağıdaki özellikleri içerir.
✓ Hadoop uyumlu erişim
✓ Hiyerarşik dizin yapısı
✓ İyileştirilmiş maliyet ve performans
✓ Daha ince taneli güvenlik modeli
✓ Yüksek ölçeklenebilirlik
Hadoop uyumlu erişim
Azure Data Lake Storage öncelikle Hadoop ve veri erişim katmanı olarak Apache Hadoop Dağıtılmış Dosya Sistemi'ni (HDFS) kullanan tüm çerçevelerle çalışacak şekilde tasarlanmıştır. Hadoop dağıtımları, birçok uygulamanın ve çerçevenin Azure Blob Depolama verilere doğrudan erişmesini sağlayan Azure Blob Dosya Sistemi (ABFS) sürücüsünü içerir. ABFS sürücüsü özellikle büyük veri analizi için iyileştirilmiştir . İlgili REST API'leri uç noktası dfs.core.windows.net
üzerinden ortaya çıkar.
Veri erişim katmanı olarak HDFS kullanan veri çözümleme çerçeveleri, ABFS aracılığıyla Azure Data Lake Storage verilerine doğrudan erişebilir. Apache Spark analiz altyapısı ve Presto SQL sorgu altyapısı bu tür çerçevelere örnek olarak verilebilir.
Desteklenen hizmetler ve platformlar hakkında daha fazla bilgi için bkz. Azure Data Lake Storage'ı destekleyen Azure hizmetleri ve Azure Data Lake Storage'ı destekleyen Açık kaynak platformları.
Hiyerarşik dizin yapısı
Hiyerarşik ad alanı, Azure Data Lake Storage'ın nesne depolama ölçeğinde ve fiyatında yüksek performanslı veri erişimi sağlamasına olanak tanıyan önemli bir özelliktir. Depolama hesabınızdaki tüm nesneleri ve dosyaları dizinler ve iç içe alt dizinler hiyerarşisinde düzenlemek için bu özelliği kullanabilirsiniz. Başka bir deyişle, Azure Data Lake Storage verileriniz, bilgisayarınızda dosyaların düzenlendiğinin çok benzer şekilde düzenlenir.
Dizini yeniden adlandırma veya silme gibi işlemler, dizinde tek atomik meta veri işlemlerine dönüşür. Dizinin ad ön ekini paylaşan tüm nesneleri listelemeye ve işlemeye gerek yoktur.
İyileştirilmiş maliyet ve performans
Azure Data Lake Storage Azure Blob Depolama düzeylerinde fiyatlendirilir. Büyük veri depolama maliyetlerini yönetmek için otomatik yaşam döngüsü ilkesi yönetimi ve nesne düzeyi katmanlama gibi Azure Blob Depolama özelliklerine dayalıdır.
Analiz önkoşulu olarak verileri kopyalamanıza veya dönüştürmenize gerek olmadığından performans en iyi duruma getirilmiştir. Azure Data Lake Storage'ın hiyerarşik ad alanı özelliği, verimli erişim ve gezinti olanağı sağlar. Bu mimari, veri işlemenin daha az hesaplama kaynağı gerektirdiği ve verilere erişim hızını ve maliyetini azalttığını gösterir.
Daha ayrıntılı güvenlik modeli
Azure Data Lake Storage erişim denetimi modeli hem Azure rol tabanlı erişim denetimini (Azure RBAC) hem de UNIX için Taşınabilir İşletim Sistemi Arabirimi (POSIX) erişim denetim listelerini (ACL' ler) destekler. Azure Data Lake Storage'a özgü birkaç ek güvenlik ayarı da vardır. İzinleri dizin düzeyinde veya dosya düzeyinde ayarlayabilirsiniz. Depolanan tüm veriler, Microsoft tarafından yönetilen veya müşteri tarafından yönetilen şifreleme anahtarları kullanılarak bekleme durumunda şifrelenir.
Çok yüksek oranda ölçeklenebilirlik
Azure Data Lake Storage yüksek depolama alanı sunar ve analiz için çok sayıda veri türünü kabul eder. Hesap boyutlarına, dosya boyutlarına veya veri gölünde depolanabilecek veri miktarına herhangi bir sınır getirmez. Tek tek dosyaların boyutları birkaç kilobayt (KB) ile birkaç petabayt (KB) arasında olabilir. İşleme, hizmet, hesap ve dosya düzeylerinde ölçülen neredeyse sabit istek başına gecikme sürelerinde yürütülür.
Bu tasarım, Azure Data Lake Storage'ın en zorlu iş yüklerini karşılamak için ölçeği kolayca ve hızlı bir şekilde artırabileceği anlamına gelir. Ayrıca talep düştüğünde de ölçeği kolayca azaltabilir.
Azure Blob Depolama üzerine kurulmuştur
Alınan veriler depolama hesabında blob olarak kalır. Blobları yöneten hizmet, Azure Blob Depolama hizmetidir. Data Lake Storage, bu hizmette büyük veri analizi iş yüklerinin taleplerini karşılayan özellikleri veya "iyileştirmeleri" açıklar.
Bu özellikler Blob Depolama üzerinde oluşturulduğundan, tanılama günlüğü, erişim katmanları ve yaşam döngüsü yönetimi ilkeleri gibi özellikler hesabınızda kullanılabilir. Blob Depolama özelliklerinin çoğu tam olarak desteklenir, ancak bazı özellikler yalnızca önizleme düzeyinde desteklenebilir ve henüz desteklenmeyen birkaç özellik vardır. Destek deyimlerinin tam listesi için bkz . Azure Depolama hesaplarında Blob Depolama özelliği desteği. Destek genişletildikçe listelenen her özelliğin durumu zaman içinde değişir.
Belgeler ve terminoloji
Azure Blob Depolama içindekiler tablosunda iki içerik bölümü bulunur. İçeriğin Data Lake Storage bölümü, Data Lake Storage özelliklerini kullanmaya yönelik en iyi yöntemleri ve yönergeleri sağlar. İçeriğin Blob Depolama bölümü, Data Lake Storage'a özgü olmayan hesap özellikleri için rehberlik sağlar.
Bölümler arasında hareket ettikçe bazı küçük terminoloji farklılıkları fark edebilirsiniz. Örneğin, Blob Depolama belgelerinde yer alan içerik, dosya yerine blob terimini kullanır. Teknik olarak, depolama hesabınıza alınan dosyalar hesabınızda blob haline gelir. Bu nedenle, terim doğrudur. Ancak blob terimi, dosya terimine alışkınsanız karışıklığa neden olabilir. Ayrıca bir dosya sistemine başvurmak için kullanılan kapsayıcı terimini de görürsünüz. Bu terimleri eş anlamlı olarak düşünün.