Aracılığıyla paylaş


Hiyerarşik ad alanını Azure Data Lake Storage 2. Nesil

Azure Data Lake Storage 2. Nesil nesne depolama ölçeğinde dosya sistemi performansı ve fiyatları sağlamasına olanak tanıyan önemli bir mekanizma, hiyerarşik ad alanının eklenmesidir. Bu, bir hesaptaki nesne/dosya koleksiyonunun, bilgisayarınızdaki dosya sistemiyle aynı şekilde bir dizin ve iç içe alt dizin hiyerarşisi halinde düzenlenmesine olanak tanır. Hiyerarşik ad alanı etkinleştirildiğinde, depolama hesabı analiz altyapılarına ve çerçevelerine aşina olan dosya sistemi semantiği ile nesne depolamanın ölçeklenebilirliğini ve uygun maliyetliliğini sağlar.

Hiyerarşik ad alanının avantajları

Aşağıdaki avantajlar, blob verileri üzerinde hiyerarşik ad alanı uygulayan dosya sistemleriyle ilişkilendirilir:

  • Atomik dizin düzenlemesi: Nesne, yol kesimlerini belirtmek için nesne adına eğik çizgi (/) ekleme kuralını benimseyerek yaklaşık bir dizin hiyerarşisini depolar. Bu kural nesneleri düzenlemek için çalışsa da, dizinleri taşıma, yeniden adlandırma veya silme gibi eylemler için hiçbir yardım sağlamaz. Gerçek dizinler olmadan, uygulamaların dizin düzeyinde görevlere ulaşmak için milyonlarca blobu işlemesi gerekir. Buna karşılık, hiyerarşik ad alanı bu görevleri tek bir girişi (üst dizin) güncelleştirerek işler.

    Bu çarpıcı iyileştirme özellikle birçok büyük veri analizi çerçevesi için önemlidir. Hive, Spark gibi araçlar. genellikle geçici konumlara çıktı yazın ve işin sonunda konumu yeniden adlandırın. Hiyerarşik ad alanı olmadan bu yeniden adlandırma işlemi genellikle analiz işleminin kendisinden daha uzun sürebilir. Daha düşük iş gecikmesi, analiz iş yükleri için daha düşük toplam sahip olma maliyetine (TCO) eşittir.

  • Tanıdık Arabirim Stili: Dosya sistemleri hem geliştiriciler hem de kullanıcılar tarafından iyi anlaşılır. Buluta geçiş yaptığınızda yeni bir depolama paradigması öğrenmenize gerek yoktur; Data Lake Storage 2. Nesil tarafından kullanıma sunulan dosya sistemi arabirimi, büyük ve küçük bilgisayarlar tarafından kullanılan paradigma ile aynıdır.

Nesne depolarının hiyerarşik ad alanını geçmişte desteklememiş olmasının nedenlerinden biri, hiyerarşik ad alanı sınırlarının ölçeklendirilmesidir. Ancak Data Lake Storage 2. Nesil hiyerarşik ad alanı doğrusal olarak ölçeklendirilir ve veri kapasitesini veya performansını düşürmez.

Hiyerarşik ad alanının etkinleştirilip etkinleştirilmeymeyeceğine karar verme

Hesabınızda hiyerarşik bir ad alanını etkinleştirdikten sonra, bunu düz bir ad alanına geri döndüremezsiniz. Bu nedenle, nesne deposu iş yüklerinizin doğasına göre hiyerarşik ad alanını etkinleştirmenin mantıklı olup olmadığını düşünün. Hiyerarşik ad alanını etkinleştirmenin iş yükleri, uygulamalar, maliyetler, hizmet tümleştirmeleri, araçlar, özellikler ve belgeler üzerindeki etkisini değerlendirmek için bkz. Azure Data Lake Storage 2. Nesil özelliklerle Azure Blob Depolama yükseltme.

Bazı iş yükleri hiyerarşik ad alanını etkinleştirerek herhangi bir avantaj elde etmeyebilir. Örnekler arasında yedeklemeler, görüntü depolama ve nesne düzenlemesinin nesnelerden ayrı olarak depolandığı diğer uygulamalar (örneğin: ayrı bir veritabanında).

Ayrıca Blob depolama özellikleri ve Azure hizmet ekosistemi desteği artmaya devam ederken, hiyerarşik ad alanına sahip hesaplarda henüz desteklenmeyen bazı özellikler ve Azure hizmetleri de vardır. Bkz. Bilinen Sorunlar.

Genel olarak, dizinleri işleyen dosya sistemleri için tasarlanmış depolama iş yükleri için hiyerarşik ad alanını açmanızı öneririz. Bu, öncelikli olarak analiz işlemeye yönelik tüm iş yüklerini içerir. Yüksek düzeyde kuruluş gerektiren veri kümeleri, hiyerarşik ad alanını etkinleştirerek de avantaj sağlar.

Hiyerarşik ad alanını etkinleştirme nedenleri bir TCO analizi tarafından belirlenir. Genel olarak, depolama hızlandırma nedeniyle iş yükü gecikme süresinde yapılan iyileştirmeler daha kısa süre için işlem kaynaklarını gerektirir. Hiyerarşik ad alanı tarafından etkinleştirilen atomik dizin düzenlemesi nedeniyle birçok iş yükü için gecikme süresi geliştirilebilir. Birçok iş yükünde işlem kaynağı toplam maliyetin %85'ini temsil eder > ve bu nedenle iş yükü gecikme süresinde düşük bir düşüş bile önemli miktarda TCO tasarrufu sağlar. Hiyerarşik ad alanının etkinleştirilmesinin depolama maliyetlerini artırdığı durumlarda bile, daha düşük işlem maliyetleri nedeniyle TCO hala düşürülmüştür.

Düz hiyerarşik ad alanına sahip hesaplar ile hiyerarşik ad alanına sahip hesaplar arasındaki veri depolama fiyatları, işlem fiyatları ve depolama kapasitesi rezervasyon fiyatlandırması farklarını analiz etmek için bkz. Azure Data Lake Storage 2. Nesil fiyatlandırması.

Sonraki adımlar