Veri standardizasyonu

Makale
01/10/2024

Veriler data lake hesaplarına çeşitli biçimlerde ulaşır. Bu biçimler JSON, gibi okunabilir biçimler içerir. CSV veya XML dosyaları ve .tar veya .gz gibi sıkıştırılmış ikili biçimler. Gelen veriler, birkaç düzenlenmiş dosyadan sql tablosunun tamamını dışarı aktarmaya kadar birçok boyutta da gelir. Veriler, IoT çözümünden gelen gerçek zamanlı olaylar gibi birkaç kb'lık küçük dosyalar olarak da gelebilir.

Azure Data Lake Storage 2. Nesil, kısıtlama olmadan her tür veri için depolamayı desteklese de işlem hattı verimliliğinin işlenmesini sağlamak ve maliyetleri iyileştirmek için veri biçimlerinizi dikkatli bir şekilde dikkate almanız gerekir.

Birçok kuruluş artık alma biçimlerini standartlaştırıp işlemi depolamadan ayırarak. Bu nedenle Delta Lake biçimi, zenginleştirme katmanına veri alımı için tercih edilen standart haline gelmiştir. Veri uygulama ekibiniz zenginleştirme katmanından verileri kullanım örneğini yansıtan bir biçimde hizmet verebilir.

Dekont

Delta Lake'i kullanarak ilk veri alımı ve zenginleştirme katmanı için hem toplu hem de akış kullanım örneklerini destekleyin.

Bu makalede Delta Lake'e, performansına ve uyumluluk desteğine ulaşmanıza nasıl yardımcı olduğu ve kaynaktan zenginleştirme katmanına aktıkça verilerinizi standartlaştırmaya yönelik genel bir bakış sunulmaktadır.

Delta Lake

Delta Lake, ACID (bölünmezlik, tutarlılık, yalıtım ve dayanıklılık) işlemlerini büyük veri iş yüklerine ve Apache Spark'a getiren açık kaynaklı bir depolama katmanıdır. Hem Azure Synapse Analytics hem de Azure Databricks, Linux Foundation Delta Lake ile uyumludur.

Delta Lake anahtar özellikleri

Özellik	Açıklama
ACID İşlemleri	Veri gölleri genellikle birden çok işlem ve işlem hattı aracılığıyla doldurulur ve bazıları okumalarla eşzamanlı olarak veri yazar. Veri mühendisleri Delta lake ve işlemler kullanılmadan önce veri bütünlüğünü sağlamak için el ile hataya açık bir işlemden geçerdi. Delta Lake, veri göllerine tanıdık ACID işlemleri getirir. En güçlü yalıtım düzeyini, serileştirilebilirliği sağlar. Daha fazla bilgi için bkz . Delta Lake'e Atlama: İşlem Günlüğünü Açma.
Ölçeklenebilir Meta Veri İşleme	Büyük verilerde meta veriler bile "büyük veri" olabilir. Delta Lake meta verileri diğer verilerle aynı şekilde ele alır. Tüm meta verileri işlemek için Spark'ın dağıtılmış işlem gücünü kullanır. Bu nedenle Delta Lake, milyarlarca bölüm ve dosya içeren petabayt ölçeğindeki tabloları kolayca işleyebilir.
Zaman Yolculuğu (veri sürümü oluşturma)	Bir değişikliği "geri alma" veya önceki bir sürüme geri dönme özelliği, işlemlerin önemli bir özelliğidir. Delta Lake, denetimler, geri almalar veya denemeleri yeniden oluşturmak için verilerin önceki sürümlerine geri dönmenizi sağlayan verilerin anlık görüntülerini sağlar. Daha fazla bilgi için bkz . Büyük Ölçekli Veri Gölleri için Delta Lake Time Travel tanıtımı.
Biçim Aç	Delta Lake'in temel biçimi olan Apache Parquet, verimli sıkıştırma ve kodlama düzenleri uygulamanıza olanak tanır.
Birleşik Batch ve Akış Kaynağı ve Havuzu	Delta Lake'teki bir tablo aynı anda bir toplu iş tablosu, akış kaynağı ve havuzudur. Veri alma akışı, toplu geçmiş doldurma ve etkileşimli sorgular kullanıma açık şekilde çalışır.
Şema Zorlama	Şema zorlama, veri tutarsızlığını hatalı verilerden engelleyen doğru veri türlerine ve gerekli sütunlara sahip olduğunuzdan emin olmanıza yardımcı olur. Daha fazla bilgi için bkz . Delta Lake'e Atlama: Şema Zorlama ve Evrim
Şema Evrimi	Delta Lake, geçiş DDL'sini yazmanıza gerek kalmadan tablo şemasında otomatik olarak uygulanan değişiklikler yapmanıza olanak tanır. Daha fazla bilgi için bkz . Delta Lake'e Atlama: Şema Zorlama ve Evrim
Denetim Geçmişi	Delta Lake işlem günlüğü, verilerinizde yapılan her değişiklikle ilgili ayrıntıları kaydeder. Bu kayıtlar tüm değişikliklerin tam denetim kaydını sağlar.
Güncelleştirmeler ve Silmeler	Delta Lake, çeşitli işlevler için Scala, Java, Python ve SQL API'lerini destekler. Birleştirme, güncelleştirme ve silme işlemleri desteği, uyumluluk gereksinimlerini karşılamanıza yardımcı olur. Daha fazla bilgi için bkz . Delta Lake 0.6.1 Sürümünü Duyurma, Delta Lake 0.7 Sürümünü Duyurma ve Python API'lerini kullanarak Delta Lake Tablolarında Basit, Güvenilir Upsert'lar ve Silmeler (birleştirme, güncelleştirme ve silme komutları için kod parçacıkları içerir).
Apache Spark API ile %100 Uyumlu	Geliştiricileriniz Delta Lake'i mevcut veri işlem hatlarında en az değişiklikle kullanabilir, çünkü mevcut Spark uygulamalarıyla tam olarak uyumludur.

Daha fazla bilgi için bkz . Delta Lake Project.

Tüm belgeler için Delta Lake Belgeleri Sayfasını ziyaret edin

Performans

Çok sayıda küçük dosya kullanılması genellikle iyi olmayan performansa ve artan okuma/liste işlemlerinden kaynaklanan maliyetlerin artmasına neden olur. Azure Data Lake Storage 2. Nesil, analiz işlerinizin daha hızlı ve daha düşük maliyetle çalışmasını sağlayan daha büyük dosyalar için iyileştirilmiştir.

Delta Lake, dosya yönetimiyle performansı iyileştirmenize yardımcı olabilecek birçok özellik içerir.

Örnekler şunları içerir:

İşlem günlüğü pahalı LIST işlemlerini en aza indirir.
Z Sıralama (çok boyutlu kümeleme), sorgu filtreleriniz için iyileştirilmiş koşul göndermeyi etkinleştirir.
Yerel önbelleğe alma ve sorgu iyileştirmeleri, ihtiyacınız olan depolama tarama miktarını azaltır. Daha fazla bilgi için bkz . Önbelleğe alma ile performansı iyileştirme.
OPTIMIZE küçük dosyaları daha büyük dosyalar halinde birleştirir.

Veri tazeliğini ve performansını korumak için bu iyileştirmeleri veri yükleme işleminizin bir parçası yapın.

Data lake bölümleme

Veri bölümleme, büyük ölçekli verileri yönetebilmeniz ve veri erişimini denetleyebilmeniz için veri deponuzdaki verileri düzenlemeyi içerir. Bölümleme ölçeklenebilirliği geliştirebilir, çekişmeyi azaltabilir ve performansı iyileştirebilir.

Data Lake'inizi bölümlere ayırırken kurulumunuzun yapıldığından emin olun:

Güvenliği tehlikeye atmıyor
Net yalıtıma sahiptir ve veri yetkilendirme modelinizle uyumlu
Veri alımı sürecinize iyi uyum sağlar
En iyi veri erişimi için iyi tanımlanmış bir yola sahiptir
Yönetim ve bakım görevlerini destekler

Genel uygulamalar

Veri bölümleme tasarımına yönelik genel yöntemler şunlardır:

Güvenlik etkinize erken odaklanın ve veri bölümlerinizi yetkilendirmeyle birlikte tasarlayın.
Güvenlik karşılığında veri yedekliliğine izin vermek isteyebilirsiniz.- Bir adlandırma kuralı tanımlayın ve buna uyun.
Birden çok klasörü iç içe yerleştirebilirsiniz, ancak her zaman tutarlı tutabilirsiniz.
Klasör yapılarınıza ve dosya adlarınıza bir time öğesi ekleyin.
Klasör yapınızı tarih bölümleriyle başlatmayın. Tarihleri alt klasör düzeyinde tutmak daha iyidir.
Karma dosya biçimlerini veya farklı veri ürünlerini tek bir klasör yapısında birleştirmeyin.

Bahşiş

Klasör yapılarınızın erişim desenlerini ve uygun dosya boyutlarını iyileştirebilen bölümleme stratejileri olmalıdır. Seçilen bölgelerde, en iyi alma temelinde yapıyı planlayın, yüksek kardinaliteye sahip bir bölüm anahtarı seçerken dikkatli olun, bu da fazla bölümlemeye yol açar ve bu da en iyi olmayan dosya boyutlarına yol açar.

Data Lake bölgeleri hakkında daha fazla bilgi için bkz. Data lake bölgeleri ve kapsayıcıları

Uyumluluk desteği

Delta Lake, veri gölünüzün üzerine yapılandırılmış veri yönetimi sağlamak için bir işlem katmanı ekler. Bu ekleme, tüketici isteği üzerine kişisel bilgileri ("kişisel veriler" olarak da bilinir) bulup kaldırma becerinizi önemli ölçüde basitleştirebilir ve hızlandırabilir. İşlem katmanı DELETE, UPDATE ve MERGE gibi işlemleri destekler. Daha fazla bilgi için bkz . En iyi yöntemler: Delta Lake kullanarak GDPR uyumluluğu.

Özet

Bu makalede listelenen veri standartlaştırmalarını platformunuza uygulayın. Delta Lake biçimiyle başlayın, ardından iyileştirme ve uyumluluk için işlemler eklemeye başlayın. İyileştirme yollarınızdan bazılarını bir zamanlamaya göre çalıştıran bir hizmet oluşturmaya veya kişisel bilgileri kaldıran bir uyumluluk hizmeti oluşturmaya karar vekleyebilirsiniz.

Sonraki adımlar

Ortak Veri Modeli ve Sektör Veri Modelleri

Aracılığıyla paylaş