Azure Databricks'teki tüm Delta öğeleri nelerdir?
Bu makale, Azure Databricks'te toplu olarak markalı Delta teknolojilerine giriş niteliğindedir. Delta, Delta Lake açık kaynak projesiyle ilgili veya projesindeki teknolojileri ifade eder.
Bu makale şunları yanıtlar:
- Azure Databricks'teki Delta teknolojileri nelerdir?
- Ne yaparlar? Ya da ne için kullanılırlar?
- Nasıl birbirlerinden ayrıdırlar?
Delta öğeleri ne için kullanılır?
Delta, Databricks lakehouse'da veri ve tablo depolamanın temeli olan Delta Lake ile sunulan bir terimdir. Delta Lake, ACID işlemleri ve ölçeklenebilir meta veri işleme için dosya tabanlı işlem günlüğüyle Parquet veri dosyalarını genişleterek işlem gerçek zamanlı ve toplu büyük verileri işlemeye yönelik birleşik bir veri yönetim sistemi olarak düşünüldü.
Delta Lake: Göl evi için işletim sistemi veri yönetimi
Delta Lake, bulut depolama alanında depolanan verilerin (AWS S3, Azure Depolama ve GCS'de) üzerine işlemsel depolama katmanı ekleyerek veri göllerine güvenilirlik getiren açık kaynaklı bir depolama katmanıdır. ACID işlemlerine, veri sürümü oluşturma ve geri alma özelliklerine olanak tanır. Hem toplu hem de akış verilerini birleşik bir şekilde işlemenizi sağlar.
Delta tabloları bu depolama katmanının üzerinde oluşturulur ve tablo soyutlaması sağlayarak SQL ve DataFrame API'sini kullanarak büyük ölçekli yapılandırılmış verilerle çalışmayı kolaylaştırır.
Delta tabloları: Varsayılan veri tablosu mimarisi
Delta tablosu, Azure Databricks'teki varsayılan veri tablosu biçimidir ve Delta Lake açık kaynak veri çerçevesinin bir özelliğidir. Delta tabloları genellikle verilerin akış yoluyla veya büyük toplu işlemler aracılığıyla alındığı veri gölleri için kullanılır.
Bkz.
- Delta Lake hızlı başlangıcı: Tablo oluşturma
- Delta Lake tablolarını güncelleştirme ve değiştirme.
- DeltaTable sınıfı: Delta tablolarıyla program aracılığıyla etkileşime yönelik ana sınıf.
Delta Live Tabloları: Veri işlem hatları
Delta Live Tables, birçok Delta tablosu arasındaki veri akışını yönetir ve bu sayede veri mühendislerinin ETL geliştirme ve yönetimi üzerindeki çalışmalarını basitleştirir. İşlem hattı, Delta Live Tables için ana yürütme birimidir. Delta Live Tables bildirim temelli işlem hattı geliştirme, gelişmiş veri güvenilirliği ve bulut ölçeğinde üretim operasyonları sunar. Kullanıcılar aynı tabloda hem toplu işlem hem de akış işlemleri gerçekleştirebilir ve veriler hemen sorgulanabilir. Verileriniz üzerinde gerçekleştirilecek dönüştürmeleri tanımlarsınız ve Delta Live Tables görev düzenleme, küme yönetimi, izleme, veri kalitesi ve hata işlemeyi yönetir. Delta Live Tabloları Gelişmiş Otomatik Ölçeklendirme, hızlı ve öngörülemeyen akış iş yüklerini işleyebilir.
Delta Live Tables öğreticisine bakın.
Delta tabloları ile Delta Live Tables karşılaştırması
Delta tablosu, verileri tablolarda depolamanın bir yoludur; Delta Live Tables ise verilerin bu tablolar arasında bildirimli olarak nasıl aktığını açıklamanıza olanak tanır. Delta Live Tables, birçok delta tablosunu oluşturup güncel tutarak yöneten bildirim temelli bir çerçevedir. Kısacası Delta tabloları bir veri tablosu mimarisi, Delta Live Tabloları ise bir veri işlem hattı çerçevesidir.
Delta: Açık kaynak mı yoksa özel mi?
Azure Databricks platformunun gücü, müşterileri özel araçlara kilitlememesidir: Teknolojinin büyük bir kısmı Azure Databricks'in katkıda bulunduğu açık kaynak projelerle desteklenir.
Delta OSS projeleri şunlara örnektir:
- Delta Lake projesi: Bir göl evi için açık kaynak depolama.
- Delta Sharing protokolü: Güvenli veri paylaşımı için protokolü açın.
Delta Live Tables, Azure Databricks'te özel bir çerçevedir.
Azure Databricks'te diğer Delta öğeleri nelerdir?
Aşağıda, adında Delta bulunan diğer özelliklerin açıklamaları yer almaktadır.
Delta Paylaşımı
Güvenli veri paylaşımı için açık bir standart olan Delta Sharing, işlem platformlarından bağımsız olarak kuruluşlar arasında veri paylaşımına olanak tanır.
Delta altyapısı
Databricks'te bulunan Delta Lake açık kaynak teknolojisini kullanan büyük veriler için sorgu iyileştirici. Delta altyapısı, verilere hesaplama göndererek Spark SQL, Databricks SQL ve DataFrame işlemlerinin performansını iyileştirir.
Delta Lake işlem günlüğü (AKA DeltaLogs)
Kullanıcıların tabloda yaptığı tüm değişiklikleri ve Delta Lake'in bölünmezliği garanti ettiği mekanizmayı izleyen tek bir gerçeklik kaynağı. GitHub'da Delta işlem günlüğü protokolüne bakın.
İşlem günlüğü, Delta Lake'i anlamanın anahtarıdır çünkü en önemli özelliklerinin birçoğunda çalışan ortak iş parçacığıdır:
- ACID işlemleri
- Ölçeklenebilir meta veri işleme
- Zaman yolculuğu
- Ve daha fazlası.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin