Delta Live Tables nedir?

Delta Live Tables güvenilir, sürdürülebilir ve test edilebilir veri işleme işlem hatları oluşturmaya yönelik bildirim temelli bir çerçevedir. Verileriniz üzerinde gerçekleştirilecek dönüştürmeleri tanımlarsınız ve Delta Live Tabloları görev düzenleme, küme yönetimi, izleme, veri kalitesi ve hata işlemeyi yönetir.

Dekont

Delta Live Tables, Premium planı gerektirir. Daha fazla bilgi için Databricks hesap ekibinize başvurun.

Veri işlem hatlarınızı bir dizi ayrı Apache Spark görevi kullanarak tanımlamak yerine, sistemin oluşturup güncel tutması gereken akış tablolarını ve gerçekleştirilmiş görünümleri tanımlarsınız. Delta Live Tables, her işleme adımı için tanımladığınız sorgulara göre verilerinizin nasıl dönüştürüldüğünü yönetir. Ayrıca, beklenen veri kalitesini tanımlamanıza ve bu beklentilerin başarısız olduğu kayıtların nasıl işleneceğini belirtmenize olanak tanıyan Delta Live Tables beklentileriyle veri kalitesini zorunlu tutabilirsiniz.

DELTA Live Tables ile ETL işlem hatlarınızı oluşturmanın ve çalıştırmanın avantajları hakkında daha fazla bilgi edinmek için Delta Live Tables ürün sayfasına bakın.

Delta Live Tables veri kümeleri nelerdir?

Delta Live Tables veri kümeleri, bildirim temelli sorguların sonuçları olarak tutulan akış tabloları, gerçekleştirilmiş görünümler ve görünümlerdir. Aşağıdaki tabloda her veri kümesinin nasıl işlendiği açıklanmaktadır:

Veri kümesi türü Kayıtlar tanımlı sorgular aracılığıyla nasıl işlenir?
Akış tablosu Her kayıt tam olarak bir kez işlenir. Bu, yalnızca ekleme kaynağı olduğunu varsayar.
Gerçekleştirilmiş görünümler Kayıtlar, geçerli veri durumunun doğru sonuçlarını döndürmek için gerektiği şekilde işlenir. Gerçekleştirilmiş görünümler güncelleştirmeler, silmeler veya toplamalar içeren veri kaynakları ve değişiklik veri yakalama işlemi (CDC) için kullanılmalıdır.
Görünümler Görünüm her sorgulandığında kayıtlar işlenir. Genel veri kümelerinde yayımlanmaması gereken ara dönüştürmeler ve veri kalitesi denetimleri için görünümleri kullanın.

Aşağıdaki bölümlerde her veri kümesi türünün daha ayrıntılı açıklamaları sağlanır. Veri işleme gereksinimlerinizi uygulamak üzere veri kümesi türlerini seçme hakkında daha fazla bilgi edinmek için bkz . Görünümler, gerçekleştirilmiş görünümler ve akış tabloları ne zaman kullanılır?

Akış tablosu

Akış tablosu, akış veya artımlı veri işleme için ek desteğe sahip bir Delta tablosudur. Akış tabloları, her satırı yalnızca bir kez işleyerek büyüyen bir veri kümesini işlemenize olanak tanır. Çoğu veri kümesi zaman içinde sürekli büyüdüğü için akış tabloları çoğu alım iş yükü için iyidir. Akış tabloları, veri güncelliği ve düşük gecikme süresi gerektiren işlem hatları için idealdir. Akış tabloları, yeni veriler geldikçe artımlı olarak hesaplanabilir ve her güncelleştirmede tüm kaynak verileri tam olarak yeniden derlemeye gerek kalmadan sonuçları güncel tutarak büyük ölçekli dönüşümler için de yararlı olabilir. Akış tabloları yalnızca ekli veri kaynakları için tasarlanmıştır.

Dekont

Varsayılan olarak akış tabloları yalnızca ekleme veri kaynakları gerektirir, ancak akış kaynağı güncelleştirme veya silme gerektiren başka bir akış tablosu olduğunda, skipChangeCommits bayrağıyla bu davranışı geçersiz kılabilirsiniz.

Gerçekleştirilmiş görünüm

Gerçekleştirilmiş görünüm (veya canlı tablo), sonuçların önceden derlendiği bir görünümdür. Gerçekleştirilmiş görünümler, içinde bulundukları işlem hattının güncelleştirme zamanlamasına göre yenilenir. Gerçekleştirilmiş görünümler, girişteki değişiklikleri işleyebildiği için güçlüdür. İşlem hattı her güncelleştirildiğinde, sorgu sonuçları uyumluluk, düzeltmeler, toplamalar veya genel CDC nedeniyle oluşan yukarı akış veri kümelerindeki değişiklikleri yansıtacak şekilde yeniden hesaplanır. Delta Live Tables, gerçekleştirilmiş görünümleri Delta tabloları olarak uygular, ancak güncelleştirmelerin verimli bir şekilde uygulanmasıyla ilişkili karmaşıklıkları soyutlayarak kullanıcıların sorgu yazmaya odaklanmasını sağlar.

Görünümler

Azure Databricks'teki tüm görünümler sorgulandığında kaynak veri kümelerinden elde edilen sonuçları hesaplar ve kullanılabilir olduğunda önbelleğe alma iyileştirmelerinden yararlanılır. Delta Live Tables katalogda görünüm yayımlamaz, bu nedenle görünümlere yalnızca tanımlandığı işlem hattı içinde başvurulabilir. Görünümler, son kullanıcılara veya sistemlere sunulmaması gereken ara sorgular olarak kullanışlıdır. Databricks, veri kalitesi kısıtlamaları uygulamak veya birden çok aşağı akış sorgusuna yol gösteren veri kümelerini dönüştürmek ve zenginleştirmek için görünümlerin kullanılmasını önerir.

Delta Live Tablolarında ilk veri kümelerinizi bildirme

Delta Live Tables, Python ve SQL için yeni söz dizimi sağlar. Delta Live Tables söz dizimini kullanmaya başlamak için aşağıdaki öğreticilerden birini kullanın:

Dekont

Delta Live Tables veri kümesi tanımlarını güncelleştirme işlemeden ayırır ve Delta Live Tables not defterleri etkileşimli yürütme için tasarlanmamıştır. Bkz . Delta Live Tables işlem hattı nedir?.

Delta Live Tables işlem hattı nedir?

İşlem hattı , Delta Live Tables ile veri işleme iş akışlarını yapılandırmak ve çalıştırmak için kullanılan ana birimdir.

İşlem hattı, Python veya SQL kaynak dosyalarında bildirilen gerçekleştirilmiş görünümler ve akış tabloları içerir. Delta Live Tables, bu tablolar arasındaki bağımlılıkları çıkararak güncelleştirmelerin doğru sırada gerçekleşmesini sağlar. Delta Live Tables, her veri kümesi için geçerli durumu istenen durumla karşılaştırır ve verimli işleme yöntemlerini kullanarak veri kümeleri oluşturmaya veya güncelleştirmeye devam eder.

Delta Live Tables işlem hatlarının ayarları iki geniş kategoriye ayrılır:

  1. Veri kümelerini bildirmek için Delta Live Tables söz dizimini kullanan not defterleri veya dosyalar (kaynak kodu veya kitaplıklar olarak bilinir) koleksiyonunu tanımlayan yapılandırmalar.
  2. İşlem hattı altyapısını denetleen yapılandırmalar, güncelleştirmelerin nasıl işlendiği ve tabloların çalışma alanına nasıl kaydedildiği.

Yapılandırmaların çoğu isteğe bağlıdır, ancak bazıları özellikle üretim işlem hatlarını yapılandırırken dikkatli olunmalarını gerektirir. Bunlar aşağıdakileri içerir:

  • Verileri işlem hattı dışında kullanılabilir hale getirmek için, Hive meta veri deposunda yayımlamak üzere bir hedef şema veya Unity Kataloğu'nda yayımlamak üzere hedef bir katalog ve hedef şema bildirmeniz gerekir.
  • Veri erişim izinleri, yürütme için kullanılan küme aracılığıyla yapılandırılır. Kümenizin, belirtilmişse veri kaynakları ve hedef depolama konumu için yapılandırılmış uygun izinlere sahip olduğundan emin olun.

İşlem hatları için kaynak kodu yazmak üzere Python ve SQL kullanma hakkında ayrıntılı bilgi için bkz . Delta Live Tables SQL dil başvurusu ve Delta Live Tables Python dil başvurusu.

İşlem hattı ayarları ve yapılandırmaları hakkında daha fazla bilgi için bkz . Delta Live Tables için işlem hattı ayarlarını yapılandırma.

İlk işlem hattınızı dağıtma ve güncelleştirmeleri tetikleme

Delta Live Tables ile verileri işlemeden önce bir işlem hattı yapılandırmanız gerekir. İşlem hattı yapılandırıldıktan sonra işlem hattınızdaki her veri kümesinin sonuçlarını hesaplamak için bir güncelleştirme tetikleyebilirsiniz. Delta Live Tables işlem hatlarını kullanmaya başlamak için bkz . Öğretici: İlk Delta Live Tables işlem hattınızı çalıştırma.

İşlem hattı güncelleştirmesi nedir?

İşlem hatları, bir güncelleştirme başlattığınızda altyapıyı dağıtır ve veri durumunu yeniden derler. Bir güncelleştirme aşağıdakileri yapar:

  • Doğru yapılandırmaya sahip bir küme başlatır.
  • Tanımlanan tüm tabloları ve görünümleri bulur ve geçersiz sütun adları, eksik bağımlılıklar ve söz dizimi hataları gibi analiz hatalarını denetler.
  • Kullanılabilir en son verilerle tabloları ve görünümleri oluşturur veya güncelleştirir.

İşlem hatları, kullanım örneğinizin maliyet ve gecikme süresi gereksinimlerine bağlı olarak sürekli olarak veya bir zamanlamaya göre çalıştırılabilir. Bkz . Delta Live Tables işlem hattında güncelleştirme çalıştırma.

Delta Live Tabloları ile veri alma

Delta Live Tables, Azure Databricks'te kullanılabilen tüm veri kaynaklarını destekler.

Databricks, çoğu alım kullanım örneği için akış tablolarının kullanılmasını önerir. Databricks, bulut nesne depolama alanına gelen dosyalar için Otomatik Yükleyici'yi önerir. Çoğu ileti veriyosundan Delta Live Tables ile doğrudan veri alabilirsiniz.

Bulut depolamaya erişimi yapılandırma hakkında daha fazla bilgi için bkz . Bulut depolama yapılandırması.

Otomatik Yükleyici tarafından desteklenmeyen biçimler için Python veya SQL kullanarak Apache Spark tarafından desteklenen herhangi bir biçimi sorgulayabilirsiniz. Bkz . Delta Live Tabloları ile veri yükleme.

Veri kalitesini izleme ve uygulama

Bir veri kümesinin içeriğinde veri kalitesi denetimleri belirtmek için beklentileri kullanabilirsiniz. CHECK Geleneksel bir veritabanındaki kısıtlamadan farklı olarak, kısıtlamada başarısız olan kayıtların eklenmesini engelleyen bir kısıtlamadan farklı olarak, veri kalitesi gereksinimlerinde başarısız olan veriler işlenirken beklentiler esneklik sağlar. Bu esneklik, karmaşık olmasını beklediğiniz verileri ve katı kalite gereksinimlerini karşılaması gereken verileri işlemenizi ve depolamanızı sağlar. Bkz . Delta Live Tablolarıyla veri kalitesini yönetme.

Delta Live Tables, Delta Lake'in işlevselliğini genişletir. Delta Live Tables tarafından oluşturulan ve yönetilen tablolar Delta tabloları olduğundan, Delta Lake tarafından sağlanan garantiler ve özellikler aynıdır. Bkz . Delta Lake nedir?.

Delta Live Tables, Delta Lake'te ayarlanabilen birçok tablo özelliğine ek olarak çeşitli tablo özellikleri ekler. Bkz . Delta Live Tables özellik başvurusu ve Delta tablosu özellikleri başvurusu.

Delta Live Tables tabloları nasıl oluşturulur ve yönetilir?

Azure Databricks, Delta Live Tables ile oluşturulan tabloları otomatik olarak yönetir ve bir tablonun geçerli durumunu doğru hesaplamak ve bir dizi bakım ve iyileştirme görevi gerçekleştirmek için güncelleştirmelerin nasıl işlenmesi gerektiğini belirler.

Çoğu işlem için Delta Live Tablolarının hedef tabloya yönelik tüm güncelleştirmeleri, eklemeleri ve silmeleri işlemesine izin vermelisiniz. Ayrıntılar ve sınırlamalar için bkz . El ile silmeleri veya güncelleştirmeleri koruma.

Delta Live Tables tarafından gerçekleştirilen bakım görevleri

Delta Live Tables, bir tablonun güncelleştirilmesini izleyen 24 saat içinde bakım görevlerini gerçekleştirir. Bakım, tabloların eski sürümlerini kaldırarak sorgu performansını artırabilir ve maliyeti azaltabilir. Varsayılan olarak, sistem bir tam OPTIMIZE işlemi gerçekleştirir ve ardından VACUUM gelir. Tablonun tablo özelliklerini ayarlayarak pipelines.autoOptimize.managed = falsebir tablo için OPTIMIZE özelliğini devre dışı bırakabilirsiniz. Bakım görevleri yalnızca işlem hattı güncelleştirmesi bakım görevleri zamanlanana kadar 24 saat içinde çalıştırıldığında gerçekleştirilir.

Sınırlamalar

Aşağıdaki sınırlamalar geçerlidir:

  • Delta Live Tables tarafından oluşturulan ve güncelleştirilen tüm tablolar Delta tablolarıdır.
  • Delta Live Tables tabloları yalnızca bir kez tanımlanabilir, yani tüm Delta Live Tables işlem hatlarında yalnızca tek bir işlemin hedefi olabilir.
  • Kimlik sütunları hedefi APPLY CHANGES INTO olan tablolarda desteklenmez ve gerçekleştirilmiş görünümler için güncelleştirmeler sırasında yeniden hesaplanabilir. Bu nedenle, Databricks yalnızca Delta Live Tablolarında akış tablolarına sahip kimlik sütunlarının kullanılmasını önerir. Bkz . Delta Lake'te kimlik sütunlarını kullanma.
  • Azure Databricks çalışma alanı 100 eşzamanlı işlem hattı güncelleştirmesi ile sınırlıdır.

Ek kaynaklar