Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, bakımını yaptığınız meta verilerden işlem hatları oluşturmaya yönelik araçlar sağlayan bir Databricks Labs projesi olan dlt-meta tanıtmaktadır.
Uyarı
Databrickslabs GitHub hesabındaki tüm projeler gibi açık kaynak dlt-meta projesi yalnızca araştırma amacıyla mevcuttur. Azure Databricks bunu desteklemez veya hizmet düzeyi sözleşmeleri (SLA) sağlamaz. Bu projeyle ilgili sorunlar için Azure Databricks destek biletleri göndermeyin. Bunun yerine, zaman izni olarak gözden geçirilecek bir GitHub sorunu oluşturun.
dlt-meta nedir?
Lakeflow Spark Bildirimli İşlem Hatları, bildirimli olarak bir tablo belirtmenize olanak tanır ve kaynak veriler değiştikçe hem tabloyu oluşturan hem de güncel tutan bir işlem hattında akış oluşturur. Ancak, kuruluşunuzda yüzlerce tablo varsa, bu işlem hatlarını oluşturmak ve yönetmek zaman alır ve tutarsız uygulamalara yol açabilir.
dlt-meta projesi, Lakeflow Spark Bildirimli İşlem Hatları ile çalışmak üzere tasarlanmış meta veri temelli bir meta programlama çerçevesidir. Bu çerçeve, bir dizi JSON ve YAML dosyasında kaydedilen meta verilerden yararlanarak bronz ve gümüş veri işlem hatlarının otomasyonunu sağlar. dlt-meta altyapısı, meta verilerinizde açıklanan akışlar için dinamik olarak işlem hattı kodu oluşturmak için Python kodunu kullanır. İşlem hatlarınız hakkındaki meta verileri oluşturursunuz ve dlt-meta işlem hatlarınızı oluşturur.
Mantığınız tek bir yerde (meta veriler) merkezi hale getirildiğinde sisteminiz daha hızlı, yeniden kullanılabilir ve bakımı daha kolaydır.
Uyarı
dlt-meta projesi, Azure Databricks'teki eski Delta Live Tables özelliği için adlandırılmıştır. Delta Live Tablolarının yerini Lakeflow Spark Bildirimli İşlem Hatları almıştır ve dlt-meta, Lakeflow Spark Bildirimli İşlem Hatları ile çalışır.
dlt-meta'nın avantajları
dlt-meta için iki ana kullanım örneği vardır:
- Çok sayıda tabloyu kolayca alın ve temizleyin.
- Birden çok işlem hattında ve kullanıcıda veri mühendisliği standartlarını zorunlu kılma.
Meta veri temelli bir yaklaşım kullanmanın avantajları şunlardır:
- Meta verilerin bakımı Python veya SQL kodu bilgisi olmadan yapılabilir.
- Kod yerine meta verilerin korunması daha az ek yük gerektirir ve hataları azaltır.
- Kod dlt-meta tarafından oluşturulur, bu nedenle tutarlı kalır ve işlem hatları ile yayımlanan tablolar arasında daha az özel koda sahiptir.
- Verilerinizi en verimli şekilde güncelleştirmek için gereken işlem hattı sayısını oluşturarak tabloları meta veriler içindeki işlem hatları halinde kolayca gruplandırabilirsiniz.
Nasıl çalışır?
Aşağıdaki görüntüde dlt-meta sistemine genel bir bakış gösterilmektedir:
- Kaynak dosyalarınızı ve çıkışlarınızı, kalite kurallarınızı ve gerekli işlemeyi belirtmek için meta veri dosyalarını dlt-meta'ya giriş olarak oluşturursunuz.
- dlt-meta altyapısı, ekleme dosyalarını DataflowSpec adlı bir veri akışı belirtiminde derler ve daha sonra kullanmak üzere depolar.
- dlt-meta altyapısı, bronz tablolarınızı oluşturan işlem hatları oluşturmak için DataflowSpec'i kullanır. Bu, meta veri dosyalarınızı kullanarak kaynak verileri okur ve kalite kurallarınızla eşleşecek doğru veri beklentilerini uygular.
- dlt-meta altyapısı daha sonra DataflowSpec'i kullanarak gümüş tablolarınızı oluşturan ek işlem hatları oluşturur. Bu işlem, sisteminiz için uygun dönüştürmeleri ve diğer işlemleri uygulamak için meta veri dosyalarınızı kullanır.
Kaynak verileriniz güncelleştirildikçe çıkışı güncel tutmak için dlt-meta tarafından oluşturulan işlem hatlarını çalıştırırsınız.
Nasıl başlarım?
dlt-meta kullanmak için şunları kullanmanız gerekir:
- dlt-meta çözümünü dağıtın ve yapılandırın.
- Bronz ve gümüş katmanlı tablolarınız için meta verileri hazırlayın.
- Meta verileri eklemek için bir iş oluşturun.
- Tablolarınız için işlem hatları oluşturmak için meta verileri kullanın.
GitHub'da dlt-meta belgelerinde bu işleme başlamanıza yardımcı olacak bir öğretici vardır. Daha fazla bilgi için bkz. GitHub'da dlt-meta kullanmaya başlama .