Delta Lake nedir?

Delta Lake, Databricks Lakehouse Platformu'nda veri ve tablo depolamak için temel sağlayan iyileştirilmiş depolama katmanıdır. Delta Lake, ACID işlemleri ve ölçeklenebilir meta veri işleme için Parquet veri dosyalarını dosya tabanlı işlem günlüğüyle genişleten açık kaynak bir yazılımdır. Delta Lake, Apache Spark API'leriyle tam olarak uyumludur ve Yapılandırılmış Akış ile sıkı tümleştirme için geliştirilmiştir. Bu sayede hem toplu işlem hem de akış işlemleri için tek bir veri kopyasını kolayca kullanabilir ve büyük ölçekte artımlı işleme olanağına sahip olabilirsiniz.

Delta Lake, Azure Databricks'te tüm işlemler için varsayılan depolama biçimidir. Aksi belirtilmedikçe, Azure Databricks'te tüm tablolar Delta tablolarıdır. Databricks başlangıçta Delta Lake protokolunu geliştirdi ve açık kaynak projesine etkin bir şekilde katkıda bulunmaya devam ediyor. Databricks Lakehouse Platformu'ndaki iyileştirmelerin ve ürünlerin çoğu Apache Spark ve Delta Lake tarafından sağlanan garantileri temel alır. Azure Databricks'te iyileştirmeler hakkında bilgi için bkz. Azure Databricks'te iyileştirme önerileri.

Delta Lake SQL komutları hakkında başvuru bilgileri için bkz . Delta Lake deyimleri.

Delta Lake işlem günlüğü, günlüğü okumak için herhangi bir sistem tarafından kullanılabilecek iyi tanımlanmış bir açık protokole sahiptir. Bkz . Delta İşlem Günlüğü Protokolü.

Delta Lake'i kullanmaya başlama

Azure Databricks'te tüm tablolar varsayılan olarak Delta tablolarıdır. Apache Spark DataFrames veya SQL kullanıyor olun, delta lake'in tüm avantajlarından yalnızca verilerinizi varsayılan ayarlarla lakehouse'a kaydederek elde edersiniz.

Tablo oluşturma, verileri okuma, yazma ve güncelleştirme gibi temel Delta Lake işlemlerine örnek olarak bkz . Öğretici: Delta Lake.

Databricks'in Delta Lake için en iyi yöntemlere yönelik birçok önerisi vardır.

Verileri Delta Lake'e dönüştürme ve alma

Azure Databricks, lakehouse'unuza veri yüklemeyi hızlandırmak ve basitleştirmek için bir dizi ürün sağlar.

Alım seçeneklerinin tam listesi için bkz . Azure Databricks Lakehouse'a veri yükleme.

Delta Lake tablolarını güncelleştirme ve değiştirme

Delta Lake ile atomik işlemler, verileri ve meta verileri güncelleştirmek için birçok seçenek sağlar. Databricks, tablolarınızın bozulmasını önlemek için Delta Lake dosya dizinlerindeki veri ve işlem günlüğü dosyalarıyla doğrudan etkileşime geçmekten kaçınmanızı önerir.

Delta Lake'te artımlı ve akış iş yükleri

Delta Lake, Azure Databricks'te Yapılandırılmış Akış için iyileştirilmiştir. Delta Live Tabloları , basitleştirilmiş altyapı dağıtımı, gelişmiş ölçeklendirme ve yönetilen veri bağımlılıklarıyla yerel özellikleri genişletir.

Tablonun önceki sürümlerini sorgulama

Delta tablosuna yapılan her yazma işlemi yeni bir tablo sürümü oluşturur. Tablonuzda yapılan değişiklikleri gözden geçirmek ve önceki tablo sürümlerini sorgulamak için işlem günlüğünü kullanabilirsiniz. Bkz . Delta Lake tablo geçmişiyle çalışma.

Delta Lake şema geliştirmeleri

Delta Lake, bir tabloya yazılan tüm verilerin ayarladığınız gereksinimlerle eşleştiğinden emin olarak yazma işleminde şemayı doğrular.

Delta Lake ile dosyaları yönetme ve verileri dizine ekleme

Azure Databricks, Delta Lake için veri dosyalarının boyutunu ve geçmişte tutulan tablo sürümlerinin sayısını etkileyen birçok varsayılan parametre ayarlar. Delta Lake, herhangi bir sorguyu gerçekleştirmek için taranan dosya sayısını azaltmak için meta veri ayrıştırma ve fiziksel veri düzeninin bir bileşimini kullanır.

Delta Lake ayarlarını yapılandırma ve gözden geçirme

Azure Databricks, Delta Lake tablolarının tüm verilerini ve meta verilerini bulut nesne depolama alanında depolar. Birçok yapılandırma, tablo düzeyinde veya Spark oturumunda ayarlanabilir. Hangi seçeneklerin yapılandırıldığı hakkında bilgi edinmek için Delta tablosunun ayrıntılarını gözden geçirebilirsiniz.

Delta Lake ve Delta Live Tablolarını kullanan veri işlem hatları

Azure Databricks, veriler temizlendikten ve zenginleştirildiğinden kullanıcıları bir dizi tablo aracılığıyla verileri işlemek için bir madalyon mimarisinden yararlanmaya teşvik eder. Delta Live Tables , iyileştirilmiş yürütme ve otomatik altyapı dağıtımı ve ölçeklendirme aracılığıyla ETL iş yüklerini basitleştirir. Bkz . Delta Live Tables hızlı başlangıcı.

Delta Lake özellikleriyle ilgili sorunları giderme

Tüm Delta Lake özellikleri Databricks Runtime'ın tüm sürümlerinde değildir. Delta Lake sürümü oluşturma hakkında bilgi ve sık sorulan soruların yanıtlarını aşağıdaki makalelerde bulabilirsiniz:

Delta Lake API belgeleri

Delta tablolarındaki çoğu okuma ve yazma işlemi için Spark SQL veya Apache Spark DataFrame API'lerini kullanabilirsiniz.

Delta Lake-spefic SQL deyimleri için bkz . Delta Lake deyimleri.

Azure Databricks, Databricks Runtime'da Delta Lake API'leriyle ikili uyumluluk sağlar. Her Databricks Runtime sürümünde paketlenmiş Delta Lake API sürümünü görüntülemek için bkz. Delta Lake API uyumluluk matrisi. Python, Scala ve Java için Delta Lake API'leri vardır: