Aracılığıyla paylaş


Databricks ile veri mühendisliği

Databricks, veri mühendisleri, yazılım geliştiricileri, SQL geliştiricileri, analistleri ve veri bilimcilerini aşağı akış analizi, yapay zeka ve operasyonel uygulamalar için yüksek kaliteli veriler sunma yönünde güçlendiren uçtan uca bir veri mühendisliği çözümü olan Lakeflow'u sağlar. Lakeflow, verilerinizin alımı, dönüşümü ve düzenlemesi için birleşik bir çözümdür ve Lakeflow Connect, Lakeflow Spark Bildirimli İşlem Hatları ve Lakeflow İşleri'ni içerir.

Lakeflow Connect

Lakeflow Connect, popüler kurumsal uygulamalara, veritabanlarına, bulut depolamaya, ileti veri yollarına ve yerel dosyalara yönelik bağlayıcılarla veri alımını basitleştirir. Bkz. Lakeflow Connect.

Özellik Açıklama
Yönetilen bağlayıcılar Yönetilen bağlayıcılar, temel alınan işlem hattı API'lerini ve altyapısını kullanmanıza gerek kalmadan en düşük işlem yüküne sahip basit bir kullanıcı arabirimi ve yapılandırma tabanlı bir alma hizmeti sağlar.
Standart bağlayıcılar Standart bağlayıcılar, işlem hatlarınızın veya diğer sorguların içinden daha geniş bir veri kaynağı aralığındaki verilere erişme olanağı sağlar.

Lakeflow Spark Deklaratif İşlem Hatları (SDP)

Lakeflow Spark Bildirimli İşlem Hatları veya SDP, verimli toplu iş ve akış veri işlem hatlarını oluşturma ve yönetme karmaşıklığını azaltan bildirim temelli bir çerçevedir. Lakeflow SDP, performans açısından geliştirilmiş Databricks Runtime üzerinde çalışırken Apache Spark Deklaratif İşlem Hatları ile uyumlu ve genişletilebilir şekilde çalışır. SDP, akışları, çıkış noktalarını, akış tablolarını ve materyalize edilmiş görünümleri kapsülleyerek ve bunları bir işlem hattı olarak çalıştırarak yürütmeyi otomatik olarak düzenler. Bkz . Lakeflow Spark Bildirimli İşlem Hatları.

Özellik Açıklama
Akışlar Akışlar, işlem hatlarındaki verileri işler. Akışlar API'si Apache Spark ve Yapılandırılmış Akış ile aynı DataFrame API'sini kullanır. Akış, akış semantiği kullanarak Kafka konu başlığı gibi akış tablolarına ve alıcılarına yazabilir veya toplu semantiği kullanarak oluşturulmuş bir görünüme yazabilir.
Akış Tabloları Akış tablosu, akış veya adımlı veri işleme desteğine sahip bir Delta tablosudur. İşlem hatlarındaki bir veya daha fazla akış için hedef görevi görür.
Gerçekleştirilmiş görünümler Gerçekleştirilmiş görünüm, daha hızlı erişim için önbelleğe alınmış sonuçları içeren bir görünümdür. Gerçekleştirilmiş görünüm (materialized view), işlem hatları için bir hedef olarak işlev görür.
Lavabolar İşlem hatları, dış veri havuzlarını hedef olarak destekler. Bu havuzlar Apache Kafka veya Azure Event Hubs gibi olay akış hizmetlerini, Unity Kataloğu tarafından yönetilen dış tabloları veya Python'da tanımlanan özel havuzları içerebilir.

Lakeflow İşleri

Lakeflow Jobs, her türlü veri ve yapay zeka iş yükü için güvenilir orkestrasyon ve üretim izleme sağlar. İş, not defterleri, işlem hatları, yönetilen bağlayıcılar, SQL sorguları, makine öğrenmesi eğitimi ve model dağıtımı ile çıkarımını çalıştıran bir veya daha fazla görevden oluşabilir. İşler ayrıca if/else ifadeleriyle dallanma ve for each döngüleri ile döngü yapma gibi özel denetim akışı mantığını destekler. Bakınız Lakeflow İşleri.

Özellik Açıklama
İşler İşler, orkestrasyon için birincil kaynaktır. Bunlar, zamanlanmış olarak gerçekleştirmek istediğiniz bir işlemi temsil ederler.
Görevler bir iş içindeki belirli bir çalışma birimi. Bir iş içinde gerçekleştirilebilecek çeşitli seçenekler sağlayan çeşitli görev türleri vardır.
İşlerde denetim akışı Denetim akışı görevleri, diğer görevlerin mi yoksa çalıştırılacak görevlerin sırasının mı çalıştırılıp çalıştırılmayacağını denetlemenize olanak tanır.

Apache Spark için Databricks Runtime

Databricks Runtime, toplu iş ve akış gibi Spark iş yüklerini çalıştırmak için güvenilir ve performans açısından iyileştirilmiş bir işlem ortamıdır. Databricks Runtime, yüksek performanslı bir Databricks yerel vektörleştirilmiş sorgu altyapısı olan Foton ve otomatik ölçeklendirme gibi çeşitli altyapı iyileştirmeleri sağlar. Spark programlarınızı not defterleri, JAR'ler veya Python tekerlekleri olarak oluşturarak Spark ve Yapılandırılmış Akış iş yüklerinizi Databricks Runtime'da çalıştırabilirsiniz. Bkz. Apache Spark için Databricks Runtime.

Özellik Açıklama
Databricks üzerinde Apache Spark Spark, Databricks Veri Zekası Platformu'nun merkezinde yer alır.
Yapılandırılmış Akış Yapılandırılmış Akış, akış verileri için Spark'a yakın gerçek zamanlı işleme altyapısıdır.

Delta Live Tables'a (DLT) ne oldu?

Delta Live Tables (DLT) hakkında bilginiz varsa bkz. Delta Live Tables (DLT) ne oldu?.

Ek kaynaklar