Aracılığıyla paylaş


Lakeflow Connect'te standart bağlayıcılar

Bu sayfada, yönetilen bağlayıcılara kıyasla daha yüksek düzeyde alım işlem hattı özelleştirmesi sunan Databricks Lakeflow Connect'teki standart bağlayıcılar açıklanmaktadır.

ETL yığınının katmanları

Bazı bağlayıcılar ETL yığınının bir düzeyinde çalışır. Örneğin Databricks, Salesforce gibi kurumsal uygulamalar ve SQL Server gibi veritabanları için tam olarak yönetilen bağlayıcılar sunar. Diğer bağlayıcılar ETL yığınının birden çok katmanında çalışır. Örneğin, tam özelleştirme için Yapılandırılmış Akış'ta standart bağlayıcıları veya daha yönetilen bir deneyim için Lakeflow Spark Bildirimli İşlem Hatları'nı kullanabilirsiniz.

ETL yığın diyagramı

Databricks, en yönetilen katmandan başlamanızı önerir. Gereksinimlerinizi karşılamıyorsa (örneğin, veri kaynağınızı desteklemiyorsa), bir sonraki katmana geçin.

Aşağıdaki tabloda, en özelleştirilebilenden en fazla yönetilene kadar sıralanmış olan üç istifleme ürünü katmanı açıklanmaktadır.

Katman Açıklama
Yapılandırılmış Akış Apache Spark Yapılandırılmış Akış, Spark API'lerini kullanarak tam bir kez işleme garantileriyle uçtan uca hataya dayanıklılık sunan bir akış altyapısıdır.
Lakeflow Spark Deklaratif İşlem Hatları Lakeflow Spark Bildirimli İşlem Hatları Yapılandırılmış Akış üzerine derlenir ve veri işlem hatları oluşturmak için bildirim temelli bir çerçeve sunar. Verileriniz üzerinde gerçekleştirilecek dönüştürmeleri tanımlayabilirsiniz ve Lakeflow Spark Bildirimli İşlem Hatları düzenlemeyi, izlemeyi, veri kalitesini, hataları ve daha fazlasını yönetir. Bu nedenle, Yapılandırılmış Akış'tan daha fazla otomasyon ve daha az ek yük sunar.
Yönetilen bağlayıcılar Tam olarak yönetilen bağlayıcılar, en popüler veri kaynakları için daha fazla otomasyon sunarak Lakeflow Spark Deklaratif İşlem Hatları üzerine inşa edilir. Lakeflow Spark Bildirimli İşlem Hatları işlevselliğini kaynağa özgü kimlik doğrulaması, CDC, uç olay işleme, uzun süreli API bakımı, otomatik yeniden denemeler, otomatik şema evrimi vb. içerecek şekilde genişletir. Bu nedenle, desteklenen tüm veri kaynakları için daha da fazla otomasyon sunar.

Bir bağlayıcı seçme

Aşağıdaki tabloda veri kaynağına ve işlem hattı özelleştirme düzeyine göre standart alım bağlayıcıları listelenmektedir. Tam otomatik alma deneyimi için bunun yerine yönetilen bağlayıcıları kullanın.

SQL örnekleri, bulut nesne depolamasından artımlı alım için CREATE STREAMING TABLE söz dizimini kullanır. SQL kullanıcılarına ölçeklenebilir ve güçlü bir veri işleme deneyimi sunar, bu yüzden COPY INTO için önerilen alternatif budur.

Kaynak Daha fazla özelleştirme Bazı özelleştirmeler Daha fazla otomasyon
Bulut nesne depolaması Yapılandırılmış Akışlı Otomatik Yükleyici
(Python, Scala)
Lakeflow Spark Bildirimli İşlem Hatları ile Otomatik Yükleyici
(Python, SQL)
Databricks SQL ile Otomatik Yükleyici
(SQL)
SFTP sunucuları SFTP sunucularından dosya alma
(Python, SQL)
Geçerli Değil Geçerli Değil
Apache Kafka Kafka kaynağı ile Yapılandırılmış Akış
(Python, Scala)
Kafka kaynağıyla Lakeflow Spark Deklaratif Veri Hatları
(Python, SQL)
Databricks SQL ve Kafka kaynağı
(SQL)
Google Pub/Sub (Mesajlaşma Hizmeti) Pub/Sub kaynağı ile Yapılandırılmış Akış
(Python, Scala)
Pub/Sub kaynağı ile Lakeflow Spark Deklaratif İşlem Hatları
(Python, SQL)
Pub/Sub kaynağıyla Databricks SQL
(SQL)
Apache Pulsar Pulsar kaynağı ile Yapılandırılmış Akış
(Python, Scala)
Pulsar kaynağıyla Lakeflow Spark Deklaratif İşlem Hatları
(Python, SQL)
Pulsar kaynağıyla Databricks SQL
(SQL)

Veri giriş zamanlamaları

Alma işlem hatlarını yinelenen bir zamanlamaya göre veya sürekli çalışacak şekilde yapılandırabilirsiniz.

Kullanım örneği Boru hattı modu
Toplu alım Tetiklenen: Yeni verileri bir zamanlamaya göre veya el ile tetiklendiğinde işleme tabi tutar.
Akış verisi alma Sürekli: Yeni verileri kaynağa ulaşırken işler.