Lakeflow Connect'te yönetilen bağlayıcılar

Uyarı

Lakeflow Connect'teki yönetilen bağlayıcılar çeşitli sürüm durumlarındadır.

Bu sayfada, SaaS uygulamalarından ve veritabanlarından veri almak için Databricks Lakeflow Connect'teki yönetilen bağlayıcılara genel bir bakış sağlanır. Sonuçta elde edilen alım işlem hattı Unity Kataloğu tarafından yönetilir ve sunucusuz hesaplama ve Lakeflow Spark Deklaratif İşlem Hatları tarafından desteklenir. Yönetilen bağlayıcılar, veri alımını daha hızlı, ölçeklenebilir ve daha uygun maliyetli hale getirmek için verimli artımlı okuma ve yazma işlemlerinden yararlanırken, verileriniz aşağı akış tüketimi için yeni kalır.

Bağlayıcı türleri

Bağlayıcı türü Açıklama
SaaS bağlayıcıları Salesforce, HubSpot, Jira, Workday ve daha fazlası dahil olmak üzere kurumsal SaaS uygulamalarından veri alın.
Veritabanı bağlayıcıları (CDC) Değişiklik verilerini yakalamayı kullanarak MySQL, PostgreSQL ve SQL Server gibi ilişkisel veritabanlarından veri alın.
Topluluk bağlayıcıları Açık kaynak, topluluk tarafından oluşturulan bağlayıcıları kullanarak verileri alın.

Architecture

Her bağlayıcı türünün ayrı bir bileşen kümesi vardır. SaaS bağlayıcıları bir bağlantı, alım işlem hattı ve hedef tablolar kullanır. Veritabanı bağlayıcıları, sürekli değişiklik yakalamayı desteklemek için bir veri alım ağ geçidi ve bir hazırlık depolama alanı içerir. Ayrıntılar için bkz. Lakeflow Connect'teki SaaS bağlayıcıları ve Lakeflow Connect'teki Veritabanı bağlayıcıları.

Sorgu tabanlı bağlayıcı bileşenleri

Sorgu tabanlı bağlayıcı, ağ geçidi veya hazırlama depolama alanı olmadan kaynak veritabanını doğrudan bir zamanlamaya göre sorgular. Sorgu tabanlı bağlayıcıların çalışma şekline genel bakış için bkz. Sorgu tabanlı bağlayıcılar.

Bileşen Açıklama
Bağlantı Kaynak veritabanı için kimlik doğrulama ayrıntılarını depolayan bir Unity Kataloğu güvenli hale getirilebilir nesne. Unity Kataloğu aracılığıyla doğrudan bağlantı (yabancı bağlantı alımı için) veya bir Unity Kataloğu yabancı kataloğu (Lakehouse Federasyonu kullanımıyla yabancı katalog alımı için).
Alım işlem hattı Kaynak veritabanını doğrudan sorgulayan ve sonuçları akış tablolarına yazan işlem hattı. İşlem hattı varsayılan olarak sunucusuz işlem üzerinde çalışır.
Hedef tablolar Veri alım hattının verileri yazdığı akış tabloları.

Orkestrasyon

Alma işlem hattınızı bir veya daha fazla özel zamanlamada çalıştırabilirsiniz. bir işlem hattına eklediğiniz her zamanlama için Lakeflow Connect otomatik olarak bunun için bir oluşturur. Veri alma işlem hattı, işin içindeki bir görevdir. İsteğe bağlı olarak işe daha fazla görev ekleyebilirsiniz.

SaaS bağlayıcıları için işlem hattı düzenleme diyagramı

Veritabanı bağlayıcıları için veri alımı ağ geçidi, kendi görevinde sürekli bir iş olarak çalışır.

Veritabanı bağlayıcıları için işlem hattı orkestrasyonu diyagramı

Artımlı alım

Lakeflow Connect, işlem hattı verimliliğini artırmak için artımlı veri alımı kullanır. İşlem hattınızın ilk çalıştırması sırasında, seçilen tüm verileri kaynaktan alır. Paralel olarak, kaynak verilerdeki değişiklikleri izler. İşlem hattının sonraki her çalıştırmasında, mümkün olduğunda yalnızca önceki çalıştırmadan değiştirilen verileri almak için bu değişiklik izlemesini kullanır.

Tam yaklaşım, veri kaynağınızda nelerin kullanılabilir olduğuna bağlıdır. Örneğin, SQL Server ile hem değişiklik izleme hem de değişiklik veri yakalama (CDC) kullanabilirsiniz. Buna karşılık Salesforce bağlayıcısı, belirli bir seçenek listesinden bir imleç sütunu seçer.

Bazı kaynaklar veya belirli tablolar şu anda artımlı alımı desteklememektedir. Databricks artımlı destek için kapsamı genişletmeyi planlıyor.

Ağ Kurma

SaaS uygulamasına veya veritabanına bağlanmak için çeşitli seçenekler vardır.

  • SaaS uygulamaları için bağlayıcılar kaynağın API'lerine ulaşır. Ayrıca sunucusuz çıkış denetimleriyle de otomatik olarak uyumludur.
  • Bulut veritabanları için bağlayıcılar Özel Bağlantı aracılığıyla kaynağa bağlanabilir. Alternatif olarak, çalışma alanınızda veritabanınızı barındıran sanal ağ veya VPC ile eşlenen bir Sanal Ağ (VNet) veya Sanal Özel Bulut (VPC) varsa, ağ geçidini bunun içinde dağıtabilirsiniz.
  • Şirket içi veritabanları için bağlayıcılar, AWS Direct Connect ve Azure ExpressRoute gibi hizmetleri kullanarak bağlanabilir.

Dağıtım

Alma işlem hatlarını kaynak denetimi, kod gözden geçirme, test ve sürekli tümleştirme ve teslim (CI/CD) gibi en iyi yöntemleri sağlayan Bildirim temelli Otomasyon Paketleri'ni kullanarak dağıtabilirsiniz. Paketler Databricks CLI kullanılarak yönetilir ve geliştirme, hazırlama ve üretim gibi farklı hedef çalışma alanlarında çalıştırılabilir.

Hata kurtarma

Tam olarak yönetilen bir hizmet olan Lakeflow Connect, mümkün olduğunda sorunlardan otomatik olarak kurtulmayı amaçlar. Örneğin, bir bağlantı başarısız olduğunda, üstel geri çekilme ile otomatik olarak yeniden denenir.

Ancak, bir hatanın müdahalenizi gerektirmesi (örneğin, kimlik bilgilerinin süresi dolduğunda) mümkündür. Böyle durumlarda bağlayıcı, imlecin son konumunu depolayarak eksik verilerden kaçınmaya çalışır. Daha sonra mümkün olduğunda işlem hattının bir sonraki çalışımında bu konumdan devam edebilir.

İzleme

Lakeflow Connect, işlem hatlarınızı korumanıza yardımcı olmak için güçlü uyarılar ve izleme sağlar. Buna olay günlükleri, küme günlükleri, işlem hattı sistem durumu ölçümleri ve veri kalitesi ölçümleri dahildir. Ayrıca, maliyetleri izlemek ve işlem hattı kullanımını izlemek için de tabloyu kullanabilirsiniz system.billing.usage . Yönetilen alım işlem hattı maliyetlerini izleme başlığına bakın.

Veritabanı bağlayıcıları için olay günlüklerini kullanarak ağ geçidi ilerleme durumunu gerçek zamanlı olarak izleyebilirsiniz. Bkz. Alma ağ geçidinin ilerlemesini olay günlükleriyle izle.

Topluluk bağlayıcıları

Topluluk bağlayıcıları, Lakeflow Connect'i yönetilen bağlayıcı desteği olmadan kaynaklara genişletir. Topluluk tarafından oluşturulmuş ve bakımları yapılmıştır. Mevcut bir bağlayıcıyı kullanabilir veya kendi bağlayıcınızı oluşturabilirsiniz. Bkz. Lakeflow Connect'te Topluluk bağlayıcıları.

Dış hizmetlere bağımlılık

Databricks SaaS, veritabanı ve diğer tam olarak yönetilen bağlayıcılar, bağlandıkları uygulama, veritabanı veya dış hizmetin erişilebilirliği, uyumluluğu ve kararlılığına bağlıdır. Databricks bu dış hizmetleri denetlemez ve bu nedenle değişiklikleri, güncelleştirmeleri ve bakımları üzerinde sınırlı (varsa) etkiye sahiptir.

Dış hizmetle ilgili değişiklikler, kesintiler veya koşullar, bir bağlayıcının çalışmasını engeller veya imkansız hale getirirse, Databricks bu bağlayıcının bakımını durdurabilir veya sonlandırabilir. Databricks, ilgili belgelerde yapılan güncelleştirmeler de dahil olmak üzere bakımların sona ermesi veya durdurulması hakkında müşterileri bilgilendirmek için makul çabayı gösterecektir.