Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, diğer veri sistemlerinde çalışan ayıklama, dönüştürme, yükleme (ETL) işlem hatlarını Azure Databricks'e geçirme seçeneklerine genel bir bakış sağlanır. Apache Spark kodunu taşıyorsanız, Azure Databricks için mevcut Apache Spark kodunuzu uyarlama bölümüne bakın.
Kurumsal veri ambarından lakehouse'a geçiş hakkında genel bilgi için Veri ambarınızı Databricks lakehouse'a geçirme bağlantısına bkz. Parquet'ten Delta Lake'e geçiş hakkında bilgi için bkz Parquet veri gölünü Delta Lake'e geçir.
Azure Databricks'te Hive işlem hatlarını çalıştırabilir misiniz?
Hive iş yüklerinin çoğu Azure Databricks'te en az yeniden düzenlemeyle çalışabilir. Databricks Runtime tarafından desteklenen Spark SQL sürümü birçok HiveQL yapısına izin verir. Bkz. Apache Hive uyumluluğu. Azure Databricks varsayılan olarak bir Hive meta veri deposu içerir. Çoğu Hive geçişinin birkaç temel sorunu gidermesi gerekir:
- Hive SerDe'nin Azure Databricks'in yerel dosya codec'lerini kullanacak şekilde güncelleştirilmiş olması gerekir. (Azure Databricks SerDe kullanmak için
STORED ASDDL'yiUSINGolarak değiştirin.) - Hive UDF'lerinin kümelere kitaplık olarak yüklenmesi veya yerel Spark'a yeniden düzenlenmesi gerekir. Hive UDF'leri zaten JVM'de olduğundan, birçok iş yükü için yeterli performans sağlayabilirler. Bkz. Performansla ilgili dikkat edilmesi gerekenler.
- Azure Databricks bölümleri Hive'dan farklı kullandığından tabloların dizin yapısı değiştirilmelidir. Bkz. Azure Databricks'te tabloları ne zaman bölümlendirmeli.
İlk geçişiniz sırasında tablolarınızı Delta Lake'e güncelleştirmeyi seçerseniz, bir dizi DDL ve DML deyimi desteklenmez. Bunlar şunları içerir:
ROWFORMATSERDEOUTPUTFORMATINPUTFORMATCOMPRESSIONSTORED ASANALYZE TABLE PARTITIONALTER TABLE [ADD|DROP] PARTITIONALTER TABLE RECOVER PARTITIONSALTER TABLE SET SERDEPROPERTIESCREATE TABLE LIKEINSERT OVERWRITE DIRECTORYLOAD DATA-
PARTITION (part_spec)veTRUNCATE TABLEkullanarak hedef bölümleri belirtme
Azure Databricks'te SQL ETL işlem hatlarını çalıştırabilir misiniz?
SQL iş yüklerinin diğer sistemlerden Azure Databricks'e geçirilmesi, kaynak kodda sisteme özgü protokollerin ne ölçüde kullanıldığına bağlı olarak genellikle çok az yeniden düzenleme gerektirir. Azure Databricks varsayılan tablo biçimi olarak Delta Lake kullanır, bu nedenle tablolar varsayılan olarak işlem garantileriyle oluşturulur.
Spark SQL çoğunlukla ANSI uyumlu olsa da davranışta bazı farklılıklar olabilir. Bkz . Databricks Veri Zekası Platformu bir kurumsal veri ambarından nasıl farklıdır?.
Veri sistemleri dış verilere erişimi farklı yapılandırma eğiliminde olduğundan, SQL ETL işlem hatlarını yeniden düzenleme işleminin büyük bölümü bu veri kaynaklarına erişimi yapılandırıyor ve ardından mantığınızı bu yeni bağlantıları kullanacak şekilde güncelleştiriyor olabilir. Azure Databricks, veri alımı için birçok veri kaynağına bağlanma seçenekleri sağlar.
Azure Databricks'te dbt ETL işlem hatlarını çalıştırabilir misiniz?
Azure Databricks, dbt ile yerel bir tümleştirme sağlayarak çok az yeniden düzenlemeyle mevcut dbt betiklerinden yararlanmanızı sağlar.
Lakeflow Spark Bildirimli İşlem Hatları, işlem hatlarını oluşturmak, test etmek ve dağıtmak için iyileştirilmiş bir Databricks yerel bildirim temelli SQL söz dizimi sağlar. Azure Databricks'te dbt'yi kullanabilirsiniz ancak Lakeflow Spark Bildirimli İşlem Hatlarına yönelik basit bir kod düzenlemesi, azure Databricks'te işlem hatlarınızı çalıştırmak için toplam maliyetinizi düşürebilir. Bkz . Lakeflow Spark Bildirimli İşlem Hatları.
Sunucusuz bulut işlevlerini Azure Databricks'e geçirebiliyor musunuz?
Özel sunucusuz bulut işlevlerinin genişletilebilirliği ve çok yönlülüğü, ortak bir öneri sağlamayı zorlaştırır, ancak bu işlevler için en yaygın kullanım örneklerinden biri, dosyaların veya verilerin bir konum veya ileti kuyruğunda görünmesini beklemek ve bunun sonucunda bazı eylemler gerçekleştirmektir. Azure Databricks, bulut koşullarına göre iş yüklerini tetiklemenin karmaşık mantığını desteklemese de, verileri artımlı olarak işlemek için Yapılandırılmış Akış'ı İşler ile birlikte kullanabilirsiniz.
Bulut nesne depolama alanından iyileştirilmiş veri alımı için Otomatik Yükleyici'yi kullanın. Yapılandırılmış Akış, akış kaynaklarından gelen verileri neredeyse gerçek zamanlı olarak işleyebilir.
Azure Databricks'te diğer veri sistemlerinden söz dizimi çalıştırabilir misiniz?
SQL, Apache Spark veya Hive dışındaki dillerde tanımlanan ETL işlem hatlarının Azure Databricks'te çalıştırılmadan önce büyük ölçüde yeniden düzenlenmesi gerekebilir. Azure Databricks, müşterilerin günümüzde kullanımda olan veri sistemlerinin çoğundan geçişlerine yardımcı olma deneyimine sahiptir ve geçiş çalışmalarınızı hızlı bir şekilde başlatacak kaynaklara sahip olabilir.