Veri uygulamalarını Azure Databricks'e geçirme
Bu makalede, mevcut veri uygulamalarını Azure Databricks'e geçirmeye giriş bilgileri sağlanmaktadır. Azure Databricks, tek bir platformda birçok kaynak sistemden alınan verilerle çalışmanızı sağlayan birleşik bir yaklaşım sağlar.
Platform özelliklerine genel bakış için bkz . Azure Databricks nedir?.
ETL işlerini Azure Databricks'e geçirme
Şirket içi veya bulutta yerel uygulamalardan verileri ayıklamak, dönüştürmek ve yüklemek için kullanılan Apache Spark işlerini yalnızca birkaç adımda Azure Databricks'e geçirebilirsiniz. Bkz . Azure Databricks için mevcut Apache Spark kodunuzu uyarlama.
Azure Databricks önceden yapılandırılmış açık kaynak tümleştirmeleri, iş ortağı tümleştirmeleri ve kurumsal ürün teklifleri ile Spark SQL'in işlevselliğini genişletir. ETL iş yükleriniz SQL veya Hive'da yazılmışsa, en az yeniden düzenlemeyle Azure Databricks'e geçiş yapabilirsiniz. Azure Databricks SQL teklifleri hakkında daha fazla bilgi edinin:
- Azure Databricks’te veri saklama nedir?
- Delta Live Tables nedir?
- Databricks İş Ortağı Bağlantısı nedir?
Çeşitli kaynak sistemlerden Azure Databricks'e geçişle ilgili belirli yönergeler için bkz . ETL işlem hatlarını Azure Databricks'e geçirme.
Kurumsal veri ambarınızı göl eviyle değiştirme
Azure Databricks, iş yükleri lakehouse'da depolanan veriler etrafında hizalandığında en iyi değeri ve performansı sağlar. Birçok kurumsal veri yığını hem veri gölü hem de kurumsal veri ambarı içerir ve kuruluşlar bu sistemleri ve verileri eşitlenmiş durumda tutmaya çalışmak için karmaşık ETL iş akışları oluşturur. Lakehouse, genellikle ayrı bir veri ambarını kullanan sorgular ve sistemler arasında veri gölünde depolanan aynı verileri kullanmanıza olanak tanır. Göl evi hakkında daha fazla bilgi için bkz . Data Lakehouse nedir?. Databricks'te veri ambarı hakkında daha fazla bilgi için bkz . Azure Databricks'te veri ambarı nedir?.
Kurumsal veri ambarından lakehouse'a geçiş genellikle veri mimarinizin ve iş akışlarınızın karmaşıklığını azaltmayı içerir, ancak bu çalışmayı tamamlarken göz önünde bulundurmanız gereken bazı uyarılar ve en iyi yöntemler vardır. Bkz . Veri ambarınızı Databricks lakehouse'a geçirme.
ML, veri bilimi ve analiz iş yüklerinizi birleştirme
Lakehouse, tablo sorguları veya dosya yolları aracılığıyla bulut tabanlı veri dosyalarına iyileştirilmiş erişim sağladığından, verilerinizin tek bir kopyası üzerinde ML, veri bilimi ve analiz yapabilirsiniz. Azure Databricks, iş yüklerini hem açık kaynak hem de özel araçlardan taşımayı kolaylaştırır ve analistler ve veri bilimcileri tarafından kullanılan birçok açık kaynak kitaplığının güncelleştirilmiş sürümlerini korur.
Jupyter not defterlerindeki Pandas iş yükleri Databricks Git klasörleri kullanılarak eşitlenebilir ve çalıştırılabilir. Azure Databricks, tüm Databricks Runtime sürümlerinde pandas için yerel destek sağlar ve Machine Learning için Databricks Runtime'da birçok popüler ML ve derin öğrenme kitaplığını yapılandırmaktadır. Git klasörlerindeki Git ve çalışma alanı dosyalarını kullanarak yerel iş yüklerinizi eşitlerseniz, yerel ortamınızda bulunan veriler ve özel libaries için aynı göreli yolları kullanabilirsiniz.
Not
Varsayılan olarak, Azure Databricks, Databricks Git klasörleriyle eşitlenen Jupyter not defterleri için uzantıları korur.ipynb
, ancak kullanıcı arabirimiyle içeri aktarıldığında Jupyter not defterlerini otomatik olarak Databricks not defterlerine dönüştürür. Databricks not defterleri bir .py
uzantıyla kaydedilir ve böylece Git deposunda Jupyter not defterleriyle yan yana yaşayabilir.