İşler ile veri işleme ve analiz iş akışları uygulama
Databricks platformunda veri işleme, makine öğrenmesi veya veri analizi işlem hatlarınızı yönetmek için bir Azure Databricks işi kullanabilirsiniz. Azure Databricks İşleri not defterleri, betikler, Delta Live Tables işlem hatları, Databricks SQL sorguları ve dbt projeleri gibi çeşitli iş yükü türlerini destekler. Aşağıdaki makaleler, veri işlem hatlarınızı uygulamak için Azure Databricks İşleri'nin özelliklerini ve seçeneklerini kullanma konusunda size yol gösterir.
İpucu
Databricks Varlık Paketleri'ni kullanarak işlerinizi tanımlayabilir ve program aracılığıyla yönetebilirsiniz. Bkz . Databricks Varlık Paketleri nedir? ve Databricks Varlık Paketlerini kullanarak Azure Databricks'te iş geliştirme.
Azure Databricks işiyle verilerinizi dönüştürme, analiz etme ve görselleştirme
verileri alıp dönüştüren, çözümleyen ve görselleştiren bir veri işlem hattı oluşturmak için bir iş kullanabilirsiniz. Databricks SQL'i Azure Databricks işinde kullanma örneği, şu işlem hattını oluşturur:
- REST API kullanarak veri getirmek için Python betiği kullanır.
- Getirilen verileri alıp dönüştürmek ve dönüştürülen verileri Delta Lake'e kaydetmek için Delta Live Tablolarını kullanır.
- Dönüştürülmüş verileri analiz etmek ve sonuçları görselleştirmek için grafikler oluşturmak için Databricks SQL ile İşler tümleştirmesini kullanır.
bir işte dbt dönüşümlerini kullanma
dbt
Dbt core projesiyle veri dönüşümü yapıyorsanız ve bu projeyi bir Azure Databricks işiyle tümleştirmek istiyorsanız veya yeni dbt dönüşümleri oluşturmak ve bu dönüştürmeleri bir işte çalıştırmak istiyorsanız görev türünü kullanın. Bkz. Azure Databricks işinde dbt dönüşümlerini kullanma.
bir işte Python paketi kullanma
Python tekerlek dosyaları, Python uygulamasını çalıştırmak için gereken dosyaları paketlemenin ve dağıtmanın standart bir yoludur. Görev türüyle Python wheel
Python tekerlek dosyası olarak paketlenmiş Python kodunu kullanan bir işi kolayca oluşturabilirsiniz. Bkz. Azure Databricks işinde Python tekerlek dosyası kullanma.
JAR içinde paketlenmiş kodu kullanma
Java ve Scala gibi bir JVM dilinde uygulanan kitaplıklar ve uygulamalar genellikle java arşiv (JAR) dosyasında paketlenir. Azure Databricks İşleri, görev türüne sahip JAR
bir JAR içinde paketlenmiş kodu destekler. Bkz. Azure Databricks işinde JAR kullanma.
Apache Airflow ile işlerinizi düzenleme
Databricks, iş akışlarınızı yönetmek için Azure Databricks İşleri'nin kullanılmasını önerir. Ancak Apache Airflow yaygın olarak bir iş akışı düzenleme sistemi olarak kullanılır ve Azure Databricks İşleri için yerel destek sağlar. Azure Databricks İşleri iş akışlarınızı oluşturmak için görsel bir kullanıcı arabirimi sağlarken, Airflow veri işlem hatlarınızı tanımlamak ve dağıtmak için Python dosyalarını kullanır. Airflow ile iş oluşturma ve çalıştırma örneği için bkz . Apache Airflow ile Azure Databricks işlerini düzenleme.
Hizmet sorumlusu kullanarak iş çalıştırma
Bir Microsoft Entra ID uygulaması ve hizmet sorumlusu kullanarak işlerinizi hizmet hesabı olarak çalıştırabilirsiniz. İşi bireysel kullanıcı yerine hizmet hesabı olarak çalıştırmak işe erişimi denetlemenize, işin gerekli izinlere sahip olduğundan emin olmanıza ve bir iş sahibinin çalışma alanından kaldırılması durumunda sorunları önlemenize olanak tanır. Azure Databricks işini çalıştırmak için hizmet sorumlusu oluşturma ve kullanma öğreticisi için bkz . Microsoft Entra ID hizmet sorumlusuyla iş çalıştırma.