Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Lakeflow İş Akışları, veri işleme iş yükleri için orkestrasyon sağlayan Azure Databricks için iş akışı otomasyonudur. Bu sayede, daha büyük bir iş akışının parçası olarak birden fazla görevi koordine edebilir ve çalıştırabilirsiniz. Sık, yinelenebilir görevlerin yürütülmesini iyileştirebilir ve zamanlayabilir ve karmaşık iş akışlarını yönetebilirsiniz.
Bu makalede, Lakeflow İşleri kullanılarak üretim iş yüklerini yönetmeyle ilgili kavramlar ve seçenekler tanıtılıyor.
İşler nedir?
Databricks'te iş akışında Databricks'te görevleri zamanlamak ve yönetmek için bir iş kullanılır. Yaygın veri işleme iş akışları etl iş akışları, çalışan not defterleri ve makine öğrenmesi (ML) iş akışlarının yanı sıra dbt ve Azure Data Factory (ADF) gibi dış sistemlerle tümleştirmeyi içerir.
İşler bir veya daha fazla görevden oluşur ve görsel yazma kullanıcı arabirimi kullanarak dallanma (if/else deyimleri) veya döngü (her deyim için) gibi özel denetim akışı mantığını destekler. Görevler bir ETL iş akışındaki verileri yükleyebilir veya dönüştürebilir ya da makine öğrenmesi işlem hatlarınızın bir parçası olarak ML modellerini denetimli ve yinelenebilir bir şekilde derleyebilir, eğitebilir ve dağıtabilir.
Örnek: Günlük veri işleme ve doğrulama işi
Aşağıdaki örnek, Azure Databricks'te bir görevi göstermektedir.
Bu örnek iş aşağıdaki özelliklere sahiptir:
- İlk görev gelir verilerini alır.
- İkinci görev, null değerlerini kontrol etmek için bir if / else yapısı kullanmaktır.
- Aksi takdirde, bir dönüştürme görevi çalıştırılır.
- Aksi takdirde, veri kalitesi doğrulamalarını içeren bir not defteri görevi çalıştırır.
- Her gün aynı saatte çalışacak şekilde zamanlanır.
Kendi işinizi oluşturmaya hızlı bir giriş yapmak için bkz. Lakeflow İşleri ile ilk iş akışınızı oluşturma.
Yaygın kullanım örnekleri
Temel veri mühendisliği ilkelerinden gelişmiş makine öğrenmesi ve sorunsuz araç tümleştirmesine kadar bu yaygın kullanım örnekleri modern analiz, iş akışı otomasyonu ve altyapı ölçeklenebilirliğini destekleyen özelliklerin ölçeğini gösterir.
Düzenleme kavramları
Azure Databricks'te orkestrasyon için Lakeflow İşleri kullanıldığında üç ana kavram vardır: işler, görevler ve tetikleyiciler.
İş - Bir iş, işlemlerinizi koordine etmenin, zamanlamanın ve çalıştırmanın birincil kaynaklarından biridir. İşler, Azure Databricks not defteri çalıştıran tek bir görevden koşullu mantık ve bağımlılıklara sahip yüzlerce göreve kadar karmaşıklık açısından farklılık gösterebilir. Bir işteki görevler, Yönlendirilmiş Bir Döngüsel Graf (DAG) tarafından görsel olarak temsil edilir. İşin özelliklerini belirtebilirsiniz, örneğin:
- Tetikleyici - bu, işin ne zaman çalıştırılacağını tanımlar.
- Parametreler - iş içindeki görevlere otomatik olarak gönderilen çalışma zamanı parametreleri.
- Bildirimler - bir iş başarısız olduğunda veya çok uzun sürdüğünde gönderilecek e-postalar veya web kancaları.
- Git - iş görevleri için kaynak denetimi ayarları.
görev - Görev, bir işin içindeki belirli bir çalışma birimidir. Her görev, aşağıdakileri içeren çeşitli işlemler gerçekleştirebilir:
- Bir defter görevi, bir Databricks defterini çalıştırır. Not defterinin yolunu ve gerekli olan tüm parametreleri belirtirsiniz.
- Bir işlem hattı görevi, bir işlem hattını çalıştırır. Gerçekleştirilmiş görünüm veya akış tablosu gibi mevcut Lakeflow Spark Bildirimli İşlem Hatlarını belirtebilirsiniz.
- Python betik görevleri bir Python dosyası çalıştırır. Dosyanın yolunu ve gerekli parametreleri sağlarsınız.
Birçok görev türü vardır. Tam liste için bkz. görev türleri. Görevlerin diğer görevlere bağımlılıkları olabilir ve diğer görevleri koşullu olarak çalıştırarak koşullu mantık ve bağımlılıklarla karmaşık iş akışları oluşturmanıza olanak tanır.
Tetikleyici - Tetikleyici, belirli koşullara veya olaylara göre bir işin çalıştırılmasını başlatan bir mekanizmadır. Tetikleyici, işi zamanlanmış bir saatte çalıştırma (örneğin, her gün 02:00) veya bulut depolama alanına yeni veriler geldiğinde iş çalıştırma gibi olay tabanlı olabilir.
İzleme ve gözlemlenebilirlik
Görevler, izleme ve gözlemlenebilirlik için yerleşik destek sağlar. Aşağıdaki konular bu desteğe genel bir bakış verir. İzleme ve düzenleme işleri hakkında daha fazla bilgi için, Lakeflow İşleri için İzleme ve Gözlemlenebilirlik sayfasına bakınız.
kullanıcı arabiriminde İş izleme ve gözlemlenebilirlik - Azure Databricks kullanıcı arabiriminde iş sahibi ve son çalıştırmanın sonucu gibi ayrıntılar da dahil olmak üzere işleri görüntüleyebilir ve iş özelliklerine göre filtreleyebilirsiniz. İş yürütmelerinin geçmişini görüntüleyebilir ve her bir görev hakkında ayrıntılı bilgi elde edebilirsiniz.
İş çalıştırma durumu ve ölçümleri - Databricks, iş çalıştırma başarısını bildirir ve her bir görevin günlüklerini ve ölçümlerini kaydederek sorunları tanılamak ve performansı anlamak için bilgi sağlar.
Bildirimler ve uyarılar - İş olayları için bildirimleri e-posta, Slack, özel web kancaları ve diğer birçok seçenek aracılığıyla ayarlayabilirsiniz.
Sistem tabloları aracılığıyla özel sorgular - Azure Databricks, hesap genelinde iş çalıştırmalarını ve görevlerini kaydeden sistem tabloları sağlar. İş performansını ve maliyetlerini sorgulamak ve analiz etmek için bu tabloları kullanabilirsiniz. İş akışlarınızın sistem durumunu ve performansını izlemeye yardımcı olmak için iş ölçümlerini ve eğilimlerini görselleştirmek için panolar oluşturabilirsiniz.
Sınırlamalar
Şu sınırlamalar geçerlidir:
- Çalışma alanı 2000 eşzamanlı görev çalıştırması ile sınırlıdır. Hemen başlatılamayan bir çalıştırma istediğinizde
429 Too Many Requestsyanıtı döndürülür. - Bir çalışma alanının bir saat içinde oluşturabileceği iş sayısı 10000 ile sınırlıdır (bu, "çalıştırma gönder" işlevini de içerir). Bu sınır REST API ve not defteri iş akışları tarafından oluşturulan işleri de etkiler.
- Çalışma alanı en fazla 12000 kayıtlı görev içerebilir.
- Bir iş en fazla 1000 görev içerebilir.
- Görevler parametrelerinde dinamik değerler kullandığında, iş parametreleri 10.000 karakterle sınırlıdır.
İş akışlarını program aracılığıyla yönetebilir miyim?
Databricks,aşağıdakiler dahil olmak üzere iş akışlarınızı program aracılığıyla zamanlamanıza ve düzenlemenize olanak sağlayan araçlara ve API'lere sahiptir:
- Databricks CLI
- Bildirim temelli Otomasyon Paketleri
- Visual Studio Code için Databricks uzantısı
- Databricks SDK'ları
- Görevler REST API'si
İşleri oluşturmak ve yönetmek için araçları ve API'leri kullanma örnekleri için bkz. İş oluşturma ve yönetimi otomatikleştirme. Kullanılabilir tüm geliştirici araçlarıyla ilgili belgeler için bkz. Yerel geliştirme araçları.
Dış araçlar, iş akışlarını program aracılığıyla zamanlamak için Databricks araçlarını ve API'lerini kullanır. Azure Data Factory veya Apache AirFlow gibi araçları kullanarak işlerinizi zamanlayabilirsiniz.
Apache AirFlow ile iş akışı düzenleme
Apache Airflow kullanarak veri iş akışlarınızı yönetebilir ve zamanlayabilirsiniz. Airflow ile iş akışınızı bir Python dosyasında tanımlarsınız ve Airflow iş akışını zamanlamayı ve çalıştırmayı yönetir. Bkz. Apache Airflow ile Lakeflow Görevlerinin Orkestrasyonunu Yap.
Azure Data Factory ile Çalışma akışı düzenleme
Azure Data Factory (ADF) otomatik veri işlem hatlarında veri depolama, taşıma ve işleme hizmetleri oluşturmanıza olanak tanıyan bir bulut veri tümleştirme hizmetidir. ADF'yi kullanarak bir Azure Databricks işini ADF işlem hattının parçası olarak düzenleyebilirsiniz.
ADF ayrıca Databricks not defterlerini, Python betikleri veya ADF işlem hattındaki JAR'lerde paketlenmiş kodu çalıştırmak için yerleşik desteğe sahiptir.
Databricks not defterini bir ADF işlem hattında çalıştırmayı öğrenmek için bkz. Azure Data Factory içinde Databricks not defteri etkinliğiyle bir Databricks not defterini çalıştırma ve ardından Bir Databricks not defteri çalıştırarak veriyi dönüştürme.
ADF işlem hattında Python betiği çalıştırmayı öğrenmek için bkz. Azure Databricks'te Python etkinliği çalıştırarak verileri dönüştürme.
ADF işlem hattında JAR dosyasında paketlenmiş kodu çalıştırmayı öğrenmek için Azure Databricks'te JAR etkinliğini çalıştırarak verileri dönüştür konusuna bakın.