Aracılığıyla paylaş


Yeni dosyalar geldiğinde işleri tetikler

Yeni dosyalar Amazon S3, Azure depolama veya Google Cloud Storage gibi bir dış konuma ulaştığında Azure Databricks işinizin çalıştırılmasını tetikleme amacıyla dosya varış tetikleyicilerini kullanabilirsiniz. Yeni veriler düzensiz bir zamanlamaya göre geldiğinden, zamanlanmış bir iş verimsiz olabileceğinde bu özelliği kullanabilirsiniz.

Dosya varış tetikleyicileri, her dakika yeni dosyaları denetlemek için en iyi çabayı gösterir, ancak bu, temel alınan bulut depolamanın performansından etkilenebilir. Dosya varış tetikleyicileri, depolama konumundaki dosyaları listelemeyle ilişkili bulut sağlayıcısı maliyetleri dışında ek maliyetler doğurmuyor.

Bir dosya varış tetikleyicisi, Unity Kataloğu dış konumunun veya biriminin kökünü ya da bir dış konumun veya birimin alt yolu izlemek için yapılandırılabilir. Örneğin, Unity Kataloğu kök birimi /Volumes/mycatalog/myschema/myvolume/için, dosya varış tetikleyicisi için geçerli yollar şunlardır:

/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/

Dosya varış tetikleyicisi, yapılandırılan konumun tüm alt dizinlerindeki yeni dosyaları yinelemeli olarak denetler. Örneğin, konum /Volumes/mycatalog/myschema/myvolume/mydirectory/ için bir dosya varış tetikleyicisi oluşturursanız ve bu konum aşağıdaki alt dizinlere sahipse:

/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirA
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirB
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirC/subdirD

Tetikleyici , , , subdirCsubdirAsubdirBve subdirC/subdirDiçindeki mydirectoryyeni dosyaları denetler.

Gereksinimler

Dosya varış tetikleyicilerini kullanmak için aşağıdakiler gereklidir:

  • Çalışma alanında Unity Kataloğu etkinleştirilmiş olmalıdır.
  • Unity Kataloğu birimi veya Unity Kataloğu meta deposuna eklenmiş bir dış konum olan bir depolama konumu kullanmanız gerekir. Bkz. Bulut depolamayı Azure Databricks'e bağlamak için dış konum oluşturma.
  • Depolama konumu üzerinde izinleriniz ve iş üzerinde YÖNETİLEMİP YÖNETEEMİYİn izinlerine sahip READ olmanız gerekir. İş izinleri hakkında daha fazla bilgi için bkz . İş ACL'leri.

Sınırlamalar

  • Yalnızca yeni dosyalar tetikleyicisi çalışır. Aynı ada sahip bir dosyayla var olan bir dosyanın üzerine yazmak çalıştırmayı tetiklemez.
  • Azure Databricks çalışma alanında bir dosya varış tetikleyicisiyle en fazla elli iş yapılandırılabilir.
  • Bir dosya varış tetikleyicisi için yapılandırılmış bir depolama konumu en fazla 10.000 dosya içerebilir. Yeni dosya gelenler için daha fazla dosya içeren konumlar izlenemez. Yapılandırılan depolama konumu bir Unity Kataloğu dış konumunun veya biriminin alt yoluysa, 10.000 dosya sınırı depolama konumunun köküne değil alt yol için geçerlidir. Örneğin, depolama konumunun kökü alt dizinleri genelinde 10.000'den fazla dosya içerebilir, ancak yapılandırılan alt dizinin 10.000 dosya sınırını aşmaması gerekir.
  • Dosya varış tetikleyicisi için kullanılan yol, katalogların ve şemaların dış tablolarını veya yönetilen konumlarını içermemelidir.
  • Dosya varış tetikleyicisi için kullanılan yol, veya gibi * ?joker karakterler içeremez.

Dosya varış tetikleyicisi ekleme

Bir işe dosya varış tetikleyicisi eklemek için:

  1. Kenar çubuğunda İş Akışları'na tıklayın.
  2. İşler sekmesindeki Ad sütununda iş adına tıklayın.
  3. Sağdaki İş ayrıntıları panelinde Tetikleyici ekle'ye tıklayın.
  4. Tetikleyici türü'nde Dosya gelişi'ne tıklayın.
  5. Depolama konumu'nda, Unity Kataloğu dış konumunun kök veya alt yolu URL'sini ya da izlenecek Unity Kataloğu biriminin kök veya alt yolu girin.
  6. (İsteğe bağlı) Gelişmiş seçenekleri yapılandırma:
    • Saniye cinsinden tetikleyiciler arasındaki en düşük süre: Önceki çalıştırma tamamlandıktan sonra bir çalıştırmayı tetiklemeyi bekleme süresi. Bu dönemde gelen dosyalar yalnızca bekleme süresi dolduktan sonra bir çalıştırma tetikler. Çalıştırma oluşturma sıklığını denetlemek için bu ayarı kullanın.
    • Saniye cinsinden son değişikliğin ardından bekleyin: Dosya geldikten sonra çalıştırma tetiklemeyi bekleme süresi. Bu süre içinde başka bir dosya gelişi zamanlayıcıyı sıfırlar. Bu ayar, dosyalar toplu olarak geldiğinde kullanılabilir ve tüm dosyalar geldikten sonra toplu işin tamamının işlenmesi gerekir.
  7. Yapılandırmayı doğrulamak için Bağlantıyı test et'e tıklayın.
  8. Kaydet'e tıklayın.

Başarısız dosya varış tetikleyicileriyle ilgili bildirimler alma

Bir dosya varış tetikleyicisi iş hatasıyla ilgili e-posta veya sistem hedefi bildirimlerini değerlendiremezse bildirim almak için, e-posta veya sistem hedefi bildirimlerini yapılandırın. bkz. İş olayları için e-posta ve sistem bildirimleri ekleme.