Memicu pekerjaan ketika file baru tiba
Anda dapat menggunakan pemicu kedatangan file untuk memicu eksekusi pekerjaan Azure Databricks Anda saat file baru tiba di lokasi eksternal seperti Amazon S3, penyimpanan Azure, atau Google Cloud Storage. Anda dapat menggunakan fitur ini ketika pekerjaan terjadwal mungkin tidak efisien karena data baru tiba pada jadwal yang tidak teratur.
Pemicu kedatangan file berupaya sebaik mungkin untuk memeriksa file baru setiap menit, meskipun hal ini dapat dipengaruhi oleh performa penyimpanan cloud yang mendasar. Pemicu kedatangan file tidak dikenakan biaya tambahan selain biaya penyedia cloud yang terkait dengan mencantumkan file di lokasi penyimpanan.
Pemicu kedatangan file dapat dikonfigurasi untuk memantau akar lokasi atau volume eksternal Katalog Unity, atau subpath lokasi atau volume eksternal. Misalnya, untuk volume /Volumes/mycatalog/myschema/myvolume/
akar Katalog Unity , berikut ini adalah jalur yang valid untuk pemicu kedatangan file:
/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/
Pemicu kedatangan file secara rekursif memeriksa file baru di semua subdirektori lokasi yang dikonfigurasi. Misalnya, jika Anda membuat pemicu kedatangan file untuk lokasi /Volumes/mycatalog/myschema/myvolume/mydirectory/
dan lokasi ini memiliki subdirektori berikut:
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirA
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirB
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirC/subdirD
Pemicu memeriksa file baru di mydirectory
, , subdirA
, subdirB
subdirC
, dan subdirC/subdirD
.
Persyaratan
Berikut ini diperlukan untuk menggunakan pemicu kedatangan file:
- Ruang kerja harus mengaktifkan Katalog Unity.
- Anda harus menggunakan lokasi penyimpanan yang merupakan volume Katalog Unity atau lokasi eksternal yang ditambahkan ke metastore Katalog Unity. Lihat Membuat lokasi eksternal untuk menyambungkan penyimpanan cloud ke Azure Databricks.
- Anda harus memiliki
READ
izin ke lokasi penyimpanan dan DAPAT MENGELOLA izin pada pekerjaan. Untuk informasi selengkapnya tentang izin pekerjaan, lihat ACL Pekerjaan.
Batasan
- Hanya pemicu file baru yang berjalan. Menimpa file yang ada dengan file dengan nama yang sama tidak memicu eksekusi.
- Maksimal lima puluh pekerjaan dapat dikonfigurasi dengan pemicu kedatangan file di ruang kerja Azure Databricks.
- Lokasi penyimpanan yang dikonfigurasi untuk pemicu kedatangan file hanya dapat berisi hingga 10.000 file. Lokasi dengan lebih banyak file tidak dapat dipantau untuk kedatangan file baru. Jika lokasi penyimpanan yang dikonfigurasi adalah subpath dari lokasi atau volume eksternal Katalog Unity, batas 10.000 file berlaku untuk subpath dan bukan akar lokasi penyimpanan. Misalnya, akar lokasi penyimpanan dapat berisi lebih dari 10.000 file di seluruh subdirektorinya, tetapi subdirektori yang dikonfigurasi tidak boleh melebihi batas file 10.000.
- Jalur yang digunakan untuk pemicu kedatangan file tidak boleh berisi tabel eksternal atau lokasi terkelola katalog dan skema.
- Jalur yang digunakan untuk pemicu kedatangan file tidak boleh berisi kartubebas, misalnya,
*
atau?
.
Menambahkan pemicu kedatangan file
Untuk menambahkan pemicu kedatangan file ke pekerjaan:
- Di bilah samping, klik Alur Kerja.
- Di kolom Nama pada tab Pekerjaan, klik nama pekerjaan.
- Di panel Detail pekerjaan di sebelah kanan, klik Tambahkan pemicu.
- Di Jenis pemicu, pilih Kedatangan file.
- Di Lokasi penyimpanan, masukkan URL akar atau subpath lokasi eksternal Katalog Unity atau akar atau subpath volume Katalog Unity untuk dipantau.
- (Opsional) Mengonfigurasi opsi tingkat lanjut:
- Waktu minimum antara pemicu dalam detik: Waktu minimum untuk menunggu untuk memicu eksekusi setelah eksekusi sebelumnya selesai. File yang tiba dalam periode ini memicu eksekusi hanya setelah waktu tunggu kedaluwarsa. Gunakan pengaturan ini untuk mengontrol frekuensi pembuatan eksekusi.
- Tunggu setelah perubahan terakhir dalam detik: Waktu untuk menunggu untuk memicu eksekusi setelah kedatangan file. Kedatangan file lain dalam periode ini mengatur ulang timer. Pengaturan ini dapat digunakan ketika file tiba dalam batch, dan seluruh batch perlu diproses setelah semua file tiba.
- Untuk memvalidasi konfigurasi, klik Uji koneksi.
- Klik Simpan.
Menerima pemberitahuan pemicu kedatangan file yang gagal
Untuk diberi tahu jika pemicu kedatangan file gagal dievaluasi, konfigurasikan email atau pemberitahuan tujuan sistem tentang kegagalan pekerjaan. Lihat Menambahkan pemberitahuan email dan sistem untuk peristiwa pekerjaan.