Batasan Rangkaian Proses

Berikut ini adalah batasan Alur Deklaratif Lakeflow Spark yang penting untuk diketahui saat Anda mengembangkan alur Anda:

  • Ruang kerja Azure Databricks dibatasi hingga 1000 pembaruan alur bersamaan. Jumlah himpunan data yang dapat dimuat oleh satu alur ditentukan oleh konfigurasi alur dan kompleksitas beban kerja.

  • Konfigurasi alur mencakup referensi ke file dan folder sumber.

    • Jika konfigurasi hanya mereferensikan buku catatan atau file individual, batas per alur adalah 100 file sumber.

    • Jika konfigurasi menyertakan folder, Anda dapat menyertakan hingga 50 entri sumber yang terdiri dari file atau folder.

      Mereferensikan folder secara tidak langsung mereferensikan file dalam folder tersebut. Dalam hal ini, batas jumlah file yang dirujuk (secara langsung atau tidak langsung) adalah 1000.

    Jika Anda memerlukan lebih dari 100 file sumber, atur file tersebut ke dalam folder. Untuk mempelajari cara menggunakan folder untuk menampung file sumber, lihat Peramban aset pipeline di editor alur Lakeflow.

  • Himpunan data alur hanya dapat ditentukan sekali. Karena itu, mereka dapat menjadi target hanya satu operasi di semua alur. Pengecualiannya adalah tabel streaming dengan pemrosesan alur tambahan, yang memungkinkan Anda menulis ke tabel streaming dari beberapa sumber streaming. Lihat Menggunakan beberapa alur untuk menulis ke satu target.

  • Kolom identitas memiliki batasan berikut. Untuk mempelajari selengkapnya tentang kolom identitas dalam tabel Delta, lihat Menggunakan kolom identitas di Delta Lake.

    • Kolom identitas tidak dapat digunakan pada tabel yang menjadi target pemrosesan CDC OTOMATIS.
    • Kolom identitas mungkin dikomputasi ulang selama pembaruan pada tampilan materialisasi. Karena itu, Databricks merekomendasikan penggunaan kolom identitas hanya dalam alur yang menggunakan tabel streaming.
  • Tampilan materialisasi dan tabel streaming yang diterbitkan dari alur, termasuk yang dibuat oleh Databricks SQL, hanya dapat diakses oleh klien dan aplikasi Azure Databricks. Namun, untuk membuat tampilan materialisasi dan tabel streaming Anda dapat diakses secara eksternal, Anda dapat menggunakan sink API untuk menulis ke tabel dalam instans Delta eksternal. Lihat Sink di Alur Deklaratif Lakeflow Spark.

  • Ada batasan untuk komputasi Databricks yang diperlukan untuk menjalankan dan mengkueri alur Katalog Unity. Lihat Persyaratan untuk pipeline yang menerbitkan ke Unity Catalog.

  • Kueri perjalanan waktu Delta Lake hanya didukung dengan tabel streaming, dan tidak didukung dengan tampilan materialisasi. Lihat Bekerja dengan riwayat tabel.

  • Anda tidak dapat mengaktifkan pembacaan Iceberg pada tampilan terwujud dan tabel streaming.

  • Fungsi pivot() tidak didukung. Operasi pivot di Spark memerlukan pemrosesan awal data input untuk menghitung skema output. Kapabilitas ini tidak didukung dalam pipeline.

Untuk kuota sumber daya Lakeflow Spark Declarative Pipelines, lihat Batas sumber daya.