Bagikan melalui


Persyaratan dan batasan komputasi standar

Halaman ini mencakup daftar persyaratan dan batasan untuk komputasi standar. Jika Anda menggunakan komputasi klasik, Databricks merekomendasikan penggunaan mode akses standar kecuali beban kerja Anda bergantung pada salah satu batasan yang tercantum di bawah ini.

Penting

Skrip dan pustaka init memiliki dukungan yang berbeda di seluruh mode akses dan versi Databricks Runtime. Lihat Di mana skrip init dapat diinstal? dan pustaka dengan jangkauan komputasi.

Batasan komputasi standar saat ini

Bagian berikut mencantumkan batasan untuk komputasi standar berdasarkan versi Databricks Runtime terbaru. Untuk batasan yang berlaku untuk versi Databricks Runtime yang lebih lama, lihat Batasan yang bergantung pada runtime.

Jika fitur-fitur ini diperlukan untuk beban kerja Anda, gunakan komputasi khusus sebagai gantinya.

Batasan komputasi standar umum

  • Runtime Databricks untuk ML tidak didukung. Sebagai gantinya, instal pustaka ML apa pun yang tidak dibundel dengan Databricks Runtime sebagai pustaka cakupan komputasi.
  • Komputasi berkemampuan GPU tidak didukung.
  • Tugas pekerjaan Spark-submit tidak didukung. Gunakan tugas JAR sebagai gantinya.
  • DBUtils dan klien lain hanya dapat membaca dari penyimpanan cloud menggunakan lokasi eksternal.
  • Kontainer kustom tidak didukung.
  • Root dan mount DBFS tidak memiliki dukungan FUSE.

Batasan bahasa

  • R tidak didukung.

Batasan Spark API

  • Konteks Spark (sc), spark.sparkContext, dan sqlContext tidak didukung untuk Scala:
    • Azure Databricks merekomendasikan penggunaan spark variabel untuk berinteraksi dengan SparkSession instans.
    • Fungsi berikut juga tidak didukung: sc, emptyRDD, range, init_batched_serializer, parallelize, pickleFile, textFile, wholeTextFiles, binaryFiles, binaryRecords, sequenceFile, newAPIHadoopFile, newAPIHadoopRDD, hadoopFile, hadoopRDD, union, runJob, setSystemProperty, uiWebUrl, stop, setJobGroup, setLocalProperty, getConf.
  • Properti konfigurasi Spark spark.executor.extraJavaOptions tidak didukung.
  • Saat membuat DataFrame dari data lokal menggunakan spark.createDataFrame, ukuran baris tidak boleh melebihi 128MB.
  • API RDD tidak didukung.
  • Spark Connect, yang digunakan dalam versi terbaru Databricks Runtime, menunda analisis dan resolusi nama sampai waktu eksekusi, yang dapat mengubah perilaku kode Anda. Lihat Membandingkan Spark Connect dengan Spark Classic.

Batasan UDF

Batasan streaming

Nota

Beberapa opsi Kafka yang tercantum memiliki dukungan terbatas saat digunakan untuk konfigurasi yang didukung di Azure Databricks. Semua batasan Kafka yang tercantum berlaku untuk pemrosesan batch dan streaming. Lihat Pemrosesan aliran dengan Apache Kafka dan Azure Databricks.

  • Anda tidak dapat menggunakan format statestore dan state-metadata untuk mengkueri informasi status untuk kueri streaming stateful.
  • Penggunaan sumber daya soket tidak didukung.
  • sourceArchiveDir harus berada di lokasi eksternal yang sama dengan sumber saat Anda menggunakan option("cleanSource", "archive") dengan sumber data yang dikelola oleh Katalog Unity.
  • Untuk sumber dan sink Kafka, opsi berikut tidak didukung:
    • kafka.sasl.client.callback.handler.class
    • kafka.sasl.login.callback.handler.class
    • kafka.sasl.login.class
    • kafka.partition.assignment.strategy

Batasan jaringan dan sistem file

  • Komputasi standar menjalankan perintah sebagai pengguna dengan hak istimewa rendah dilarang mengakses bagian sensitif sistem file.
  • Jalur gaya POSIX (/) untuk DBFS tidak didukung.
  • Hanya admin ruang kerja dan pengguna dengan izin FILE APA PUN yang dapat langsung berinteraksi dengan file menggunakan DBFS.
  • Anda tidak dapat tersambung ke layanan metadata instans atau Azure WireServer.

Batasan kernel Scala

Batasan berikut berlaku saat menggunakan kernel scala pada komputasi standar:

  • Kelas tertentu tidak dapat digunakan dalam kode Anda jika bertentangan dengan pustaka kernel almond internal, terutama Input. Untuk daftar impor almond yang telah ditetapkan, lihat impor almond.
  • Pengelogan langsung ke log4j tidak didukung.
  • Di UI, menu tarik-turun skema dataframe tidak didukung.
  • Jika driver Anda menekan OOM, REPL Scala tidak akan berakhir.
  • //connector/sql-aws-connectors:sql-aws-connectors tidak berada dalam target bazel Scala REPL, gunakan hasil dalam ClassNotFoundException.
  • Kernel Scala tidak kompatibel dengan SQLImplicits.

Batasan dependen runtime

Batasan berikut telah diselesaikan melalui pembaruan runtime, tetapi mungkin masih berlaku untuk beban kerja Anda jika Anda menggunakan runtime yang lebih lama.

Dukungan bahasa

Fitur Versi Runtime Databricks yang diperlukan
Scala 13.3 atau lebih tinggi
Semua pustaka Java dan Scala yang dibundel runtime tersedia secara default 15.4 LTS atau lebih tinggi (untuk 15.3 atau di bawahnya, atur spark.databricks.scala.kernel.fullClasspath.enabled=true)

Dukungan Spark API

Fitur Versi Runtime Databricks yang diperlukan
Spark ML 17.0 atau lebih tinggi
Python: SparkContext (sc), spark.sparkContext, sqlContext 14.0 atau lebih tinggi
Operasi ScalaDataset: map, , mapPartitions, foreachPartitionflatMap, , reducefilter 15.4 LTS atau lebih tinggi

Dukungan UDF

Fitur Versi Runtime Databricks yang diperlukan
applyInPandas, mapInPandas 14.3 LTS atau lebih tinggi
UDF skalar Scala dan UDAF Scala 14.3 LTS atau lebih tinggi
Mengimpor modul dari folder Git, file ruang kerja, atau volume di UDF PySpark 14.3 LTS atau lebih tinggi
Menggunakan versi grpckustom , pyarrow, atau protobuf di UDF PySpark melalui pustaka notebook atau cakupan komputasi 14.3 LTS atau lebih tinggi
UDF Python dan Pandas non-skalar, termasuk UDAF, UDTF, dan Panda di Spark 14.3 LTS atau lebih tinggi
UDF skalar Python dan UDF Pandas 13.3 LTS atau lebih tinggi

Dukungan streaming

Fitur Versi Runtime Databricks yang diperlukan
transformWithStateInPandas 16.3 atau lebih tinggi
applyInPandasWithState 14.3 LTS atau lebih tinggi
Scala foreach 16.1 atau lebih tinggi
Scala foreachBatch dan flatMapGroupsWithState 16.2 atau lebih tinggi
Scala from_avro 14.2 atau lebih tinggi
Opsi kafka.ssl.truststore.location Kafka dan kafka.ssl.keystore.location (lokasi yang ditentukan harus merupakan lokasi eksternal yang dikelola oleh Katalog Unity) 13.3 LTS atau lebih tinggi
Scala StreamingQueryListener 16.1 atau lebih tinggi
Python StreamingQueryListener berinteraksi dengan objek yang dikelola Katalog Unity 14.3 LTS atau lebih tinggi

Selain itu, untuk Python, foreachBatch memiliki perubahan perilaku berikut pada Databricks Runtime 14.0 ke atas:

  • print() perintah menuliskan keluaran ke dalam log driver.
  • Anda tidak dapat mengakses dbutils.widgets submodul di dalam fungsi.
  • Setiap file, modul, atau objek yang dirujuk dalam fungsi harus dapat diserialisasikan dan tersedia di Spark.

Dukungan jaringan dan sistem file

Fitur Versi Runtime Databricks yang diperlukan
Koneksi ke port selain 80 dan 443 12.2 LTS atau lebih tinggi