Bagikan melalui


Mengonfigurasi komputasi klasik untuk alur

Halaman ini berisi instruksi untuk mengonfigurasi komputasi klasik untuk Alur Deklaratif Lakeflow Spark. Untuk referensi skema JSON, lihat clusters definisi dalam referensi Pipeline API.

Untuk membuat alur yang berjalan pada komputasi klasik, pengguna harus terlebih dahulu memiliki izin untuk menyebarkan komputasi klasik, baik izin pembuatan yang tidak dibatasi atau akses ke kebijakan komputasi. Alur tanpa server tidak memerlukan izin pembuatan komputasi. Secara default, semua pengguna ruang kerja dapat menggunakan alur tanpa server.

Nota

Karena lingkungan runtime Alur Deklaratif Lakeflow Spark mengelola siklus hidup komputasi dari alur kerja dan menjalankan versi kustom dari Runtime Databricks, Anda tidak dapat mengatur beberapa pengaturan komputasi secara manual pada konfigurasi pipeline, seperti versi Spark atau nama kluster. Lihat Atribut kluster yang tidak dapat diatur pengguna.

Pilih kemampuan komputasi untuk jalur pemrosesan Anda

Untuk mengonfigurasi komputasi klasik untuk pipeline Anda dari Editor Lakeflow Pipelines:

  1. Klik Pengaturan.
  2. Di bagian Komputasi pengaturan alur, klik ikon Pensil. edit.
  3. Jika dicentang, hapus centang Tanpa Server.
  4. Buat perubahan lain pada pengaturan komputasi, lalu klik Simpan.

Ini mengonfigurasi alur Anda untuk menggunakan komputasi klasik, dan memungkinkan Anda mengedit pengaturan komputasi, seperti yang dijelaskan di bawah ini.

Untuk informasi selengkapnya tentang Editor Alur Lakeflow, lihat Mengembangkan dan men-debug alur ETL dengan Editor Alur Lakeflow.

Pilih kebijakan komputasi

Admin ruang kerja dapat mengonfigurasi kebijakan komputasi untuk memberi pengguna akses ke sumber daya komputasi klasik untuk alur. Kebijakan komputasi bersifat opsional. Tanyakan kepada administrator ruang kerja Anda jika Anda tidak memiliki hak komputasi yang diperlukan. Lihat Menentukan batas pada komputasi Alur Deklaratif Lakeflow Spark.

Saat menggunakan API Alur, untuk memastikan bahwa nilai default kebijakan komputasi diterapkan dengan benar, atur "apply_policy_default_values": true dalam clusters definisi:

{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}

Mengonfigurasi tag komputasi

Anda dapat menambahkan tag kustom ke sumber daya komputasi klasik alur Anda. Tag memungkinkan Anda memantau biaya sumber daya komputasi yang digunakan oleh berbagai grup di organisasi Anda. Databricks menerapkan tag ini ke sumber daya cloud dan ke log penggunaan yang dicatat dalam tabel sistem penggunaan. Anda dapat menambahkan tag menggunakan pengaturan antarmuka pengguna tag Kluster atau dengan mengedit konfigurasi JSON alur Anda.

Pilih tipe instance untuk menjalankan pipeline

Secara bawaan, Lakeflow Spark Declarative Pipelines memilih jenis instans untuk driver alur dan node pekerja Anda. Anda dapat secara opsional mengonfigurasi jenis instans. Misalnya, pilih jenis instans untuk meningkatkan performa alur atau mengatasi masalah memori saat menjalankan alur Anda.

Untuk mengonfigurasi tipe instans ketika Anda membuat atau mengedit pipeline di Lakeflow Pipelines Editor:

  1. Klik tombol Pengaturan.
  2. Di bagian Komputasi pengaturan alur, klik ikon Pensil..
  3. Di bagian Pengaturan tingkat lanjut, pilih jenis Pekerja dan jenis instans Driver untuk alur kerja.

Mengonfigurasi pengaturan terpisah untuk kluster pembaruan dan pemeliharaan

Setiap alur deklaratif memiliki dua sumber daya komputasi terkait: kluster pembaruan yang memproses pembaruan alur dan kluster pemeliharaan yang menjalankan tugas pemeliharaan harian (termasuk pengoptimalan prediktif). Secara default, konfigurasi komputasi Anda berlaku untuk kedua kluster ini. Menggunakan pengaturan yang sama untuk kedua kluster meningkatkan keandalan pemeliharaan yang dijalankan dengan memastikan bahwa konfigurasi yang diperlukan seperti kredensial akses data untuk lokasi penyimpanan diterapkan ke kluster pemeliharaan.

Untuk menerapkan pengaturan hanya ke salah satu dari dua kluster, tambahkan label bidang ke pengaturan objek JSON. Ada tiga nilai yang mungkin untuk bidang :label

  • maintenance: Menerapkan pengaturan hanya ke kluster pemeliharaan.
  • updates: Menerapkan pengaturan hanya ke kluster pembaruan.
  • default: Menerapkan pengaturan ke kluster pembaruan dan pemeliharaan. Ini adalah nilai default jika bidang dihilangkan label .

Jika ada pengaturan yang bertentangan, pengaturan dengan updates label atau maintenance akan mengambil alih pengaturan yang ditentukan dengan default label.

Nota

Kluster pemeliharaan harian hanya digunakan dalam kasus tertentu:

  • Alur disimpan di metastore Apache Hive.
  • Alur di ruang kerja yang belum menerima ketentuan layanan komputasi tanpa server. Jika Anda memerlukan bantuan untuk menerima persyaratan, hubungi perwakilan Databricks Anda.

Contoh: Menentukan pengaturan untuk kluster pembaruan

Contoh berikut mendefinisikan parameter konfigurasi Spark yang ditambahkan hanya ke konfigurasi untuk updates kluster:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

Contoh: Mengonfigurasi jenis instans untuk kluster pembaruan

Untuk menghindari penetapan sumber daya yang tidak perlu ke kluster maintenance, contoh ini menggunakan label updates untuk mengatur jenis instans hanya untuk kluster updates.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

Penundaan pematian komputasi

Untuk mengontrol perilaku matikan kluster, Anda dapat menggunakan mode pengembangan atau produksi atau menggunakan pipelines.clusterShutdown.delay pengaturan dalam konfigurasi alur. Contoh berikut mengatur pipelines.clusterShutdown.delay nilai menjadi 60 detik:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Saat mode production diaktifkan, nilai default untuk pipelines.clusterShutdown.delay adalah 0 seconds. Saat mode development diaktifkan, nilai defaultnya adalah 2 hours.

Nota

Karena sumber daya komputasi Lakeflow Spark Declarative Pipelines secara otomatis dimatikan saat tidak digunakan, Anda tidak dapat menggunakan kebijakan komputasi yang menetapkan autotermination_minutes. Ini menghasilkan kesalahan.

Membuat komputasi simpul tunggal

Komputasi simpul tunggal memiliki simpul driver yang bertindak sebagai master dan pekerja. Ini ditujukan untuk beban kerja yang menggunakan data dalam jumlah kecil atau tidak didistribusikan.

Untuk membuat komputasi simpul tunggal, atur num_workers ke 0. Contohnya:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}