DatabricksStep Kelas
Membuat langkah Alur Azure Machine Learning untuk menambahkan buku catatan DataBricks, skrip Python, atau JAR sebagai node.
Untuk contoh penggunaan DatabricksStep, lihat notebook https://aka.ms/pl-databricks.
Buat langkah Alur Azure ML untuk menambahkan buku catatan DataBricks, skrip Python, atau JAR sebagai simpul.
Untuk contoh penggunaan DatabricksStep, lihat notebook https://aka.ms/pl-databricks.
:p aram python_script_name:[Required] Nama skrip Python relatif terhadap source_directory
.
Jika skrip mengambil input dan output, input dan output tersebut akan diteruskan ke skrip sebagai parameter.
Jika python_script_name
ditentukan, maka source_directory
juga harus ditentukan.
Tentukan salah satu dari notebook_path
, python_script_path
, python_script_name
, atau main_class_name
.
Jika Anda menentukan objek DataReference sebagai input dengan data_reference_name=input1 dan objek PipelineData sebagai output dengan name=output1, maka input dan output akan diteruskan ke skrip sebagai parameter. Tampilannya akan terlihat seperti ini dan Anda akan perlu mengurai argumen dalam skrip Anda untuk mengakses jalur setiap input dan output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Selain itu, parameter berikut akan tersedia dalam skrip:
- AZUREML_RUN_TOKEN: Token AML untuk mengautentikasi dengan Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: Waktu kedaluwarsa token AML.
- AZUREML_RUN_ID: ID Eksekusi Azure Machine Learning untuk eksekusi ini.
- AZUREML_ARM_SUBSCRIPTION: Langganan Azure untuk ruang kerja AML Anda.
- AZUREML_ARM_RESOURCEGROUP: Grup sumber daya Azure untuk ruang kerja Azure Machine Learning Anda.
- AZUREML_ARM_WORKSPACE_NAME: Nama ruang kerja Azure Machine Learning Anda.
- AZUREML_ARM_PROJECT_NAME: Nama eksperimen Azure Machine Learning Anda.
- AZUREML_SERVICE_ENDPOINT: URL titik akhir untuk layanan AML.
- AZUREML_WORKSPACE_ID: ID ruang kerja Azure Machine Learning Anda.
- AZUREML_EXPERIMENT_ID: ID eksperimen Azure Machine Learning Anda.
- AZUREML_SCRIPT_DIRECTORY_NAME: Jalur direktori di DBFS tempat source_directory disalin.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Saat Anda menjalankan skrip Python dari komputer lokal Anda di Databricks menggunakan parameter source_directory
dan python_script_name
DatabricksStep, source_directory Anda disalin ke DBFS dan jalur direktori pada DBFS diteruskan sebagai parameter ke skrip Anda saat memulai eksekusi.
Parameter ini diberi label sebagai –AZUREML_SCRIPT_DIRECTORY_NAME. Anda perlu mengawalinya dengan string "dbfs:/" atau "/dbfs/" untuk mengakses direktori di DBFS.
- Warisan
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
Konstruktor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parameter
Nama | Deskripsi |
---|---|
name
Diperlukan
|
[Diperlukan] Nama langkah tersebut. |
inputs
|
Daftar koneksi input untuk data yang dikonsumsi oleh langkah ini. Ambil daftar ini dalam buku catatan menggunakan dbutils.widgets.get("input_name"). Dapat berupa DataReference atau PipelineData. DataReference menunjukkan bagian data yang ada di datastore. Pada dasarnya ini adalah jalur di datastore. DatabricksStep mendukung datastore yang merangkum DBFS, Azure blob, atau ADLS v1. PipelineData menunjukkan data perantara yang dihasilkan oleh langkah lain dalam sebuah alur. Nilai default: None
|
outputs
|
Daftar definisi port output untuk output yang dihasilkan oleh langkah ini. Ambil ini di dalam buku catatan menggunakan dbutils.widgets.get("output_name"). Harus merupakan PipelineData. Nilai default: None
|
existing_cluster_id
|
ID kluster dari kluster interaktif yang ada di ruang kerja Databricks. Jika meneruskan parameter ini, Anda tidak dapat meneruskan salah satu parameter berikut yang digunakan untuk membuat kluster baru:
Catatan: Untuk membuat kluster pekerjaan baru, Anda akan perlu meneruskan parameter di atas. Anda dapat meneruskan parameter ini secara langsung atau Anda dapat meneruskannya sebagai bagian dari objek RunConfiguration menggunakan parameter runconfig. Meneruskan parameter ini secara langsung dan melalui RunConfiguration akan menghasilkan kesalahan. Nilai default: None
|
spark_version
|
Versi spark untuk kluster eksekusi Databricks, misalnya: "10.4.x-scala2.12".
Untuk informasi selengkapnya, lihat deskripsi untuk parameter Nilai default: None
|
node_type
|
[Wajib] Jenis node Azure Virtual Machine untuk kluster eksekusi Databricks, misalnya: "Standard_D3_v2". Tentukan antara Nilai default: None
|
instance_pool_id
|
[Wajib] ID kumpulan instans tempat kluster perlu dilampirkan.
Tentukan antara Nilai default: None
|
num_workers
|
[Wajib] Jumlah statik pekerja untuk kluster eksekusi Databricks.
Anda harus menentukan Nilai default: None
|
min_workers
|
[Wajib] Jumlah minimum pekerja yang digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks.
Anda harus menentukan Nilai default: None
|
max_workers
|
[Wajib] Jumlah maksimal pekerja yang akan digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks.
Anda harus menentukan Nilai default: None
|
spark_env_variables
|
Variabel lingkungan spark untuk kluster eksekusi Databricks.
Untuk informasi selengkapnya, lihat deskripsi untuk parameter Nilai default: None
|
spark_conf
|
Konfigurasi spark untuk kluster eksekusi Databricks.
Untuk informasi selengkapnya, lihat deskripsi untuk parameter Nilai default: None
|
init_scripts
|
[str]
Dihentikan. Databricks mengumumkan skrip init yang disimpan di DBFS akan berhenti berfungsi setelah 1 Des 2023. Untuk mengurangi masalah, silakan 1) gunakan skrip init global di databricks setelah https://learn.microsoft.com/azure/databricks/init-scripts/global 2) komentari baris init_scripts di langkah AzureML databricks Anda. Nilai default: None
|
cluster_log_dbfs_path
|
Jalur DBFS tempat log kluster akan dikirimkan. Nilai default: None
|
notebook_path
|
[Wajib] Jalur ke buku catatan dalam instans Databricks. Kelas ini memungkinkan empat cara untuk menentukan kode yang akan dieksekusi di kluster Databricks.
Tentukan salah satu dari Nilai default: None
|
notebook_params
|
Kamus parameter untuk diteruskan ke buku catatan.
Nilai default: None
|
python_script_path
|
[Wajib] Jalur ke skrip python di DBFS.
Tentukan salah satu dari Nilai default: None
|
python_script_params
|
Parameter untuk skrip Python. Nilai default: None
|
main_class_name
|
[Wajib] Nama titik entri dalam modul JAR.
Tentukan salah satu dari Nilai default: None
|
jar_params
|
Parameter untuk modul JAR. Nilai default: None
|
python_script_name
|
[Wajib] Nama skrip Python relatif terhadap Tentukan salah satu dari Jika Anda menentukan objek DataReference sebagai input dengan data_reference_name=input1 dan objek PipelineData sebagai output dengan name=output1, maka input dan output akan diteruskan ke skrip sebagai parameter. Tampilannya akan terlihat seperti ini dan Anda akan perlu mengurai argumen dalam skrip Anda untuk mengakses jalur setiap input dan output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Selain itu, parameter berikut akan tersedia dalam skrip:
Saat Anda menjalankan skrip Python dari komputer lokal Anda di Databricks menggunakan parameter Nilai default: None
|
source_directory
|
Folder yang berisi script dan file lainnya.
Jika Nilai default: None
|
hash_paths
|
[str]
TIDAK DIGUNAKAN LAGI: tidak lagi diperlukan. Daftar jalur ke hash saat memeriksa perubahan ke konten langkah. Jika tidak ada perubahan yang terdeteksi, alur akan menggunakan ulang konten langkah dari eksekusi sebelumnya. Secara default, konten Nilai default: None
|
run_name
|
Nama dalam Databricks untuk eksekusi ini. Nilai default: None
|
timeout_seconds
|
Batas waktu untuk eksekusi Databricks. Nilai default: None
|
runconfig
|
Runconfig yang akan digunakan. Catatan: Anda dapat meneruskan pustaka sebanyak yang Anda inginkan sebagai dependensi ke pekerjaan menggunakan parameter berikut: Nilai default: None
|
maven_libraries
|
Pustaka Maven yang akan digunakan untuk eksekusi Databricks. Nilai default: None
|
pypi_libraries
|
Pustaka PyPi yang akan digunakan untuk eksekusi Databricks. Nilai default: None
|
egg_libraries
|
Pustaka Egg yang akan digunakan untuk eksekusi Databricks. Nilai default: None
|
jar_libraries
|
Pustaka Jar yang akan digunakan untuk eksekusi Databricks. Nilai default: None
|
rcran_libraries
|
Pustaka RCran yang akan digunakan untuk eksekusi Databricks. Nilai default: None
|
compute_target
|
[Wajib] Komputasi Azure Databricks. Sebelum Anda dapat menggunakan DatabricksStep untuk menjalankan skrip atau buku catatan di ruang kerja Azure Databricks, Anda perlu menambahkan ruang kerja Azure Databricks sebagai target komputasi ke ruang kerja Azure Machine Learning. Nilai default: None
|
allow_reuse
|
Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan lagi dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika konten langkah (skrip/dependensi) serta input dan parameter tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mengirimkan pekerjaan ke komputasi, hasil dari eksekusi sebelumnya segera dibuat tersedia untuk langkah selanjutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh apakah data yang mendasarinya telah berubah. Nilai default: True
|
version
|
Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut. Nilai default: None
|
permit_cluster_restart
|
jika existing_cluster_id ditentukan, parameter ini memberi tahu apakah kluster dapat dimulai ulang atas nama pengguna. Nilai default: None
|
name
Diperlukan
|
[Diperlukan] Nama langkah tersebut. |
inputs
Diperlukan
|
Daftar koneksi input untuk data yang digunakan oleh langkah ini. Ambil daftar ini dalam buku catatan menggunakan dbutils.widgets.get("input_name"). Dapat berupa DataReference atau PipelineData. DataReference menunjukkan bagian data yang ada di datastore. Pada dasarnya ini adalah jalur di datastore. DatabricksStep mendukung datastore yang merangkum DBFS, blob Azure, atau ADLS v1. PipelineData menunjukkan data perantara yang dihasilkan oleh langkah lain dalam sebuah alur. |
outputs
Diperlukan
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Daftar definisi port output untuk output yang dihasilkan oleh langkah ini. Ambil ini di dalam buku catatan menggunakan dbutils.widgets.get("output_name"). Harus merupakan PipelineData. |
existing_cluster_id
Diperlukan
|
ID kluster dari kluster interaktif yang ada di ruang kerja Databricks. Jika meneruskan parameter ini, Anda tidak dapat meneruskan salah satu parameter berikut yang digunakan untuk membuat kluster baru:
Catatan: Untuk membuat kluster pekerjaan baru, Anda akan perlu meneruskan parameter di atas. Anda dapat meneruskan parameter ini secara langsung atau Anda dapat meneruskannya sebagai bagian dari objek RunConfiguration menggunakan parameter runconfig. Meneruskan parameter ini secara langsung dan melalui RunConfiguration akan menghasilkan kesalahan. |
spark_version
Diperlukan
|
Versi spark untuk kluster eksekusi Databricks, misalnya: "10.4.x-scala2.12".
Untuk informasi selengkapnya, lihat deskripsi untuk parameter |
node_type
Diperlukan
|
[Wajib] Jenis node Azure Virtual Machine untuk kluster eksekusi Databricks, misalnya: "Standard_D3_v2". Tentukan antara |
instance_pool_id
Diperlukan
|
[Wajib] ID kumpulan instans tempat kluster perlu dilampirkan.
Tentukan antara |
num_workers
Diperlukan
|
[Wajib] Jumlah statik pekerja untuk kluster eksekusi Databricks.
Anda harus menentukan Untuk informasi selengkapnya, lihat deskripsi untuk parameter |
min_workers
Diperlukan
|
[Wajib] Jumlah minimum pekerja yang digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks.
Anda harus menentukan Untuk informasi selengkapnya, lihat deskripsi untuk parameter |
max_workers
Diperlukan
|
[Wajib] Jumlah maksimal pekerja yang akan digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks.
Anda harus menentukan Untuk informasi selengkapnya, lihat deskripsi untuk parameter |
spark_env_variables
Diperlukan
|
Variabel lingkungan spark untuk kluster eksekusi Databricks.
Untuk informasi selengkapnya, lihat deskripsi untuk parameter |
spark_conf
Diperlukan
|
Konfigurasi spark untuk kluster eksekusi Databricks.
Untuk informasi selengkapnya, lihat deskripsi untuk parameter |
init_scripts
Diperlukan
|
[str]
Dihentikan. Databricks mengumumkan skrip init yang disimpan di DBFS akan berhenti berfungsi setelah 1 Des 2023. Untuk mengurangi masalah, silakan 1) gunakan skrip init global di databricks setelah https://learn.microsoft.com/azure/databricks/init-scripts/global 2) komentari baris init_scripts di langkah AzureML databricks Anda. |
cluster_log_dbfs_path
Diperlukan
|
Jalur DBFS tempat log kluster akan dikirimkan. |
notebook_path
Diperlukan
|
[Wajib] Jalur ke buku catatan dalam instans Databricks. Kelas ini memungkinkan empat cara untuk menentukan kode yang akan dieksekusi di kluster Databricks.
Tentukan salah satu dari |
notebook_params
Diperlukan
|
Kamus parameter untuk diteruskan ke buku catatan.
|
python_script_path
Diperlukan
|
[Wajib] Jalur ke skrip python di DBFS.
Tentukan salah satu dari |
python_script_params
Diperlukan
|
Parameter untuk skrip Python. |
main_class_name
Diperlukan
|
[Wajib] Nama titik entri dalam modul JAR.
Tentukan salah satu dari |
jar_params
Diperlukan
|
Parameter untuk modul JAR. |
source_directory
Diperlukan
|
Folder yang berisi script dan file lainnya.
Jika |
hash_paths
Diperlukan
|
[str]
TIDAK DIGUNAKAN LAGI: tidak lagi diperlukan. Daftar jalur ke hash saat memeriksa perubahan ke konten langkah. Jika tidak ada perubahan yang terdeteksi, alur akan menggunakan ulang konten langkah dari eksekusi sebelumnya. Secara default, konten |
run_name
Diperlukan
|
Nama dalam Databricks untuk eksekusi ini. |
timeout_seconds
Diperlukan
|
Batas waktu untuk eksekusi Databricks. |
runconfig
Diperlukan
|
Runconfig yang akan digunakan. Catatan: Anda dapat meneruskan pustaka sebanyak yang Anda inginkan sebagai dependensi ke pekerjaan menggunakan parameter berikut: |
maven_libraries
Diperlukan
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
Pustaka Maven yang akan digunakan untuk eksekusi Databricks.
Untuk informasi selengkapnya tentang spesifikasi pustaka Maven, lihat |
pypi_libraries
Diperlukan
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Pustaka PyPi yang akan digunakan untuk eksekusi Databricks.
Untuk informasi selengkapnya tentang spesifikasi pustaka PyPi, lihat |
egg_libraries
Diperlukan
|
list[<xref:azureml.core.runconfig.EggLibrary>]
Pustaka Egg yang akan digunakan untuk eksekusi Databricks.
Untuk informasi selengkapnya tentang spesifikasi pustaka Telur, lihat |
jar_libraries
Diperlukan
|
list[<xref:azureml.core.runconfig.JarLibrary>]
Pustaka Jar yang akan digunakan untuk eksekusi Databricks.
Untuk informasi selengkapnya tentang spesifikasi pustaka Jar, lihat |
rcran_libraries
Diperlukan
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
Pustaka RCran yang akan digunakan untuk eksekusi Databricks.
Untuk informasi selengkapnya tentang spesifikasi pustaka RCran, lihat |
compute_target
Diperlukan
|
[Diperlukan] Komputasi Azure Databricks. Sebelum Anda dapat menggunakan DatabricksStep untuk menjalankan skrip atau buku catatan di ruang kerja Azure Databricks, Anda perlu menambahkan ruang kerja Azure Databricks sebagai target komputasi ke ruang kerja Azure Machine Learning. |
allow_reuse
Diperlukan
|
Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan lagi dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika konten langkah (skrip/dependensi) serta input dan parameter tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mengirimkan pekerjaan ke komputasi, hasil dari eksekusi sebelumnya segera dibuat tersedia untuk langkah selanjutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh apakah data yang mendasarinya telah berubah. |
version
Diperlukan
|
Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut. |
permit_cluster_restart
Diperlukan
|
jika existing_cluster_id ditentukan, parameter ini memberi tahu apakah kluster dapat dimulai ulang atas nama pengguna. |
Metode
create_node |
Buat node dari langkah Databricks dan tambahkan ke grafik yang ditentukan. Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja. |
create_node
Buat node dari langkah Databricks dan tambahkan ke grafik yang ditentukan.
Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.
create_node(graph, default_datastore, context)
Parameter
Nama | Deskripsi |
---|---|
graph
Diperlukan
|
Objek grafik untuk menambahkan node. |
default_datastore
Diperlukan
|
Datastore default. |
context
Diperlukan
|
<xref:azureml.pipeline.core._GraphContext>
Konteks grafik. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Node yang dibuat. |