Bagikan melalui


DatabricksStep Kelas

Membuat langkah Alur Azure Machine Learning untuk menambahkan buku catatan DataBricks, skrip Python, atau JAR sebagai node.

Untuk contoh penggunaan DatabricksStep, lihat notebook https://aka.ms/pl-databricks.

Buat langkah Alur Azure ML untuk menambahkan buku catatan DataBricks, skrip Python, atau JAR sebagai simpul.

Untuk contoh penggunaan DatabricksStep, lihat notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Required] Nama skrip Python relatif terhadap source_directory. Jika skrip mengambil input dan output, input dan output tersebut akan diteruskan ke skrip sebagai parameter. Jika python_script_name ditentukan, maka source_directory juga harus ditentukan.

Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

Jika Anda menentukan objek DataReference sebagai input dengan data_reference_name=input1 dan objek PipelineData sebagai output dengan name=output1, maka input dan output akan diteruskan ke skrip sebagai parameter. Tampilannya akan terlihat seperti ini dan Anda akan perlu mengurai argumen dalam skrip Anda untuk mengakses jalur setiap input dan output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Selain itu, parameter berikut akan tersedia dalam skrip:

  • AZUREML_RUN_TOKEN: Token AML untuk mengautentikasi dengan Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: Waktu kedaluwarsa token AML.
  • AZUREML_RUN_ID: ID Eksekusi Azure Machine Learning untuk eksekusi ini.
  • AZUREML_ARM_SUBSCRIPTION: Langganan Azure untuk ruang kerja AML Anda.
  • AZUREML_ARM_RESOURCEGROUP: Grup sumber daya Azure untuk ruang kerja Azure Machine Learning Anda.
  • AZUREML_ARM_WORKSPACE_NAME: Nama ruang kerja Azure Machine Learning Anda.
  • AZUREML_ARM_PROJECT_NAME: Nama eksperimen Azure Machine Learning Anda.
  • AZUREML_SERVICE_ENDPOINT: URL titik akhir untuk layanan AML.
  • AZUREML_WORKSPACE_ID: ID ruang kerja Azure Machine Learning Anda.
  • AZUREML_EXPERIMENT_ID: ID eksperimen Azure Machine Learning Anda.
  • AZUREML_SCRIPT_DIRECTORY_NAME: Jalur direktori di DBFS tempat source_directory disalin.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Saat Anda menjalankan skrip Python dari komputer lokal Anda di Databricks menggunakan parameter source_directory dan python_script_name DatabricksStep, source_directory Anda disalin ke DBFS dan jalur direktori pada DBFS diteruskan sebagai parameter ke skrip Anda saat memulai eksekusi. Parameter ini diberi label sebagai –AZUREML_SCRIPT_DIRECTORY_NAME. Anda perlu mengawalinya dengan string "dbfs:/" atau "/dbfs/" untuk mengakses direktori di DBFS.

Warisan
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

Konstruktor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parameter

Nama Deskripsi
name
Diperlukan
str

[Diperlukan] Nama langkah tersebut.

inputs

Daftar koneksi input untuk data yang dikonsumsi oleh langkah ini. Ambil daftar ini dalam buku catatan menggunakan dbutils.widgets.get("input_name"). Dapat berupa DataReference atau PipelineData. DataReference menunjukkan bagian data yang ada di datastore. Pada dasarnya ini adalah jalur di datastore. DatabricksStep mendukung datastore yang merangkum DBFS, Azure blob, atau ADLS v1. PipelineData menunjukkan data perantara yang dihasilkan oleh langkah lain dalam sebuah alur.

Nilai default: None
outputs

Daftar definisi port output untuk output yang dihasilkan oleh langkah ini. Ambil ini di dalam buku catatan menggunakan dbutils.widgets.get("output_name"). Harus merupakan PipelineData.

Nilai default: None
existing_cluster_id
str

ID kluster dari kluster interaktif yang ada di ruang kerja Databricks. Jika meneruskan parameter ini, Anda tidak dapat meneruskan salah satu parameter berikut yang digunakan untuk membuat kluster baru:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Catatan: Untuk membuat kluster pekerjaan baru, Anda akan perlu meneruskan parameter di atas. Anda dapat meneruskan parameter ini secara langsung atau Anda dapat meneruskannya sebagai bagian dari objek RunConfiguration menggunakan parameter runconfig. Meneruskan parameter ini secara langsung dan melalui RunConfiguration akan menghasilkan kesalahan.

Nilai default: None
spark_version
str

Versi spark untuk kluster eksekusi Databricks, misalnya: "10.4.x-scala2.12". Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

Nilai default: None
node_type
str

[Wajib] Jenis node Azure Virtual Machine untuk kluster eksekusi Databricks, misalnya: "Standard_D3_v2". Tentukan antara node_type atau instance_pool_id. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

Nilai default: None
instance_pool_id
str

[Wajib] ID kumpulan instans tempat kluster perlu dilampirkan. Tentukan antara node_type atau instance_pool_id. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

Nilai default: None
num_workers
int

[Wajib] Jumlah statik pekerja untuk kluster eksekusi Databricks. Anda harus menentukan num_workers atau keduanya min_workers dan max_workers. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

Nilai default: None
min_workers
int

[Wajib] Jumlah minimum pekerja yang digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks. Anda harus menentukan num_workers atau keduanya min_workers dan max_workers. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

Nilai default: None
max_workers
int

[Wajib] Jumlah maksimal pekerja yang akan digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks. Anda harus menentukan num_workers atau keduanya min_workers dan max_workers. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

Nilai default: None
spark_env_variables

Variabel lingkungan spark untuk kluster eksekusi Databricks. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

Nilai default: None
spark_conf

Konfigurasi spark untuk kluster eksekusi Databricks. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

Nilai default: None
init_scripts
[str]

Dihentikan. Databricks mengumumkan skrip init yang disimpan di DBFS akan berhenti berfungsi setelah 1 Des 2023. Untuk mengurangi masalah, silakan 1) gunakan skrip init global di databricks setelah https://learn.microsoft.com/azure/databricks/init-scripts/global 2) komentari baris init_scripts di langkah AzureML databricks Anda.

Nilai default: None
cluster_log_dbfs_path
str

Jalur DBFS tempat log kluster akan dikirimkan.

Nilai default: None
notebook_path
str

[Wajib] Jalur ke buku catatan dalam instans Databricks. Kelas ini memungkinkan empat cara untuk menentukan kode yang akan dieksekusi di kluster Databricks.

  1. Untuk menjalankan buku catatan yang ada di ruang kerja Databricks, gunakan: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Untuk menjalankan skrip Python yang ada di DBFS, gunakan: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Untuk menjalankan JAR yang ada di DBFS, gunakan: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Untuk menjalankan skrip Python yang ada di komputer lokal Anda, gunakan: python_script_name=python_script_name, source_directory=source_directory

Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

Nilai default: None
notebook_params

Kamus parameter untuk diteruskan ke buku catatan. notebook_params tersedia sebagai widget. Anda dapat mengambil nilai dari widget ini di dalam buku catatan menggunakan dbutils.widgets.get("myparam").

Nilai default: None
python_script_path
str

[Wajib] Jalur ke skrip python di DBFS. Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

Nilai default: None
python_script_params

Parameter untuk skrip Python.

Nilai default: None
main_class_name
str

[Wajib] Nama titik entri dalam modul JAR. Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

Nilai default: None
jar_params

Parameter untuk modul JAR.

Nilai default: None
python_script_name
str

[Wajib] Nama skrip Python relatif terhadap source_directory. Jika skrip mengambil input dan output, input dan output tersebut akan diteruskan ke skrip sebagai parameter. Jika python_script_name ditentukan, maka source_directory juga harus ditentukan.

Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

Jika Anda menentukan objek DataReference sebagai input dengan data_reference_name=input1 dan objek PipelineData sebagai output dengan name=output1, maka input dan output akan diteruskan ke skrip sebagai parameter. Tampilannya akan terlihat seperti ini dan Anda akan perlu mengurai argumen dalam skrip Anda untuk mengakses jalur setiap input dan output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Selain itu, parameter berikut akan tersedia dalam skrip:

  • AZUREML_RUN_TOKEN: Token AML untuk mengautentikasi dengan Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: Waktu kedaluwarsa token AML.
  • AZUREML_RUN_ID: ID Eksekusi Azure Machine Learning untuk eksekusi ini.
  • AZUREML_ARM_SUBSCRIPTION: Langganan Azure untuk ruang kerja AML Anda.
  • AZUREML_ARM_RESOURCEGROUP: Grup sumber daya Azure untuk ruang kerja Azure Machine Learning Anda.
  • AZUREML_ARM_WORKSPACE_NAME: Nama ruang kerja Azure Machine Learning Anda.
  • AZUREML_ARM_PROJECT_NAME: Nama eksperimen Azure Machine Learning Anda.
  • AZUREML_SERVICE_ENDPOINT: URL titik akhir untuk layanan AML.
  • AZUREML_WORKSPACE_ID: ID ruang kerja Azure Machine Learning Anda.
  • AZUREML_EXPERIMENT_ID: ID eksperimen Azure Machine Learning Anda.
  • AZUREML_SCRIPT_DIRECTORY_NAME: Jalur direktori di DBFS tempat source_directory disalin. (Parameter ini hanya diisi saat python_script_name digunakan. Lihat detail selengkapnya di bawah ini.)

Saat Anda menjalankan skrip Python dari komputer lokal Anda di Databricks menggunakan parameter source_directory dan python_script_name DatabricksStep, source_directory Anda disalin ke DBFS dan jalur direktori pada DBFS diteruskan sebagai parameter ke skrip Anda saat memulai eksekusi. Parameter ini diberi label sebagai –AZUREML_SCRIPT_DIRECTORY_NAME. Anda perlu mengawalinya dengan string "dbfs:/" atau "/dbfs/" untuk mengakses direktori di DBFS.

Nilai default: None
source_directory
str

Folder yang berisi script dan file lainnya. Jika python_script_name ditentukan, maka source_directory juga harus ditentukan.

Nilai default: None
hash_paths
[str]

TIDAK DIGUNAKAN LAGI: tidak lagi diperlukan.

Daftar jalur ke hash saat memeriksa perubahan ke konten langkah. Jika tidak ada perubahan yang terdeteksi, alur akan menggunakan ulang konten langkah dari eksekusi sebelumnya. Secara default, konten source_directory di-hash kecuali untuk file yang terdaftar di .amlignore atau .gitignore.

Nilai default: None
run_name
str

Nama dalam Databricks untuk eksekusi ini.

Nilai default: None
timeout_seconds
int

Batas waktu untuk eksekusi Databricks.

Nilai default: None
runconfig

Runconfig yang akan digunakan.

Catatan: Anda dapat meneruskan pustaka sebanyak yang Anda inginkan sebagai dependensi ke pekerjaan menggunakan parameter berikut: maven_libraries, pypi_libraries, egg_libraries, jar_libraries, atau rcran_libraries. Teruskan parameter ini secara langsung dengan parameter terkaitnya atau sebagai bagian dari objek RunConfiguration menggunakan parameter runconfig, tetapi tidak keduanya.

Nilai default: None
maven_libraries

Pustaka Maven yang akan digunakan untuk eksekusi Databricks.

Nilai default: None
pypi_libraries

Pustaka PyPi yang akan digunakan untuk eksekusi Databricks.

Nilai default: None
egg_libraries

Pustaka Egg yang akan digunakan untuk eksekusi Databricks.

Nilai default: None
jar_libraries

Pustaka Jar yang akan digunakan untuk eksekusi Databricks.

Nilai default: None
rcran_libraries

Pustaka RCran yang akan digunakan untuk eksekusi Databricks.

Nilai default: None
compute_target

[Wajib] Komputasi Azure Databricks. Sebelum Anda dapat menggunakan DatabricksStep untuk menjalankan skrip atau buku catatan di ruang kerja Azure Databricks, Anda perlu menambahkan ruang kerja Azure Databricks sebagai target komputasi ke ruang kerja Azure Machine Learning.

Nilai default: None
allow_reuse

Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan lagi dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika konten langkah (skrip/dependensi) serta input dan parameter tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mengirimkan pekerjaan ke komputasi, hasil dari eksekusi sebelumnya segera dibuat tersedia untuk langkah selanjutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh apakah data yang mendasarinya telah berubah.

Nilai default: True
version
str

Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut.

Nilai default: None
permit_cluster_restart

jika existing_cluster_id ditentukan, parameter ini memberi tahu apakah kluster dapat dimulai ulang atas nama pengguna.

Nilai default: None
name
Diperlukan
str

[Diperlukan] Nama langkah tersebut.

inputs
Diperlukan

Daftar koneksi input untuk data yang digunakan oleh langkah ini. Ambil daftar ini dalam buku catatan menggunakan dbutils.widgets.get("input_name"). Dapat berupa DataReference atau PipelineData. DataReference menunjukkan bagian data yang ada di datastore. Pada dasarnya ini adalah jalur di datastore. DatabricksStep mendukung datastore yang merangkum DBFS, blob Azure, atau ADLS v1. PipelineData menunjukkan data perantara yang dihasilkan oleh langkah lain dalam sebuah alur.

outputs
Diperlukan
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Daftar definisi port output untuk output yang dihasilkan oleh langkah ini. Ambil ini di dalam buku catatan menggunakan dbutils.widgets.get("output_name"). Harus merupakan PipelineData.

existing_cluster_id
Diperlukan
str

ID kluster dari kluster interaktif yang ada di ruang kerja Databricks. Jika meneruskan parameter ini, Anda tidak dapat meneruskan salah satu parameter berikut yang digunakan untuk membuat kluster baru:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Catatan: Untuk membuat kluster pekerjaan baru, Anda akan perlu meneruskan parameter di atas. Anda dapat meneruskan parameter ini secara langsung atau Anda dapat meneruskannya sebagai bagian dari objek RunConfiguration menggunakan parameter runconfig. Meneruskan parameter ini secara langsung dan melalui RunConfiguration akan menghasilkan kesalahan.

spark_version
Diperlukan
str

Versi spark untuk kluster eksekusi Databricks, misalnya: "10.4.x-scala2.12". Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

node_type
Diperlukan
str

[Wajib] Jenis node Azure Virtual Machine untuk kluster eksekusi Databricks, misalnya: "Standard_D3_v2". Tentukan antara node_type atau instance_pool_id. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

instance_pool_id
Diperlukan
str

[Wajib] ID kumpulan instans tempat kluster perlu dilampirkan. Tentukan antara node_type atau instance_pool_id. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

num_workers
Diperlukan
int

[Wajib] Jumlah statik pekerja untuk kluster eksekusi Databricks. Anda harus menentukan num_workers atau keduanya min_workers dan max_workers.

Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

min_workers
Diperlukan
int

[Wajib] Jumlah minimum pekerja yang digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks. Anda harus menentukan num_workers atau keduanya min_workers dan max_workers.

Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

max_workers
Diperlukan
int

[Wajib] Jumlah maksimal pekerja yang akan digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks. Anda harus menentukan num_workers atau keduanya min_workers dan max_workers.

Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

spark_env_variables
Diperlukan

Variabel lingkungan spark untuk kluster eksekusi Databricks. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

spark_conf
Diperlukan

Konfigurasi spark untuk kluster eksekusi Databricks. Untuk informasi selengkapnya, lihat deskripsi untuk parameter existing_cluster_id.

init_scripts
Diperlukan
[str]

Dihentikan. Databricks mengumumkan skrip init yang disimpan di DBFS akan berhenti berfungsi setelah 1 Des 2023. Untuk mengurangi masalah, silakan 1) gunakan skrip init global di databricks setelah https://learn.microsoft.com/azure/databricks/init-scripts/global 2) komentari baris init_scripts di langkah AzureML databricks Anda.

cluster_log_dbfs_path
Diperlukan
str

Jalur DBFS tempat log kluster akan dikirimkan.

notebook_path
Diperlukan
str

[Wajib] Jalur ke buku catatan dalam instans Databricks. Kelas ini memungkinkan empat cara untuk menentukan kode yang akan dieksekusi di kluster Databricks.

  1. Untuk menjalankan buku catatan yang ada di ruang kerja Databricks, gunakan: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Untuk menjalankan skrip Python yang ada di DBFS, gunakan: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Untuk menjalankan JAR yang ada di DBFS, gunakan: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Untuk menjalankan skrip Python yang ada di komputer lokal Anda, gunakan: python_script_name=python_script_name, source_directory=source_directory

Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

notebook_params
Diperlukan

Kamus parameter untuk diteruskan ke buku catatan. notebook_params tersedia sebagai widget. Anda dapat mengambil nilai dari widget ini di dalam buku catatan menggunakan dbutils.widgets.get("myparam").

python_script_path
Diperlukan
str

[Wajib] Jalur ke skrip python di DBFS. Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

python_script_params
Diperlukan

Parameter untuk skrip Python.

main_class_name
Diperlukan
str

[Wajib] Nama titik entri dalam modul JAR. Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

jar_params
Diperlukan

Parameter untuk modul JAR.

source_directory
Diperlukan
str

Folder yang berisi script dan file lainnya. Jika python_script_name ditentukan, maka source_directory juga harus ditentukan.

hash_paths
Diperlukan
[str]

TIDAK DIGUNAKAN LAGI: tidak lagi diperlukan.

Daftar jalur ke hash saat memeriksa perubahan ke konten langkah. Jika tidak ada perubahan yang terdeteksi, alur akan menggunakan ulang konten langkah dari eksekusi sebelumnya. Secara default, konten source_directory di-hash kecuali untuk file yang terdaftar di .amlignore atau .gitignore.

run_name
Diperlukan
str

Nama dalam Databricks untuk eksekusi ini.

timeout_seconds
Diperlukan
int

Batas waktu untuk eksekusi Databricks.

runconfig
Diperlukan

Runconfig yang akan digunakan.

Catatan: Anda dapat meneruskan pustaka sebanyak yang Anda inginkan sebagai dependensi ke pekerjaan menggunakan parameter berikut: maven_libraries, pypi_libraries, egg_libraries, jar_libraries, atau rcran_libraries. Teruskan parameter ini secara langsung dengan parameter terkaitnya atau sebagai bagian dari objek RunConfiguration menggunakan parameter runconfig, tetapi tidak keduanya.

maven_libraries
Diperlukan
list[<xref:azureml.core.runconfig.MavenLibrary>]

Pustaka Maven yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka Maven, lihat help(azureml.core.runconfig.MavenLibrary).

pypi_libraries
Diperlukan
list[<xref:azureml.core.runconfig.PyPiLibrary>]

Pustaka PyPi yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka PyPi, lihat help(azureml.core.runconfig.PyPiLibrary).

egg_libraries
Diperlukan
list[<xref:azureml.core.runconfig.EggLibrary>]

Pustaka Egg yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka Telur, lihat help(azureml.core.runconfig.EggLibrary).

jar_libraries
Diperlukan
list[<xref:azureml.core.runconfig.JarLibrary>]

Pustaka Jar yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka Jar, lihat help(azureml.core.runconfig.JarLibrary).

rcran_libraries
Diperlukan
list[<xref:azureml.core.runconfig.RCranLibrary>]

Pustaka RCran yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka RCran, lihat help(azureml.core.runconfig.RCranLibrary).

compute_target
Diperlukan

[Diperlukan] Komputasi Azure Databricks. Sebelum Anda dapat menggunakan DatabricksStep untuk menjalankan skrip atau buku catatan di ruang kerja Azure Databricks, Anda perlu menambahkan ruang kerja Azure Databricks sebagai target komputasi ke ruang kerja Azure Machine Learning.

allow_reuse
Diperlukan

Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan lagi dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika konten langkah (skrip/dependensi) serta input dan parameter tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mengirimkan pekerjaan ke komputasi, hasil dari eksekusi sebelumnya segera dibuat tersedia untuk langkah selanjutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh apakah data yang mendasarinya telah berubah.

version
Diperlukan
str

Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut.

permit_cluster_restart
Diperlukan

jika existing_cluster_id ditentukan, parameter ini memberi tahu apakah kluster dapat dimulai ulang atas nama pengguna.

Metode

create_node

Buat node dari langkah Databricks dan tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.

create_node

Buat node dari langkah Databricks dan tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.

create_node(graph, default_datastore, context)

Parameter

Nama Deskripsi
graph
Diperlukan

Objek grafik untuk menambahkan node.

default_datastore
Diperlukan

Datastore default.

context
Diperlukan
<xref:azureml.pipeline.core._GraphContext>

Konteks grafik.

Mengembalikan

Jenis Deskripsi

Node yang dibuat.