Udostępnij za pośrednictwem


DatabricksStep Klasa

Tworzy krok potoku usługi Azure ML w celu dodania notesu usługi DataBricks, skryptu języka Python lub pliku JAR jako węzła.

Przykład użycia usługi DatabricksStep można znaleźć w notesie https://aka.ms/pl-databricks.

Utwórz krok potoku usługi Azure ML, aby dodać notes usługi DataBricks, skrypt języka Python lub plik JAR jako węzeł.

Przykład użycia usługi DatabricksStep można znaleźć w notesie https://aka.ms/pl-databricks.

:p aram python_script_name:[Wymagane] Nazwa skryptu języka Python względem source_directory. Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry. Jeśli python_script_name zostanie określony, source_directory musi być też.

Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie=output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać i trzeba przeanalizować argumenty w skryscie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs:///test","-output1", "wasbs://test@storagename.blob.core.windows.nettest@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Ponadto w skryscie będą dostępne następujące parametry:

  • AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML.
  • AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu.
  • AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego AML.
  • AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML.
  • AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w których source_directory została skopiowana.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów source_directory DatabricksStep i python_script_namesource_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania. Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Musisz go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/", aby uzyskać dostęp do katalogu w systemie plików DBFS.

Dziedziczenie
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

Konstruktor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parametry

Nazwa Opis
name
Wymagane
str

[Wymagane] Nazwa kroku.

inputs

Lista połączeń wejściowych dla danych używanych przez ten krok. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("input_name"). Może to być dataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system PLIKÓW DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku.

wartość domyślna: None
outputs

Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("output_name"). Powinna być wartość PipelineData.

wartość domyślna: None
existing_cluster_id
str

Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. W przypadku przekazania tego parametru nie można przekazać żadnego z następujących parametrów, które są używane do utworzenia nowego klastra:

  • spark_version
  • Node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazywanie tych parametrów bezpośrednio i za pomocą funkcji RunConfiguration powoduje wystąpienie błędu.

wartość domyślna: None
spark_version
str

Wersja platformy Spark dla klastra uruchomień usługi Databricks, na przykład: "10.4.x-scala2.12". Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

wartość domyślna: None
node_type
str

[Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość node_type lub instance_pool_id. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

wartość domyślna: None
instance_pool_id
str

[Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster. Określ wartość node_type lub instance_pool_id. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

wartość domyślna: None
num_workers
int

[Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

wartość domyślna: None
min_workers
int

[Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

wartość domyślna: None
max_workers
int

[Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

wartość domyślna: None
spark_env_variables

Zmienne środowiskowe platformy Spark dla klastra uruchomień usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

wartość domyślna: None
spark_conf

Konfiguracja platformy Spark dla klastra uruchomieniowego usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

wartość domyślna: None
init_scripts
[str]

Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów inicjowania w usłudze Databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi Databricks usługi AzureML.

wartość domyślna: None
cluster_log_dbfs_path
str

Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów.

wartość domyślna: None
notebook_path
str

[Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks.

  1. Aby wykonać notes, który znajduje się w obszarze roboczym usługi Databricks, użyj polecenia: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Aby wykonać skrypt języka Python, który jest obecny w systemie plików DBFS, użyj polecenia: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Aby wykonać plik JAR obecny w systemie dbFS, użyj polecenia: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Aby wykonać skrypt języka Python, który znajduje się na komputerze lokalnym, użyj polecenia: python_script_name=python_script_name, source_directory=source_directory

Określ dokładnie jedną z notebook_pathwartości , python_script_path, python_script_namelub main_class_name.

wartość domyślna: None
notebook_params

Słownik parametrów do przekazania do notesu. notebook_params są dostępne jako widżety. Możesz pobrać wartości z tych widżetów wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("myparam")..

wartość domyślna: None
python_script_path
str

[Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS. Określ dokładnie jedną z notebook_pathwartości , python_script_path, python_script_namelub main_class_name.

wartość domyślna: None
python_script_params

Parametry skryptu języka Python.

wartość domyślna: None
main_class_name
str

[Wymagane] Nazwa punktu wejścia w module JAR. Określ dokładnie jedną z notebook_pathwartości , python_script_path, python_script_namelub main_class_name.

wartość domyślna: None
jar_params

Parametry modułu JAR.

wartość domyślna: None
python_script_name
str

[Wymagane] Nazwa skryptu języka Python względem source_directory. Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry. Jeśli python_script_name parametr jest określony, source_directory musi być też.

Określ dokładnie jedną z notebook_pathwartości , python_script_path, python_script_namelub main_class_name.

Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie =output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać następująco: należy przeanalizować argumenty w skrypcie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Ponadto w skrycie będą dostępne następujące parametry:

  • AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML.
  • AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu.
  • AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego usługi AML.
  • AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML.
  • AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w której skopiowano source_directory. (Ten parametr jest wypełniany tylko wtedy, gdy python_script_name jest używany. Zobacz więcej szczegółów poniżej.

Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów source_directory DatabricksStep i python_script_namesource_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania. Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Aby uzyskać dostęp do katalogu w systemie plików DBFS, należy go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/".

wartość domyślna: None
source_directory
str

Folder zawierający skrypt i inne pliki. Jeśli python_script_name parametr jest określony, source_directory musi być też.

wartość domyślna: None
hash_paths
[str]

PRZESTARZAŁE: nie są już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie zostaną wykryte żadne zmiany, potok użyje ponownie zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość pliku jest skrótem source_directory z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

wartość domyślna: None
run_name
str

Nazwa w usłudze Databricks dla tego przebiegu.

wartość domyślna: None
timeout_seconds
int

Limit czasu uruchomienia usługi Databricks.

wartość domyślna: None
runconfig

Element runconfig do użycia.

Uwaga: możesz przekazać dowolną liczbę bibliotek jako zależności do zadania przy użyciu następujących parametrów: maven_libraries, , pypi_librariesegg_libraries, jar_librarieslub rcran_libraries. Te parametry należy przekazać bezpośrednio przy użyciu odpowiednich parametrów lub w ramach obiektu RunConfiguration przy użyciu parametru runconfig , ale nie obu tych parametrów.

wartość domyślna: None
maven_libraries

Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks.

wartość domyślna: None
pypi_libraries

Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks.

wartość domyślna: None
egg_libraries

Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks.

wartość domyślna: None
jar_libraries

Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks.

wartość domyślna: None
rcran_libraries

Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks.

wartość domyślna: None
compute_target

[Wymagane] Środowisko obliczeniowe usługi Azure Databricks. Zanim będzie można użyć usługi DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeń do obszaru roboczego usługi Azure Machine Learning.

wartość domyślna: None
allow_reuse

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego przebiegu są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

wartość domyślna: True
version
str

Opcjonalny tag wersji, aby oznaczyć zmianę funkcjonalności kroku.

wartość domyślna: None
permit_cluster_restart

Jeśli określono existing_cluster_id, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika.

wartość domyślna: None
name
Wymagane
str

[Wymagane] Nazwa kroku.

inputs
Wymagane

Lista połączeń wejściowych dla danych używanych w tym kroku. Pobierz to wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("input_name"). Może to być DataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system plików DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku.

outputs
Wymagane
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("output_name"). Powinna mieć wartość PipelineData.

existing_cluster_id
Wymagane
str

Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. Jeśli przekazujesz ten parametr, nie można przekazać żadnego z następujących parametrów, które są używane do tworzenia nowego klastra:

  • spark_version
  • Node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazanie tych parametrów bezpośrednio i za pośrednictwem polecenia RunConfiguration powoduje wystąpienie błędu.

spark_version
Wymagane
str

Wersja platformy Spark dla klastra usługi Databricks, na przykład: "10.4.x-scala2.12". Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

node_type
Wymagane
str

[Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość node_type lub instance_pool_id. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

instance_pool_id
Wymagane
str

[Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster. Określ wartość node_type lub instance_pool_id. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

num_workers
Wymagane
int

[Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers.

Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

min_workers
Wymagane
int

[Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers.

Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

max_workers
Wymagane
int

[Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers.

Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

spark_env_variables
Wymagane

Zmienne środowiskowe platformy Spark dla klastra uruchomień usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

spark_conf
Wymagane

Konfiguracja platformy Spark dla klastra uruchomień usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

init_scripts
Wymagane
[str]

Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie plików DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów init w usłudze databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi AzureML databricks.

cluster_log_dbfs_path
Wymagane
str

Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów.

notebook_path
Wymagane
str

[Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks.

  1. Aby wykonać notes obecny w obszarze roboczym usługi Databricks, użyj polecenia: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Aby wykonać skrypt języka Python obecny w systemie plików DBFS, użyj polecenia: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Aby wykonać plik JAR obecny w systemie DBFS, użyj polecenia: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Aby wykonać skrypt języka Python znajdujący się na komputerze lokalnym, użyj polecenia: python_script_name=python_script_name, source_directory=source_directory

Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

notebook_params
Wymagane

Słownik parametrów do przekazania do notesu. notebook_params są dostępne jako widżety. Możesz pobrać wartości z tych widżetów wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("myparam")..

python_script_path
Wymagane
str

[Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS. Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

python_script_params
Wymagane

Parametry skryptu języka Python.

main_class_name
Wymagane
str

[Wymagane] Nazwa punktu wejścia w module JAR. Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

jar_params
Wymagane

Parametry modułu JAR.

source_directory
Wymagane
str

Folder zawierający skrypt i inne pliki. Jeśli python_script_name zostanie określony, source_directory musi być też.

hash_paths
Wymagane
[str]

PRZESTARZAŁE: nie jest już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu source_directory jest skrótem z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

run_name
Wymagane
str

Nazwa w usłudze Databricks dla tego przebiegu.

timeout_seconds
Wymagane
int

Limit czasu uruchomienia usługi Databricks.

runconfig
Wymagane

Polecenie runconfig do użycia.

Uwaga: możesz przekazać dowolną liczbę bibliotek do zadania przy użyciu następujących parametrów: maven_libraries, pypi_libraries, egg_libraries, jar_librarieslub rcran_libraries. Przekaż te parametry bezpośrednio z odpowiednimi parametrami lub w ramach obiektu RunConfiguration przy użyciu parametru runconfig , ale nie obu tych parametrów.

maven_libraries
Wymagane
list[<xref:azureml.core.runconfig.MavenLibrary>]

Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek Maven, zobacz help(azureml.core.runconfig.MavenLibrary).

pypi_libraries
Wymagane
list[<xref:azureml.core.runconfig.PyPiLibrary>]

Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek PyPi, zobacz help(azureml.core.runconfig.PyPiLibrary).

egg_libraries
Wymagane
list[<xref:azureml.core.runconfig.EggLibrary>]

Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek jaj, zobacz help(azureml.core.runconfig.EggLibrary).

jar_libraries
Wymagane
list[<xref:azureml.core.runconfig.JarLibrary>]

Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek Jar, zobacz help(azureml.core.runconfig.JarLibrary).

rcran_libraries
Wymagane
list[<xref:azureml.core.runconfig.RCranLibrary>]

Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek RCran, zobacz help(azureml.core.runconfig.RCranLibrary).

compute_target
Wymagane

[Wymagane] Obliczenia usługi Azure Databricks. Aby można było użyć narzędzia DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeniowy do obszaru roboczego usługi Azure Machine Learning.

allow_reuse
Wymagane

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

version
Wymagane
str

Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.

permit_cluster_restart
Wymagane

jeśli existing_cluster_id jest określony, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika.

Metody

create_node

Utwórz węzeł z kroku usługi Databricks i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy.

create_node

Utwórz węzeł z kroku usługi Databricks i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy.

create_node(graph, default_datastore, context)

Parametry

Nazwa Opis
graph
Wymagane

Obiekt grafu, do który ma zostać dodany węzeł.

default_datastore
Wymagane

Domyślny magazyn danych.

context
Wymagane
<xref:azureml.pipeline.core._GraphContext>

Kontekst grafu.

Zwraca

Typ Opis

Utworzony węzeł.