DatabricksStep Klasa

Odwołanie

Tworzy krok potoku usługi Azure ML w celu dodania notesu usługi DataBricks, skryptu języka Python lub pliku JAR jako węzła.

Przykład użycia usługi DatabricksStep można znaleźć w notesie https://aka.ms/pl-databricks.

Utwórz krok potoku usługi Azure ML, aby dodać notes usługi DataBricks, skrypt języka Python lub plik JAR jako węzeł.

Przykład użycia usługi DatabricksStep można znaleźć w notesie https://aka.ms/pl-databricks.

:p aram python_script_name:[Wymagane] Nazwa skryptu języka Python względem source_directory. Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry. Jeśli python_script_name zostanie określony, source_directory musi być też.

Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie=output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać i trzeba przeanalizować argumenty w skryscie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs:///test","-output1", "wasbs://test@storagename.blob.core.windows.nettest@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Ponadto w skryscie będą dostępne następujące parametry:

AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML.
AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu.
AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego AML.
AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning.
AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning.
AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning.
AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML.
AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning.
AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning.
AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w których source_directory została skopiowana.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów source_directory DatabricksStep i python_script_namesource_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania. Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Musisz go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/", aby uzyskać dostęp do katalogu w systemie plików DBFS.

Dziedziczenie: azureml.pipeline.core._databricks_step_base._DatabricksStepBase

DatabricksStep

Konstruktor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parametry

Nazwa	Opis
name Wymagane	str [Wymagane] Nazwa kroku.
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lista połączeń wejściowych dla danych używanych przez ten krok. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("input_name"). Może to być dataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system PLIKÓW DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku. wartość domyślna: None
outputs	list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]] Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("output_name"). Powinna być wartość PipelineData. wartość domyślna: None
existing_cluster_id	str Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. W przypadku przekazania tego parametru nie można przekazać żadnego z następujących parametrów, które są używane do utworzenia nowego klastra: spark_version Node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazywanie tych parametrów bezpośrednio i za pomocą funkcji RunConfiguration powoduje wystąpienie błędu. wartość domyślna: None
spark_version	str Wersja platformy Spark dla klastra uruchomień usługi Databricks, na przykład: "10.4.x-scala2.12". Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` . wartość domyślna: None
node_type	str [Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość `node_type` lub `instance_pool_id`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` . wartość domyślna: None
instance_pool_id	str [Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster. Określ wartość `node_type` lub `instance_pool_id`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` . wartość domyślna: None
num_workers	int [Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks. Musisz określić wartość lub zarówno , jak `num_workersmin_workers` i `max_workers`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` . wartość domyślna: None
min_workers	int [Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak `num_workersmin_workers` i `max_workers`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` . wartość domyślna: None
max_workers	int [Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak `num_workersmin_workers` i `max_workers`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` . wartość domyślna: None
spark_env_variables	dict Zmienne środowiskowe platformy Spark dla klastra uruchomień usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` . wartość domyślna: None
spark_conf	dict Konfiguracja platformy Spark dla klastra uruchomieniowego usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` . wartość domyślna: None
init_scripts	[str] Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów inicjowania w usłudze Databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi Databricks usługi AzureML. wartość domyślna: None
cluster_log_dbfs_path	str Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów. wartość domyślna: None
notebook_path	str [Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks. Aby wykonać notes, który znajduje się w obszarze roboczym usługi Databricks, użyj polecenia: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'} Aby wykonać skrypt języka Python, który jest obecny w systemie plików DBFS, użyj polecenia: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Aby wykonać plik JAR obecny w systemie dbFS, użyj polecenia: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Aby wykonać skrypt języka Python, który znajduje się na komputerze lokalnym, użyj polecenia: python_script_name=python_script_name, source_directory=source_directory Określ dokładnie jedną z `notebook_path`wartości , `python_script_path`, `python_script_name`lub `main_class_name`. wartość domyślna: None
notebook_params	dict[str, Union[str, PipelineParameter]] Słownik parametrów do przekazania do notesu. `notebook_params` są dostępne jako widżety. Możesz pobrać wartości z tych widżetów wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("myparam").. wartość domyślna: None
python_script_path	str [Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS. Określ dokładnie jedną z `notebook_path`wartości , `python_script_path`, `python_script_name`lub `main_class_name`. wartość domyślna: None
python_script_params	list[str, PipelineParameter] Parametry skryptu języka Python. wartość domyślna: None
main_class_name	str [Wymagane] Nazwa punktu wejścia w module JAR. Określ dokładnie jedną z `notebook_path`wartości , `python_script_path`, `python_script_name`lub `main_class_name`. wartość domyślna: None
jar_params	list[str, PipelineParameter] Parametry modułu JAR. wartość domyślna: None
python_script_name	str [Wymagane] Nazwa skryptu języka Python względem `source_directory`. Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry. Jeśli `python_script_name` parametr jest określony, `source_directory` musi być też. Określ dokładnie jedną z `notebook_path`wartości , `python_script_path`, `python_script_name`lub `main_class_name`. Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie =output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać następująco: należy przeanalizować argumenty w skrypcie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Ponadto w skrycie będą dostępne następujące parametry: AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning. AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML. AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu. AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego usługi AML. AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning. AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning. AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning. AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML. AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning. AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning. AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w której skopiowano source_directory. (Ten parametr jest wypełniany tylko wtedy, gdy `python_script_name` jest używany. Zobacz więcej szczegółów poniżej. Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów `source_directory` DatabricksStep i `python_script_name`source_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania. Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Aby uzyskać dostęp do katalogu w systemie plików DBFS, należy go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/". wartość domyślna: None
source_directory	str Folder zawierający skrypt i inne pliki. Jeśli `python_script_name` parametr jest określony, `source_directory` musi być też. wartość domyślna: None
hash_paths	[str] PRZESTARZAŁE: nie są już potrzebne. Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie zostaną wykryte żadne zmiany, potok użyje ponownie zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość pliku jest skrótem `source_directory` z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore. wartość domyślna: None
run_name	str Nazwa w usłudze Databricks dla tego przebiegu. wartość domyślna: None
timeout_seconds	int Limit czasu uruchomienia usługi Databricks. wartość domyślna: None
runconfig	RunConfiguration Element runconfig do użycia. Uwaga: możesz przekazać dowolną liczbę bibliotek jako zależności do zadania przy użyciu następujących parametrów: `maven_libraries`, , `pypi_librariesegg_libraries`, `jar_libraries`lub `rcran_libraries`. Te parametry należy przekazać bezpośrednio przy użyciu odpowiednich parametrów lub w ramach obiektu RunConfiguration przy użyciu parametru `runconfig` , ale nie obu tych parametrów. wartość domyślna: None
maven_libraries	list[MavenLibrary] Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks. wartość domyślna: None
pypi_libraries	list[PyPiLibrary] Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks. wartość domyślna: None
egg_libraries	list[EggLibrary] Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks. wartość domyślna: None
jar_libraries	list[JarLibrary] Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks. wartość domyślna: None
rcran_libraries	list[RCranLibrary] Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks. wartość domyślna: None
compute_target	str, DatabricksCompute [Wymagane] Środowisko obliczeniowe usługi Azure Databricks. Zanim będzie można użyć usługi DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeń do obszaru roboczego usługi Azure Machine Learning. wartość domyślna: None
allow_reuse	bool Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego przebiegu są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie. wartość domyślna: True
version	str Opcjonalny tag wersji, aby oznaczyć zmianę funkcjonalności kroku. wartość domyślna: None
permit_cluster_restart	bool Jeśli określono existing_cluster_id, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika. wartość domyślna: None
name Wymagane	str [Wymagane] Nazwa kroku.
inputs Wymagane	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lista połączeń wejściowych dla danych używanych w tym kroku. Pobierz to wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("input_name"). Może to być DataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system plików DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku.
outputs Wymagane	list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]] Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("output_name"). Powinna mieć wartość PipelineData.
existing_cluster_id Wymagane	str Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. Jeśli przekazujesz ten parametr, nie można przekazać żadnego z następujących parametrów, które są używane do tworzenia nowego klastra: spark_version Node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazanie tych parametrów bezpośrednio i za pośrednictwem polecenia RunConfiguration powoduje wystąpienie błędu.
spark_version Wymagane	str Wersja platformy Spark dla klastra usługi Databricks, na przykład: "10.4.x-scala2.12". Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` .
node_type Wymagane	str [Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość `node_type` lub `instance_pool_id`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` .
instance_pool_id Wymagane	str [Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster. Określ wartość `node_type` lub `instance_pool_id`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` .
num_workers Wymagane	int [Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks. Musisz określić wartość lub zarówno , jak `num_workersmin_workers` i `max_workers`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` .
min_workers Wymagane	int [Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak `num_workersmin_workers` i `max_workers`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` .
max_workers Wymagane	int [Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak `num_workersmin_workers` i `max_workers`. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` .
spark_env_variables Wymagane	dict Zmienne środowiskowe platformy Spark dla klastra uruchomień usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` .
spark_conf Wymagane	dict Konfiguracja platformy Spark dla klastra uruchomień usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru `existing_cluster_id` .
init_scripts Wymagane	[str] Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie plików DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów init w usłudze databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi AzureML databricks.
cluster_log_dbfs_path Wymagane	str Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów.
notebook_path Wymagane	str [Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks. Aby wykonać notes obecny w obszarze roboczym usługi Databricks, użyj polecenia: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'} Aby wykonać skrypt języka Python obecny w systemie plików DBFS, użyj polecenia: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Aby wykonać plik JAR obecny w systemie DBFS, użyj polecenia: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Aby wykonać skrypt języka Python znajdujący się na komputerze lokalnym, użyj polecenia: python_script_name=python_script_name, source_directory=source_directory Określ dokładnie jedną z `notebook_path`wartości , , `python_script_pathpython_script_name`lub `main_class_name`.
notebook_params Wymagane	dict[str, (str lub PipelineParameter)] Słownik parametrów do przekazania do notesu. `notebook_params` są dostępne jako widżety. Możesz pobrać wartości z tych widżetów wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("myparam")..
python_script_path Wymagane	str [Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS. Określ dokładnie jedną z `notebook_path`wartości , , `python_script_pathpython_script_name`lub `main_class_name`.
python_script_params Wymagane	list[str, PipelineParameter] Parametry skryptu języka Python.
main_class_name Wymagane	str [Wymagane] Nazwa punktu wejścia w module JAR. Określ dokładnie jedną z `notebook_path`wartości , , `python_script_pathpython_script_name`lub `main_class_name`.
jar_params Wymagane	list[str, PipelineParameter] Parametry modułu JAR.
source_directory Wymagane	str Folder zawierający skrypt i inne pliki. Jeśli `python_script_name` zostanie określony, `source_directory` musi być też.
hash_paths Wymagane	[str] PRZESTARZAŁE: nie jest już potrzebne. Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu `source_directory` jest skrótem z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.
run_name Wymagane	str Nazwa w usłudze Databricks dla tego przebiegu.
timeout_seconds Wymagane	int Limit czasu uruchomienia usługi Databricks.
runconfig Wymagane	RunConfiguration Polecenie runconfig do użycia. Uwaga: możesz przekazać dowolną liczbę bibliotek do zadania przy użyciu następujących parametrów: `maven_libraries`, `pypi_libraries`, `egg_libraries`, `jar_libraries`lub `rcran_libraries`. Przekaż te parametry bezpośrednio z odpowiednimi parametrami lub w ramach obiektu RunConfiguration przy użyciu parametru `runconfig` , ale nie obu tych parametrów.
maven_libraries Wymagane	list[<xref:azureml.core.runconfig.MavenLibrary>] Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek Maven, zobacz `help(azureml.core.runconfig.MavenLibrary)`.
pypi_libraries Wymagane	list[<xref:azureml.core.runconfig.PyPiLibrary>] Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek PyPi, zobacz `help(azureml.core.runconfig.PyPiLibrary)`.
egg_libraries Wymagane	list[<xref:azureml.core.runconfig.EggLibrary>] Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek jaj, zobacz `help(azureml.core.runconfig.EggLibrary)`.
jar_libraries Wymagane	list[<xref:azureml.core.runconfig.JarLibrary>] Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek Jar, zobacz `help(azureml.core.runconfig.JarLibrary)`.
rcran_libraries Wymagane	list[<xref:azureml.core.runconfig.RCranLibrary>] Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek RCran, zobacz `help(azureml.core.runconfig.RCranLibrary)`.
compute_target Wymagane	str, DatabricksCompute [Wymagane] Obliczenia usługi Azure Databricks. Aby można było użyć narzędzia DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeniowy do obszaru roboczego usługi Azure Machine Learning.
allow_reuse Wymagane	bool Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.
version Wymagane	str Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.
permit_cluster_restart Wymagane	bool jeśli existing_cluster_id jest określony, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika.

Metody

create_node

Utwórz węzeł z kroku usługi Databricks i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy.

create_node

Utwórz węzeł z kroku usługi Databricks i dodaj go do określonego grafu.

create_node(graph, default_datastore, context)

Parametry

Nazwa	Opis
graph Wymagane	Graph Obiekt grafu, do który ma zostać dodany węzeł.
default_datastore Wymagane	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Domyślny magazyn danych.
context Wymagane	<xref:azureml.pipeline.core._GraphContext> Kontekst grafu.

Zwraca

Typ	Opis
Node	Utworzony węzeł.

Udostępnij za pośrednictwem

DatabricksStep Klasa

Konstruktor

Parametry

Metody

create_node

Parametry

Zwraca

Opinia

Opinia

Dodatkowe zasoby