DatabricksStep Klasse

Erstellt einen Azure ML-Pipelineschritt, um ein DataBricks-Notebook, ein Python-Skript oder eine JAR-Datei als Knoten hinzuzufügen.

Ein Beispiel für die Verwendung von DatabricksStep finden Sie im Notebook https://aka.ms/pl-databricks.

Erstellen Sie einen Azure ML Pipeline-Schritt, um ein DataBricks-Notebook, Python-Skript oder JAR als Knoten hinzuzufügen.

Ein Beispiel für die Verwendung von DatabricksStep finden Sie im Notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Erforderlich] Der Name eines Python-Skripts relativ zu source_directory. Wenn das Skript Eingaben und Ausgaben verwendet, werden diese als Parameter an das Skript übergeben. Wenn python_script_name angegeben ist, muss source_directory ebenfalls angegeben sein.

Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

Wenn Sie ein DataReference-Objekt als Eingabe mit data_reference_name=input1 und ein PipelineData-Objekt als Ausgabe mit name=output1 angeben, werden die Eingaben und Ausgaben als Parameter an das Skript übergeben. So sehen sie aus, und Sie müssen die Argumente in Ihrem Skript analysieren, um auf die Pfade jeder Eingabe und Ausgabe zu zugreifen: "-input1", "wasbs://test@storagename.blob.core.windows.net/test", "-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Darüber hinaus sind die folgenden Parameter im Skript verfügbar:

  • AZUREML_RUN_TOKEN: Das AML für die Authentifizierung mit Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: Die AML Ablaufzeit des Tokens.
  • AZUREML_RUN_ID: Azure Machine Learning Ausführungs-ID für diese Ausführung.
  • AZUREML_ARM_SUBSCRIPTION: Azure-Abonnement für Ihren AML Arbeitsbereich.
  • AZUREML_ARM_RESOURCEGROUP: Azure-Ressourcengruppe für Ihren Azure Machine Learning Arbeitsbereich.
  • AZUREML_ARM_WORKSPACE_NAME: Name Ihres Azure Machine Learning Arbeitsbereichs.
  • AZUREML_ARM_PROJECT_NAME: Name Ihres Azure Machine Learning Experiments.
  • AZUREML_SERVICE_ENDPOINT: Die Endpunkt-URL für AML Dienste.
  • AZUREML_WORKSPACE_ID: ID Ihres Azure Machine Learning-Arbeitsbereichs.
  • AZUREML_EXPERIMENT_ID: ID Ihres Azure Machine Learning-Experiments.
  • AZUREML_SCRIPT_DIRECTORY_NAME: Verzeichnispfadstruktur in DBFS, wobei source_directory kopiert wurde.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Wenn Sie ein Python-Skript von Ihrem lokalen Computer auf Databricks mithilfe der DatabricksStep-Parameter source_directoryund python_script_name, wird Ihr source_directory in DBFS kopiert, und der Verzeichnisstrukturpfad in DBFS wird als Parameter an Ihr Skript übergeben, wenn es mit der Ausführung beginnt. Dieser Parameter wird bezeichnet als --AZUREML_SCRIPT_DIRECTORY_NAME. Sie müssen ihr die Zeichenfolge "dbfs:/" voran stellen. oder "/dbfs/", um auf das Verzeichnis in DBFS zu zugreifen.

Vererbung
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

Konstruktor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parameter

name
str
Erforderlich

[Erforderlich] Der Name des Schritts.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Standardwert: None

Eine Liste der Eingabeverbindungen für daten, die von diesem Schritt verwendet werden. Rufen Sie die Liste im Notebook mithilfe von dbutils.widgets.get("input_name") ab. Kann DataReference oder PipelineData sein. DataReference stellt ein vorhandenes Datenstück in einem Datenspeicher dar. Im Wesentlichen ist dies ein Pfad zu einem Datenspeicher. DatabricksStep unterstützt Datenspeicher, die DBFS, Azure Blob oder ADLS v1 kapseln. PipelineData stellt Zwischendaten dar, die durch einen anderen Schritt in einer Pipeline erzeugt wurden.

outputs
list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]]
Standardwert: None

Eine Liste der Ausgabeportdefinitionen für Ausgaben, die in diesem Schritt erzeugt werden. Rufen Sie die Liste im Notebook mithilfe von dbutils.widgets.get("output_name") ab. Sollte PipelineData sein.

existing_cluster_id
str
Standardwert: None

Eine Cluster-ID eines vorhandenen interaktiven Clusters im Databricks-Arbeitsbereich. Wenn Sie diesen Parameter übergeben, können Sie keinen der folgenden Parameter übergeben, die zum Erstellen eines neuen Clusters verwendet werden:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Hinweis: Zum Erstellen eines neuen Auftragsclusters müssen Sie die oben genannten Parameter übergeben. Sie können diese Parameter direkt übergeben, oder Sie können sie als Teil des RunConfiguration-Objekts mithilfe des runconfig-Parameters übergeben. Die direkte Übergabe dieser Parameter und runConfiguration führt zu einem Fehler.

spark_version
str
Standardwert: None

Die Spark-Version für den Databricks-Ausführungscluster, z. B. "10.4.x-scala2.12". Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

node_type
str
Standardwert: None

[Erforderlich] Die Azure-VM-Knotentypen für den Databricks-Ausführungscluster, z. B. "Standard_D3_v2". Geben Sie entweder node_type oder instance_pool_id an. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

instance_pool_id
str
Standardwert: None

[Erforderlich] Die Instanzpool-ID, an die der Cluster angefügt werden muss. Geben Sie entweder node_type oder instance_pool_id an. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

num_workers
int
Standardwert: None

[Erforderlich] Die statische Anzahl von Workern für den Databricks-Cluster. Sie müssen entweder num_workers oder min_workers und max_workers angeben. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

min_workers
int
Standardwert: None

[Erforderlich] Die Mindestanzahl von Workers, die für die automatische Skalierung des Databricks-Ausführungsclusters verwendet werden. Sie müssen entweder num_workers oder min_workers und max_workers angeben. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

max_workers
int
Standardwert: None

[Erforderlich] Die maximale Anzahl von Workers, die für die automatische Skalierung des Databricks-Ausführungsclusters verwendet werden. Sie müssen entweder num_workers oder min_workers und max_workers angeben. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

spark_env_variables
dict
Standardwert: None

Die Spark-Umgebungsvariablen für den Databricks-Ausführungscluster. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

spark_conf
dict
Standardwert: None

Die Spark-Konfiguration für den Databricks-Ausführungscluster. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

init_scripts
[str]
Standardwert: None

Veraltet. Databricks hat angekündigt, dass das in DBFS gespeicherte Initialisierungsskript nach dem 1. Dezember 2023 nicht mehr funktioniert. Um das Problem zu beheben, verwenden Sie 1) globale Initialisierungsskripts in Databricks, https://learn.microsoft.com/azure/databricks/init-scripts/global 2) kommentieren Sie die Zeile der init_scripts in Ihrem AzureML databricks-Schritt aus.

cluster_log_dbfs_path
str
Standardwert: None

Die DBFS-Pfade, an die Clusterprotokolle übermittelt werden sollen.

notebook_path
str
Standardwert: None

[Erforderlich] Der Pfad zum Notebook in der Databricks-Instanz. Diese Klasse ermöglicht vier Möglichkeiten, den Code anzugeben, der im Databricks-Cluster ausgeführt werden soll.

  1. Um ein Notebook auszuführen, das im Databricks-Arbeitsbereich vorhanden ist, verwenden Sie: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Um ein Python-Skript auszuführen, das in DBFS vorhanden ist, verwenden Sie: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Um eine JAR-Datei auszuführen, die in DBFS vorhanden ist, verwenden Sie: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Um ein Python-Skript auszuführen, das auf Ihrem lokalen Computer vorhanden ist, verwenden Sie: python_script_name=python_script_name, source_directory=source_directory

Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

notebook_params
dict[str, Union[str, PipelineParameter]]
Standardwert: None

Ein Wörterbuch mit Parametern, die an das Notebook übergeben werden. notebook_params sind als Widgets verfügbar. Sie können die Werte aus diesen Widgets in Ihrem Notebook abrufen, indem Sie dbutils.widgets.get("myparam") verwenden.

python_script_path
str
Standardwert: None

[Erforderlich] Der Pfad zum Python-Skript im DBFS. Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

python_script_params
list[str, PipelineParameter]
Standardwert: None

Parameter für das Python-Skript.

main_class_name
str
Standardwert: None

[Erforderlich] Der Name des Einstiegspunkts in einem JAR-Modul. Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

jar_params
list[str, PipelineParameter]
Standardwert: None

Parameter für das JAR-Modul.

python_script_name
str
Standardwert: None

[Erforderlich] Der Name eines Python-Skripts, relativ zu source_directory. Wenn das Skript Eingaben und Ausgaben verwendet, werden diese als Parameter an das Skript übergeben. Wenn python_script_name angegeben ist, muss source_directory ebenfalls angegeben sein.

Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

Wenn Sie ein DataReference-Objekt als Eingabe mit data_reference_name=input1 und ein PipelineData-Objekt als Ausgabe mit name=output1 angeben, werden die Eingaben und Ausgaben als Parameter an das Skript übergeben. So sehen sie aus, und Sie müssen die Argumente in Ihrem Skript analysieren, um auf die Pfade jeder Eingabe und Ausgabe zu zugreifen: "-input1", "wasbs://test@storagename.blob.core.windows.net/test", "-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Darüber hinaus sind die folgenden Parameter im Skript verfügbar:

  • AZUREML_RUN_TOKEN: Das AML für die Authentifizierung mit Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: Die AML Ablaufzeit des Tokens.
  • AZUREML_RUN_ID: Azure Machine Learning Ausführungs-ID für diese Ausführung.
  • AZUREML_ARM_SUBSCRIPTION: Azure-Abonnement für Ihren AML Arbeitsbereich.
  • AZUREML_ARM_RESOURCEGROUP: Azure-Ressourcengruppe für Ihren Azure Machine Learning Arbeitsbereich.
  • AZUREML_ARM_WORKSPACE_NAME: Name Ihres Azure Machine Learning Arbeitsbereichs.
  • AZUREML_ARM_PROJECT_NAME: Name Ihres Azure Machine Learning Experiments.
  • AZUREML_SERVICE_ENDPOINT: Die Endpunkt-URL für AML Dienste.
  • AZUREML_WORKSPACE_ID: ID Ihres Azure Machine Learning-Arbeitsbereichs.
  • AZUREML_EXPERIMENT_ID: ID Ihres Azure Machine Learning-Experiments.
  • AZUREML_SCRIPT_DIRECTORY_NAME: Verzeichnispfadstruktur in DBFS, wobei source_directory kopiert wurde. (Dieser Parameter wird nur aufgefüllt, wenn python_script_name verwendet wird. Weitere Informationen finden Sie weiter unten.)

Wenn Sie ein Python-Skript von Ihrem lokalen Computer auf Databricks mithilfe der DatabricksStep-Parameter source_directoryund python_script_name, wird Ihr source_directory in DBFS kopiert, und der Verzeichnisstrukturpfad in DBFS wird als Parameter an Ihr Skript übergeben, wenn es mit der Ausführung beginnt. Dieser Parameter wird bezeichnet als --AZUREML_SCRIPT_DIRECTORY_NAME. Sie müssen ihr die Zeichenfolge "dbfs:/" voran stellen. oder "/dbfs/", um auf das Verzeichnis in DBFS zu zugreifen.

source_directory
str
Standardwert: None

Das Verzeichnis, das das Skript und andere Dateien enthält. Wenn python_script_name angegeben ist, muss source_directory ebenfalls angegeben sein.

hash_paths
[str]
Standardwert: None

VERALTET: nicht mehr erforderlich.

Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von source_directory werden standardmäßig Hashwerte erstellt, mit Ausnahme der in „.amlignore“ und „.gitignore“ aufgeführten Dateien.

run_name
str
Standardwert: None

Der Name für diese Ausführung in Databricks.

timeout_seconds
int
Standardwert: None

Das Timeout für die Databricks-Ausführung.

runconfig
RunConfiguration
Standardwert: None

Die zu verwendende Runconfig.

Hinweis: Sie können mithilfe der folgenden Parameter beliebig viele Bibliotheken als Abhängigkeiten an Ihren Auftrag übergeben: maven_libraries, pypi_libraries, egg_libraries, jar_librariesoder rcran_libraries. Übergeben Sie diese Parameter entweder direkt mit den entsprechenden Parametern oder als Teil des RunConfiguration-Objekts mithilfe des runconfig-Parameters, aber nicht beides.

maven_libraries
list[MavenLibrary]
Standardwert: None

Maven-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen.

pypi_libraries
list[PyPiLibrary]
Standardwert: None

PyPi-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen.

egg_libraries
list[EggLibrary]
Standardwert: None

Die für die Databricks-Ausführung zu verwendenden Bibliotheken.

jar_libraries
list[JarLibrary]
Standardwert: None

JAR-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen.

rcran_libraries
list[RCranLibrary]
Standardwert: None

RCran-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen.

compute_target
str, DatabricksCompute
Standardwert: None

[Erforderlich] Ein Azure Databricks Compute. Bevor Sie DatabricksStep zum Ausführen Ihrer Skripts oder Notebooks in einem Azure Databricks Arbeitsbereich verwenden können, müssen Sie den Azure Databricks Arbeitsbereich ihrem Azure Machine Learning Arbeitsbereich als Computeziel hinzufügen.

allow_reuse
bool
Standardwert: True

Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat.

version
str
Standardwert: None

Ein optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen.

permit_cluster_restart
bool
Standardwert: None

wenn existing_cluster_id angegeben ist, gibt dieser Parameter an, ob der Cluster im Auftrag des Benutzers neu gestartet werden kann.

name
str
Erforderlich

[Erforderlich] Der Name des Schritts.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Erforderlich

Liste der Eingabeverbindungen für daten, die in diesem Schritt verwendet werden. Rufen Sie die Liste im Notebook mithilfe von dbutils.widgets.get("input_name") ab. Kann DataReference oder PipelineData sein. DataReference stellt ein vorhandenes Datenstück in einem Datenspeicher dar. Im Wesentlichen ist dies ein Pfad zu einem Datenspeicher. DatabricksStep unterstützt Datenspeicher, die DBFS, Azure Blob oder ADLS v1 kapseln. PipelineData stellt Zwischendaten dar, die durch einen anderen Schritt in einer Pipeline erzeugt wurden.

outputs
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Erforderlich

Eine Liste der Ausgabeportdefinitionen für Ausgaben, die in diesem Schritt erzeugt werden. Rufen Sie die Liste im Notebook mithilfe von dbutils.widgets.get("output_name") ab. Sollte PipelineData sein.

existing_cluster_id
str
Erforderlich

Eine Cluster-ID eines vorhandenen interaktiven Clusters im Databricks-Arbeitsbereich. Wenn Sie diesen Parameter übergeben, können Sie keinen der folgenden Parameter übergeben, die zum Erstellen eines neuen Clusters verwendet werden:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Hinweis: Zum Erstellen eines neuen Auftragsclusters müssen Sie die oben genannten Parameter übergeben. Sie können diese Parameter direkt übergeben, oder Sie können sie als Teil des RunConfiguration-Objekts mithilfe des runconfig-Parameters übergeben. Die direkte Übergabe dieser Parameter und runConfiguration führt zu einem Fehler.

spark_version
str
Erforderlich

Die Spark-Version für den Databricks-Ausführungscluster, z. B. "10.4.x-scala2.12". Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

node_type
str
Erforderlich

[Erforderlich] Die Azure-VM-Knotentypen für den Databricks-Ausführungscluster, z. B. "Standard_D3_v2". Geben Sie entweder node_type oder instance_pool_id an. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

instance_pool_id
str
Erforderlich

[Erforderlich] Die Instanzpool-ID, an die der Cluster angefügt werden muss. Geben Sie entweder node_type oder instance_pool_id an. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

num_workers
int
Erforderlich

[Erforderlich] Die statische Anzahl von Workern für den Databricks-Cluster. Sie müssen entweder num_workers oder min_workers und max_workers angeben.

Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

min_workers
int
Erforderlich

[Erforderlich] Die Mindestanzahl von Workers, die für die automatische Skalierung des Databricks-Ausführungsclusters verwendet werden. Sie müssen entweder num_workers oder min_workers und max_workers angeben.

Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

max_workers
int
Erforderlich

[Erforderlich] Die maximale Anzahl von Workers, die für die automatische Skalierung des Databricks-Ausführungsclusters verwendet werden. Sie müssen entweder num_workers oder min_workers und max_workers angeben.

Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

spark_env_variables
dict
Erforderlich

Die Spark-Umgebungsvariablen für den Databricks-Ausführungscluster. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

spark_conf
dict
Erforderlich

Die Spark-Konfiguration für den Databricks-Ausführungscluster. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

init_scripts
[str]
Erforderlich

Veraltet. Databricks hat angekündigt, dass das in DBFS gespeicherte Initskript nach dem 1. Dezember 2023 nicht mehr funktioniert. Um das Problem zu beheben, bitte 1) Verwenden Sie globale Initskripts in databricks, https://learn.microsoft.com/azure/databricks/init-scripts/global 2) kommentieren Sie die Zeile init_scripts in Ihrem AzureML databricks-Schritt aus.

cluster_log_dbfs_path
str
Erforderlich

Die DBFS-Pfade, an die Clusterprotokolle übermittelt werden sollen.

notebook_path
str
Erforderlich

[Erforderlich] Der Pfad zum Notebook in der Databricks-Instanz. Diese Klasse ermöglicht vier Möglichkeiten, den Code anzugeben, der im Databricks-Cluster ausgeführt werden soll.

  1. Um ein Notebook auszuführen, das im Databricks-Arbeitsbereich vorhanden ist, verwenden Sie: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Um ein Python-Skript auszuführen, das in DBFS vorhanden ist, verwenden Sie: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Um eine JAR-Datei auszuführen, die in DBFS vorhanden ist, verwenden Sie: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Um ein Python-Skript auszuführen, das auf Ihrem lokalen Computer vorhanden ist, verwenden Sie: python_script_name=python_script_name, source_directory=source_directory

Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

notebook_params
dict[str, (str oder PipelineParameter)]
Erforderlich

Ein Wörterbuch mit Parametern, die an das Notebook übergeben werden. notebook_params sind als Widgets verfügbar. Sie können die Werte aus diesen Widgets in Ihrem Notebook abrufen, indem Sie dbutils.widgets.get("myparam") verwenden.

python_script_path
str
Erforderlich

[Erforderlich] Der Pfad zum Python-Skript im DBFS. Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

python_script_params
list[str, PipelineParameter]
Erforderlich

Parameter für das Python-Skript.

main_class_name
str
Erforderlich

[Erforderlich] Der Name des Einstiegspunkts in einem JAR-Modul. Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

jar_params
list[str, PipelineParameter]
Erforderlich

Parameter für das JAR-Modul.

source_directory
str
Erforderlich

Das Verzeichnis, das das Skript und andere Dateien enthält. Wenn python_script_name angegeben ist, muss source_directory ebenfalls angegeben sein.

hash_paths
[str]
Erforderlich

VERALTET: nicht mehr erforderlich.

Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von source_directory werden standardmäßig Hashwerte erstellt, mit Ausnahme der in „.amlignore“ und „.gitignore“ aufgeführten Dateien.

run_name
str
Erforderlich

Der Name für diese Ausführung in Databricks.

timeout_seconds
int
Erforderlich

Das Timeout für die Databricks-Ausführung.

runconfig
RunConfiguration
Erforderlich

Die zu verwendende Runconfig.

Hinweis: Sie können mithilfe der folgenden Parameter beliebig viele Bibliotheken als Abhängigkeiten an Ihren Auftrag übergeben: maven_libraries, pypi_libraries, egg_libraries, jar_librariesoder rcran_libraries. Übergeben Sie diese Parameter entweder direkt mit den entsprechenden Parametern oder als Teil des RunConfiguration-Objekts mithilfe des runconfig-Parameters, aber nicht beides.

maven_libraries
list[<xref:azureml.core.runconfig.MavenLibrary>]
Erforderlich

Maven-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen. Weitere Informationen zur Spezifikation von Maven-Bibliotheken finden Sie unter help(azureml.core.runconfig.MavenLibrary).

pypi_libraries
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Erforderlich

PyPi-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen. Weitere Informationen zur Spezifikation von PyPi-Bibliotheken finden Sie unter help(azureml.core.runconfig.PyPiLibrary).

egg_libraries
list[<xref:azureml.core.runconfig.EggLibrary>]
Erforderlich

Die für die Databricks-Ausführung zu verwendenden Bibliotheken. Weitere Informationen zur Spezifikation von Egg-Bibliotheken finden Sie unter help(azureml.core.runconfig.EggLibrary).

jar_libraries
list[<xref:azureml.core.runconfig.JarLibrary>]
Erforderlich

JAR-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen. Weitere Informationen zur Spezifikation von JAR-Bibliotheken finden Sie unter help(azureml.core.runconfig.JarLibrary).

rcran_libraries
list[<xref:azureml.core.runconfig.RCranLibrary>]
Erforderlich

RCran-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen. Weitere Informationen zur Spezifikation von RCran-Bibliotheken finden Sie unter help(azureml.core.runconfig.RCranLibrary).

compute_target
str, DatabricksCompute
Erforderlich

[Erforderlich] Azure Databricks-Compute. Bevor Sie DatabricksStep zum Ausführen Ihrer Skripts oder Notebooks in einem Azure Databricks Arbeitsbereich verwenden können, müssen Sie den Azure Databricks Arbeitsbereich ihrem Azure Machine Learning Arbeitsbereich als Computeziel hinzufügen.

allow_reuse
bool
Erforderlich

Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat.

version
str
Erforderlich

Ein optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen.

permit_cluster_restart
bool
Erforderlich

wenn existing_cluster_id angegeben ist, gibt dieser Parameter an, ob der Cluster im Auftrag des Benutzers neu gestartet werden kann.

Methoden

create_node

Erstellen Sie einen Knoten aus dem Databricks-Schritt, und fügen Sie ihn dem angegebenen Diagramm hinzu.

Diese Methode ist nicht für die direkte Nutzung vorgesehen. Wenn eine Pipeline mit diesem Schritt instanziiert wird, werden von Azure ML automatisch die für diese Methode erforderlichen Parameter übergeben, damit der Schritt einem Pipelinegraphen hinzugefügt werden kann, der den Workflow darstellt.

create_node

Erstellen Sie einen Knoten aus dem Databricks-Schritt, und fügen Sie ihn dem angegebenen Diagramm hinzu.

Diese Methode ist nicht für die direkte Nutzung vorgesehen. Wenn eine Pipeline mit diesem Schritt instanziiert wird, werden von Azure ML automatisch die für diese Methode erforderlichen Parameter übergeben, damit der Schritt einem Pipelinegraphen hinzugefügt werden kann, der den Workflow darstellt.

create_node(graph, default_datastore, context)

Parameter

graph
Graph
Erforderlich

Das Graphobjekt, dem der Knoten hinzugefügt werden soll.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Erforderlich

Der Standarddatenspeicher.

context
<xref:azureml.pipeline.core._GraphContext>
Erforderlich

Der Graphkontext.

Gibt zurück

Der erstellte Knoten.

Rückgabetyp