DatabricksStep Klasse

Referenz

Erstellt einen Azure ML-Pipelineschritt, um ein DataBricks-Notebook, ein Python-Skript oder eine JAR-Datei als Knoten hinzuzufügen.

Ein Beispiel für die Verwendung von DatabricksStep finden Sie im Notebook https://aka.ms/pl-databricks.

Erstellen Sie einen Azure ML Pipeline-Schritt, um ein DataBricks-Notebook, Python-Skript oder JAR als Knoten hinzuzufügen.

Ein Beispiel für die Verwendung von DatabricksStep finden Sie im Notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Erforderlich] Der Name eines Python-Skripts relativ zu source_directory. Wenn das Skript Eingaben und Ausgaben verwendet, werden diese als Parameter an das Skript übergeben. Wenn python_script_name angegeben ist, muss source_directory ebenfalls angegeben sein.

Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

Wenn Sie ein DataReference-Objekt als Eingabe mit data_reference_name=input1 und ein PipelineData-Objekt als Ausgabe mit name=output1 angeben, werden die Eingaben und Ausgaben als Parameter an das Skript übergeben. So sehen sie aus, und Sie müssen die Argumente in Ihrem Skript analysieren, um auf die Pfade jeder Eingabe und Ausgabe zu zugreifen: "-input1", "wasbs://test@storagename.blob.core.windows.net/test", "-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Darüber hinaus sind die folgenden Parameter im Skript verfügbar:

AZUREML_RUN_TOKEN: Das AML für die Authentifizierung mit Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: Die AML Ablaufzeit des Tokens.
AZUREML_RUN_ID: Azure Machine Learning Ausführungs-ID für diese Ausführung.
AZUREML_ARM_SUBSCRIPTION: Azure-Abonnement für Ihren AML Arbeitsbereich.
AZUREML_ARM_RESOURCEGROUP: Azure-Ressourcengruppe für Ihren Azure Machine Learning Arbeitsbereich.
AZUREML_ARM_WORKSPACE_NAME: Name Ihres Azure Machine Learning Arbeitsbereichs.
AZUREML_ARM_PROJECT_NAME: Name Ihres Azure Machine Learning Experiments.
AZUREML_SERVICE_ENDPOINT: Die Endpunkt-URL für AML Dienste.
AZUREML_WORKSPACE_ID: ID Ihres Azure Machine Learning-Arbeitsbereichs.
AZUREML_EXPERIMENT_ID: ID Ihres Azure Machine Learning-Experiments.
AZUREML_SCRIPT_DIRECTORY_NAME: Verzeichnispfadstruktur in DBFS, wobei source_directory kopiert wurde.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Wenn Sie ein Python-Skript von Ihrem lokalen Computer auf Databricks mithilfe der DatabricksStep-Parameter source_directoryund python_script_name, wird Ihr source_directory in DBFS kopiert, und der Verzeichnisstrukturpfad in DBFS wird als Parameter an Ihr Skript übergeben, wenn es mit der Ausführung beginnt. Dieser Parameter wird bezeichnet als --AZUREML_SCRIPT_DIRECTORY_NAME. Sie müssen ihr die Zeichenfolge "dbfs:/" voran stellen. oder "/dbfs/", um auf das Verzeichnis in DBFS zu zugreifen.

Vererbung: azureml.pipeline.core._databricks_step_base._DatabricksStepBase

DatabricksStep

Konstruktor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parameter

name: str

Erforderlich

[Erforderlich] Der Name des Schritts.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

Standardwert: None

Eine Liste der Eingabeverbindungen für daten, die von diesem Schritt verwendet werden. Rufen Sie die Liste im Notebook mithilfe von dbutils.widgets.get("input_name") ab. Kann DataReference oder PipelineData sein. DataReference stellt ein vorhandenes Datenstück in einem Datenspeicher dar. Im Wesentlichen ist dies ein Pfad zu einem Datenspeicher. DatabricksStep unterstützt Datenspeicher, die DBFS, Azure Blob oder ADLS v1 kapseln. PipelineData stellt Zwischendaten dar, die durch einen anderen Schritt in einer Pipeline erzeugt wurden.

outputs: list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]]

Standardwert: None

Eine Liste der Ausgabeportdefinitionen für Ausgaben, die in diesem Schritt erzeugt werden. Rufen Sie die Liste im Notebook mithilfe von dbutils.widgets.get("output_name") ab. Sollte PipelineData sein.

existing_cluster_id: str

Standardwert: None

Eine Cluster-ID eines vorhandenen interaktiven Clusters im Databricks-Arbeitsbereich. Wenn Sie diesen Parameter übergeben, können Sie keinen der folgenden Parameter übergeben, die zum Erstellen eines neuen Clusters verwendet werden:

spark_version
node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

Hinweis: Zum Erstellen eines neuen Auftragsclusters müssen Sie die oben genannten Parameter übergeben. Sie können diese Parameter direkt übergeben, oder Sie können sie als Teil des RunConfiguration-Objekts mithilfe des runconfig-Parameters übergeben. Die direkte Übergabe dieser Parameter und runConfiguration führt zu einem Fehler.

spark_version: str

Standardwert: None

Die Spark-Version für den Databricks-Ausführungscluster, z. B. "10.4.x-scala2.12". Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

node_type: str

Standardwert: None

[Erforderlich] Die Azure-VM-Knotentypen für den Databricks-Ausführungscluster, z. B. "Standard_D3_v2". Geben Sie entweder node_type oder instance_pool_id an. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

instance_pool_id: str

Standardwert: None

[Erforderlich] Die Instanzpool-ID, an die der Cluster angefügt werden muss. Geben Sie entweder node_type oder instance_pool_id an. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

num_workers: int

Standardwert: None

[Erforderlich] Die statische Anzahl von Workern für den Databricks-Cluster. Sie müssen entweder num_workers oder min_workers und max_workers angeben. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

min_workers: int

Standardwert: None

[Erforderlich] Die Mindestanzahl von Workers, die für die automatische Skalierung des Databricks-Ausführungsclusters verwendet werden. Sie müssen entweder num_workers oder min_workers und max_workers angeben. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

max_workers: int

Standardwert: None

[Erforderlich] Die maximale Anzahl von Workers, die für die automatische Skalierung des Databricks-Ausführungsclusters verwendet werden. Sie müssen entweder num_workers oder min_workers und max_workers angeben. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

spark_env_variables: dict

Standardwert: None

Die Spark-Umgebungsvariablen für den Databricks-Ausführungscluster. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

spark_conf: dict

Standardwert: None

Die Spark-Konfiguration für den Databricks-Ausführungscluster. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

init_scripts: [str]

Standardwert: None

Veraltet. Databricks hat angekündigt, dass das in DBFS gespeicherte Initialisierungsskript nach dem 1. Dezember 2023 nicht mehr funktioniert. Um das Problem zu beheben, verwenden Sie 1) globale Initialisierungsskripts in Databricks, https://learn.microsoft.com/azure/databricks/init-scripts/global 2) kommentieren Sie die Zeile der init_scripts in Ihrem AzureML databricks-Schritt aus.

cluster_log_dbfs_path: str

Standardwert: None

Die DBFS-Pfade, an die Clusterprotokolle übermittelt werden sollen.

notebook_path: str

Standardwert: None

[Erforderlich] Der Pfad zum Notebook in der Databricks-Instanz. Diese Klasse ermöglicht vier Möglichkeiten, den Code anzugeben, der im Databricks-Cluster ausgeführt werden soll.

Um ein Notebook auszuführen, das im Databricks-Arbeitsbereich vorhanden ist, verwenden Sie: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Um ein Python-Skript auszuführen, das in DBFS vorhanden ist, verwenden Sie: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Um eine JAR-Datei auszuführen, die in DBFS vorhanden ist, verwenden Sie: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Um ein Python-Skript auszuführen, das auf Ihrem lokalen Computer vorhanden ist, verwenden Sie: python_script_name=python_script_name, source_directory=source_directory

Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

notebook_params: dict[str, Union[str, PipelineParameter]]

Standardwert: None

Ein Wörterbuch mit Parametern, die an das Notebook übergeben werden. notebook_params sind als Widgets verfügbar. Sie können die Werte aus diesen Widgets in Ihrem Notebook abrufen, indem Sie dbutils.widgets.get("myparam") verwenden.

python_script_path: str

Standardwert: None

[Erforderlich] Der Pfad zum Python-Skript im DBFS. Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

python_script_params: list[str, PipelineParameter]

Standardwert: None

Parameter für das Python-Skript.

main_class_name: str

Standardwert: None

[Erforderlich] Der Name des Einstiegspunkts in einem JAR-Modul. Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

jar_params: list[str, PipelineParameter]

Standardwert: None

Parameter für das JAR-Modul.

python_script_name: str

Standardwert: None

[Erforderlich] Der Name eines Python-Skripts, relativ zu source_directory. Wenn das Skript Eingaben und Ausgaben verwendet, werden diese als Parameter an das Skript übergeben. Wenn python_script_name angegeben ist, muss source_directory ebenfalls angegeben sein.

Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

Darüber hinaus sind die folgenden Parameter im Skript verfügbar:

AZUREML_RUN_TOKEN: Das AML für die Authentifizierung mit Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: Die AML Ablaufzeit des Tokens.
AZUREML_RUN_ID: Azure Machine Learning Ausführungs-ID für diese Ausführung.
AZUREML_ARM_SUBSCRIPTION: Azure-Abonnement für Ihren AML Arbeitsbereich.
AZUREML_ARM_RESOURCEGROUP: Azure-Ressourcengruppe für Ihren Azure Machine Learning Arbeitsbereich.
AZUREML_ARM_WORKSPACE_NAME: Name Ihres Azure Machine Learning Arbeitsbereichs.
AZUREML_ARM_PROJECT_NAME: Name Ihres Azure Machine Learning Experiments.
AZUREML_SERVICE_ENDPOINT: Die Endpunkt-URL für AML Dienste.
AZUREML_WORKSPACE_ID: ID Ihres Azure Machine Learning-Arbeitsbereichs.
AZUREML_EXPERIMENT_ID: ID Ihres Azure Machine Learning-Experiments.
AZUREML_SCRIPT_DIRECTORY_NAME: Verzeichnispfadstruktur in DBFS, wobei source_directory kopiert wurde. (Dieser Parameter wird nur aufgefüllt, wenn python_script_name verwendet wird. Weitere Informationen finden Sie weiter unten.)

source_directory: str

Standardwert: None

Das Verzeichnis, das das Skript und andere Dateien enthält. Wenn python_script_name angegeben ist, muss source_directory ebenfalls angegeben sein.

hash_paths: [str]

Standardwert: None

VERALTET: nicht mehr erforderlich.

Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von source_directory werden standardmäßig Hashwerte erstellt, mit Ausnahme der in „.amlignore“ und „.gitignore“ aufgeführten Dateien.

run_name: str

Standardwert: None

Der Name für diese Ausführung in Databricks.

timeout_seconds: int

Standardwert: None

Das Timeout für die Databricks-Ausführung.

runconfig: RunConfiguration

Standardwert: None

Die zu verwendende Runconfig.

Hinweis: Sie können mithilfe der folgenden Parameter beliebig viele Bibliotheken als Abhängigkeiten an Ihren Auftrag übergeben: maven_libraries, pypi_libraries, egg_libraries, jar_librariesoder rcran_libraries. Übergeben Sie diese Parameter entweder direkt mit den entsprechenden Parametern oder als Teil des RunConfiguration-Objekts mithilfe des runconfig-Parameters, aber nicht beides.

maven_libraries: list[MavenLibrary]

Standardwert: None

Maven-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen.

pypi_libraries: list[PyPiLibrary]

Standardwert: None

PyPi-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen.

egg_libraries: list[EggLibrary]

Standardwert: None

Die für die Databricks-Ausführung zu verwendenden Bibliotheken.

jar_libraries: list[JarLibrary]

Standardwert: None

JAR-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen.

rcran_libraries: list[RCranLibrary]

Standardwert: None

RCran-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen.

compute_target: str, DatabricksCompute

Standardwert: None

[Erforderlich] Ein Azure Databricks Compute. Bevor Sie DatabricksStep zum Ausführen Ihrer Skripts oder Notebooks in einem Azure Databricks Arbeitsbereich verwenden können, müssen Sie den Azure Databricks Arbeitsbereich ihrem Azure Machine Learning Arbeitsbereich als Computeziel hinzufügen.

allow_reuse: bool

Standardwert: True

Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat.

version: str

Standardwert: None

Ein optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen.

permit_cluster_restart: bool

Standardwert: None

wenn existing_cluster_id angegeben ist, gibt dieser Parameter an, ob der Cluster im Auftrag des Benutzers neu gestartet werden kann.

name: str

Erforderlich

[Erforderlich] Der Name des Schritts.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

Erforderlich

Liste der Eingabeverbindungen für daten, die in diesem Schritt verwendet werden. Rufen Sie die Liste im Notebook mithilfe von dbutils.widgets.get("input_name") ab. Kann DataReference oder PipelineData sein. DataReference stellt ein vorhandenes Datenstück in einem Datenspeicher dar. Im Wesentlichen ist dies ein Pfad zu einem Datenspeicher. DatabricksStep unterstützt Datenspeicher, die DBFS, Azure Blob oder ADLS v1 kapseln. PipelineData stellt Zwischendaten dar, die durch einen anderen Schritt in einer Pipeline erzeugt wurden.

outputs: list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Erforderlich

existing_cluster_id: str

Erforderlich

spark_version
node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

spark_version: str

Erforderlich

Die Spark-Version für den Databricks-Ausführungscluster, z. B. "10.4.x-scala2.12". Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

node_type: str

Erforderlich

instance_pool_id: str

Erforderlich

num_workers: int

Erforderlich

[Erforderlich] Die statische Anzahl von Workern für den Databricks-Cluster. Sie müssen entweder num_workers oder min_workers und max_workers angeben.

Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

min_workers: int

Erforderlich

Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

max_workers: int

Erforderlich

Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

spark_env_variables: dict

Erforderlich

Die Spark-Umgebungsvariablen für den Databricks-Ausführungscluster. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

spark_conf: dict

Erforderlich

Die Spark-Konfiguration für den Databricks-Ausführungscluster. Weitere Informationen finden Sie in der Beschreibung für existing_cluster_id Parameter.

init_scripts: [str]

Erforderlich

Veraltet. Databricks hat angekündigt, dass das in DBFS gespeicherte Initskript nach dem 1. Dezember 2023 nicht mehr funktioniert. Um das Problem zu beheben, bitte 1) Verwenden Sie globale Initskripts in databricks, https://learn.microsoft.com/azure/databricks/init-scripts/global 2) kommentieren Sie die Zeile init_scripts in Ihrem AzureML databricks-Schritt aus.

cluster_log_dbfs_path: str

Erforderlich

Die DBFS-Pfade, an die Clusterprotokolle übermittelt werden sollen.

notebook_path: str

Erforderlich

[Erforderlich] Der Pfad zum Notebook in der Databricks-Instanz. Diese Klasse ermöglicht vier Möglichkeiten, den Code anzugeben, der im Databricks-Cluster ausgeführt werden soll.

Um ein Notebook auszuführen, das im Databricks-Arbeitsbereich vorhanden ist, verwenden Sie: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Um ein Python-Skript auszuführen, das in DBFS vorhanden ist, verwenden Sie: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Um eine JAR-Datei auszuführen, die in DBFS vorhanden ist, verwenden Sie: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Um ein Python-Skript auszuführen, das auf Ihrem lokalen Computer vorhanden ist, verwenden Sie: python_script_name=python_script_name, source_directory=source_directory

Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

notebook_params: dict[str, (str oder PipelineParameter)]

Erforderlich

python_script_path: str

Erforderlich

[Erforderlich] Der Pfad zum Python-Skript im DBFS. Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

python_script_params: list[str, PipelineParameter]

Erforderlich

Parameter für das Python-Skript.

main_class_name: str

Erforderlich

[Erforderlich] Der Name des Einstiegspunkts in einem JAR-Modul. Geben Sie genau eines von notebook_path, python_script_pathpython_script_name, oder anmain_class_name.

jar_params: list[str, PipelineParameter]

Erforderlich

Parameter für das JAR-Modul.

source_directory: str

Erforderlich

Das Verzeichnis, das das Skript und andere Dateien enthält. Wenn python_script_name angegeben ist, muss source_directory ebenfalls angegeben sein.

hash_paths: [str]

Erforderlich

VERALTET: nicht mehr erforderlich.

run_name: str

Erforderlich

Der Name für diese Ausführung in Databricks.

timeout_seconds: int

Erforderlich

Das Timeout für die Databricks-Ausführung.

runconfig: RunConfiguration

Erforderlich

Die zu verwendende Runconfig.

maven_libraries: list[<xref:azureml.core.runconfig.MavenLibrary>]

Erforderlich

Maven-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen. Weitere Informationen zur Spezifikation von Maven-Bibliotheken finden Sie unter help(azureml.core.runconfig.MavenLibrary).

pypi_libraries: list[<xref:azureml.core.runconfig.PyPiLibrary>]

Erforderlich

PyPi-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen. Weitere Informationen zur Spezifikation von PyPi-Bibliotheken finden Sie unter help(azureml.core.runconfig.PyPiLibrary).

egg_libraries: list[<xref:azureml.core.runconfig.EggLibrary>]

Erforderlich

Die für die Databricks-Ausführung zu verwendenden Bibliotheken. Weitere Informationen zur Spezifikation von Egg-Bibliotheken finden Sie unter help(azureml.core.runconfig.EggLibrary).

jar_libraries: list[<xref:azureml.core.runconfig.JarLibrary>]

Erforderlich

JAR-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen. Weitere Informationen zur Spezifikation von JAR-Bibliotheken finden Sie unter help(azureml.core.runconfig.JarLibrary).

rcran_libraries: list[<xref:azureml.core.runconfig.RCranLibrary>]

Erforderlich

RCran-Bibliotheken, die für die Databricks-Ausführung verwendet werden sollen. Weitere Informationen zur Spezifikation von RCran-Bibliotheken finden Sie unter help(azureml.core.runconfig.RCranLibrary).

compute_target: str, DatabricksCompute

Erforderlich

[Erforderlich] Azure Databricks-Compute. Bevor Sie DatabricksStep zum Ausführen Ihrer Skripts oder Notebooks in einem Azure Databricks Arbeitsbereich verwenden können, müssen Sie den Azure Databricks Arbeitsbereich ihrem Azure Machine Learning Arbeitsbereich als Computeziel hinzufügen.

allow_reuse: bool

Erforderlich

version: str

Erforderlich

Ein optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen.

permit_cluster_restart: bool

Erforderlich

wenn existing_cluster_id angegeben ist, gibt dieser Parameter an, ob der Cluster im Auftrag des Benutzers neu gestartet werden kann.

Methoden

create_node

Erstellen Sie einen Knoten aus dem Databricks-Schritt, und fügen Sie ihn dem angegebenen Diagramm hinzu.

Diese Methode ist nicht für die direkte Nutzung vorgesehen. Wenn eine Pipeline mit diesem Schritt instanziiert wird, werden von Azure ML automatisch die für diese Methode erforderlichen Parameter übergeben, damit der Schritt einem Pipelinegraphen hinzugefügt werden kann, der den Workflow darstellt.

create_node

Erstellen Sie einen Knoten aus dem Databricks-Schritt, und fügen Sie ihn dem angegebenen Diagramm hinzu.

create_node(graph, default_datastore, context)

Parameter

graph: Graph

Erforderlich

Das Graphobjekt, dem der Knoten hinzugefügt werden soll.

default_datastore: Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]

Erforderlich

Der Standarddatenspeicher.

context: <xref:azureml.pipeline.core._GraphContext>

Erforderlich

Der Graphkontext.

Gibt zurück

Der erstellte Knoten.

Rückgabetyp

Node

DatabricksStep Klasse

Konstruktor

Parameter

Methoden

create_node

Parameter

Gibt zurück

Rückgabetyp

Feedback

Feedback

Zusätzliche Ressourcen