Delen via


DatabricksStep Klas

Hiermee maakt u een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR als een knooppunt toe te voegen.

Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.

Maak een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR als een knooppunt toe te voegen.

Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.

:p aram python_script_name:[Vereist] De naam van een Python-script ten opzichte source_directoryvan . Als het script invoer en uitvoer heeft, worden deze als parameters doorgegeven aan het script. Als python_script_name is opgegeven, source_directory moet dat ook zijn.

Geef precies een van notebook_path, python_script_path, python_script_nameof main_class_nameop.

Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met name=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Dit is hoe ze eruitzien en u moet de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Daarnaast zijn de volgende parameters beschikbaar in het script:

  • AZUREML_RUN_TOKEN: het AML-token voor verificatie met Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: de verlooptijd van het AML-token.
  • AZUREML_RUN_ID: Azure Machine Learning-uitvoerings-id voor deze uitvoering.
  • AZUREML_ARM_SUBSCRIPTION: Azure-abonnement voor uw AML-werkruimte.
  • AZUREML_ARM_RESOURCEGROUP: Azure-resourcegroep voor uw Azure Machine Learning-werkruimte.
  • AZUREML_ARM_WORKSPACE_NAME: naam van uw Azure Machine Learning-werkruimte.
  • AZUREML_ARM_PROJECT_NAME: naam van uw Azure Machine Learning-experiment.
  • AZUREML_SERVICE_ENDPOINT: de eindpunt-URL voor AML-services.
  • AZUREML_WORKSPACE_ID: id van uw Azure Machine Learning-werkruimte.
  • AZUREML_EXPERIMENT_ID: id van uw Azure Machine Learning-experiment.
  • AZUREML_SCRIPT_DIRECTORY_NAME: Mappad in DBFS waar source_directory is gekopieerd.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Wanneer u een Python-script uitvoert vanaf uw lokale computer in Databricks met behulp van DatabricksStep-parameters source_directory en python_script_name, wordt uw source_directory gekopieerd naar DBFS en wordt het mappad op DBFS als parameter doorgegeven aan uw script wanneer de uitvoering wordt gestart. Deze parameter wordt gelabeld als –AZUREML_SCRIPT_DIRECTORY_NAME. U moet het voorvoegsel toevoegen aan de tekenreeks 'dbfs:/' of '/dbfs/' om toegang te krijgen tot de map in DBFS.

Overname
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

Constructor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parameters

Name Description
name
Vereist
str

[Vereist] De naam van de stap.

inputs

Een lijst met invoerverbindingen voor gegevens die tijdens deze stap zijn verbruikt. Haal dit op in de notebook met behulp van dbutils.widgets.get("input_name"). Dit kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. Dit is in feite een pad naar een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 bevatten. PipelineData vertegenwoordigt tussenliggende gegevens die worden geproduceerd door een andere stap in een pijplijn.

Default value: None
outputs

Een lijst met uitvoerpoortdefinities voor uitvoer die tijdens deze stap wordt geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn.

Default value: None
existing_cluster_id
str

Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt ze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Als u deze parameters rechtstreeks en via RunConfiguration doorgeeft, treedt er een fout op.

Default value: None
spark_version
str

De versie van Spark voor het Databricks-cluster wordt uitgevoerd, bijvoorbeeld: '10.4.x-scala2.12'. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
node_type
str

[Vereist] De Azure VM-knooppunttypen voor het Databricks-uitvoeringscluster, bijvoorbeeld: 'Standard_D3_v2'. Geef of node_typeinstance_pool_idop. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
instance_pool_id
str

[Vereist] De instantiegroep-id waaraan het cluster moet worden gekoppeld. Geef of node_typeinstance_pool_idop. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
num_workers
int

[Vereist] Het statische aantal werkrollen voor het Databricks-uitvoeringscluster. U moet of num_workers beide min_workers en max_workersopgeven. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
min_workers
int

[Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-uitvoeringscluster. U moet of num_workers beide min_workers en max_workersopgeven. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
max_workers
int

[Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-uitvoercluster. U moet of num_workers beide min_workers en max_workersopgeven. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
spark_env_variables

De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
spark_conf

De Spark-configuratie voor het Databricks-uitvoercluster. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
init_scripts
[str]

Afgeschaft. Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS na 1 december 2023 stopt met werken. Als u het probleem wilt verhelpen, gebruikt u 1) globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) markeert u de regel van init_scripts in uw AzureML databricks-stap.

Default value: None
cluster_log_dbfs_path
str

De DBFS-paden waar clusterslogboeken moeten worden geleverd.

Default value: None
notebook_path
str

[Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u op vier manieren de code opgeven die moet worden uitgevoerd op het Databricks-cluster.

  1. Als u een notebook wilt uitvoeren dat aanwezig is in de Databricks-werkruimte, gebruikt u: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Als u een Python-script wilt uitvoeren dat aanwezig is in DBFS, gebruikt u: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Als u een JAR wilt uitvoeren die aanwezig is in DBFS, gebruikt u: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Als u een Python-script wilt uitvoeren dat aanwezig is op uw lokale computer, gebruikt u: python_script_name=python_script_name, source_directory=source_directory

Geef precies een van notebook_path, python_script_path, python_script_nameof main_class_nameop.

Default value: None
notebook_params

Een woordenlijst met parameters die moeten worden doorgegeven aan het notitieblok. notebook_params zijn beschikbaar als widgets. U kunt de waarden van deze widgets in uw notebook ophalen met behulp van dbutils.widgets.get("myparam").

Default value: None
python_script_path
str

[Vereist] Het pad naar het Python-script in de DBFS. Geef precies een van notebook_path, python_script_path, python_script_nameof main_class_nameop.

Default value: None
python_script_params

Parameters voor het Python-script.

Default value: None
main_class_name
str

[Vereist] De naam van het toegangspunt in een JAR-module. Geef precies een van notebook_path, python_script_path, python_script_nameof main_class_nameop.

Default value: None
jar_params

Parameters voor de JAR-module.

Default value: None
python_script_name
str

[Vereist] De naam van een Python-script ten opzichte source_directoryvan . Als het script invoer en uitvoer gebruikt, worden deze als parameters doorgegeven aan het script. Als python_script_name is opgegeven, source_directory moet dat ook zijn.

Geef precies een van notebook_path, python_script_path, python_script_nameof main_class_nameop.

Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met naam=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Zo zien ze eruit en moet u de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Bovendien zijn de volgende parameters beschikbaar in het script:

  • AZUREML_RUN_TOKEN: het AML-token voor verificatie met Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: de verlooptijd van het AML-token.
  • AZUREML_RUN_ID: Azure Machine Learning-uitvoerings-id voor deze uitvoering.
  • AZUREML_ARM_SUBSCRIPTION: Azure-abonnement voor uw AML-werkruimte.
  • AZUREML_ARM_RESOURCEGROUP: Azure-resourcegroep voor uw Azure Machine Learning-werkruimte.
  • AZUREML_ARM_WORKSPACE_NAME: naam van uw Azure Machine Learning-werkruimte.
  • AZUREML_ARM_PROJECT_NAME: naam van uw Azure Machine Learning-experiment.
  • AZUREML_SERVICE_ENDPOINT: de eindpunt-URL voor AML-services.
  • AZUREML_WORKSPACE_ID: id van uw Azure Machine Learning-werkruimte.
  • AZUREML_EXPERIMENT_ID: id van uw Azure Machine Learning-experiment.
  • AZUREML_SCRIPT_DIRECTORY_NAME: mappad in DBFS waar source_directory is gekopieerd. (Deze parameter wordt alleen ingevuld wanneer python_script_name wordt gebruikt. Hieronder vindt u meer informatie.)

Wanneer u een Python-script uitvoert vanaf uw lokale computer in Databricks met behulp van DatabricksStep-parameters source_directory en python_script_name, wordt uw source_directory gekopieerd naar DBFS en wordt het directorypad op DBFS als parameter doorgegeven aan uw script wanneer de uitvoering wordt gestart. Deze parameter is gelabeld als –AZUREML_SCRIPT_DIRECTORY_NAME. U moet het voorvoegsel vooraf laten gaan door de tekenreeks 'dbfs:/' of '/dbfs/' om toegang te krijgen tot de map in DBFS.

Default value: None
source_directory
str

De map met het script en andere bestanden. Als python_script_name is opgegeven, source_directory moet dat ook zijn.

Default value: None
hash_paths
[str]

AFGESCHAFT: niet meer nodig.

Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, wordt de inhoud van de stap uit een vorige uitvoering opnieuw gebruikt. Standaard wordt de inhoud van gehasht, met uitzondering van source_directory bestanden die worden vermeld in .amlignore of .gitignore.

Default value: None
run_name
str

De naam in Databricks voor deze uitvoering.

Default value: None
timeout_seconds
int

De time-out voor de Databricks-uitvoering.

Default value: None
runconfig

De runconfig die moet worden gebruikt.

Opmerking: u kunt zoveel bibliotheken doorgeven als u wilt als afhankelijkheden aan uw taak met behulp van de volgende parameters: maven_libraries, pypi_libraries, egg_libraries, jar_libraries, of rcran_libraries. Geef deze parameters rechtstreeks door met de bijbehorende parameters of als onderdeel van het RunConfiguration-object met behulp van de runconfig parameter, maar niet beide.

Default value: None
maven_libraries

Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
pypi_libraries

PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
egg_libraries

Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
jar_libraries

Jar-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
rcran_libraries

RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
compute_target

[Vereist] Een Azure Databricks-berekening. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte toevoegen als rekendoel aan uw Azure Machine Learning-werkruimte.

Default value: None
allow_reuse

Hiermee wordt aangegeven of de stap eerdere resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld voor eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.

Default value: True
version
str

Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.

Default value: None
permit_cluster_restart

Als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster opnieuw kan worden gestart namens de gebruiker.

Default value: None
name
Vereist
str

[Vereist] De naam van de stap.

inputs
Vereist

Lijst met invoerverbindingen voor gegevens die tijdens deze stap zijn verbruikt. Haal dit op in het notebook met behulp van dbutils.widgets.get("input_name"). Dit kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. In wezen is dit een pad in een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 bevatten. PipelineData vertegenwoordigt tussenliggende gegevens die worden geproduceerd door een andere stap in een pijplijn.

outputs
Vereist
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Een lijst met uitvoerpoortdefinities voor uitvoer die tijdens deze stap is geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn.

existing_cluster_id
Vereist
str

Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt ze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Als u deze parameters rechtstreeks en via RunConfiguration doorgeeft, treedt er een fout op.

spark_version
Vereist
str

De versie van Spark voor het Databricks-cluster wordt uitgevoerd, bijvoorbeeld: '10.4.x-scala2.12'. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

node_type
Vereist
str

[Vereist] De Azure VM-knooppunttypen voor het Databricks-cluster worden uitgevoerd, bijvoorbeeld: 'Standard_D3_v2'. Geef of node_typeinstance_pool_idop. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

instance_pool_id
Vereist
str

[Vereist] De id van de instantiegroep waaraan het cluster moet worden gekoppeld. Geef of node_typeinstance_pool_idop. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

num_workers
Vereist
int

[Vereist] Het statische aantal werkrollen voor het Databricks-uitvoeringscluster. U moet of num_workers beide min_workers en max_workersopgeven.

Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

min_workers
Vereist
int

[Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-uitvoeringscluster. U moet of num_workers beide min_workers en max_workersopgeven.

Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

max_workers
Vereist
int

[Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-uitvoercluster. U moet of num_workers beide min_workers en max_workersopgeven.

Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

spark_env_variables
Vereist

De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

spark_conf
Vereist

De Spark-configuratie voor het Databricks-uitvoercluster. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

init_scripts
Vereist
[str]

Afgeschaft. Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS na 1 december 2023 niet meer werkt. Als u het probleem wilt oplossen, gebruikt u 1) globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) markeert u de regel van init_scripts in uw AzureML databricks-stap.

cluster_log_dbfs_path
Vereist
str

De DBFS-paden waar clusterslogboeken moeten worden geleverd.

notebook_path
Vereist
str

[Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u op vier manieren de code opgeven die moet worden uitgevoerd op het Databricks-cluster.

  1. Als u een notebook wilt uitvoeren dat aanwezig is in de Databricks-werkruimte, gebruikt u: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Als u een Python-script wilt uitvoeren dat aanwezig is in DBFS, gebruikt u: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Als u een JAR wilt uitvoeren die aanwezig is in DBFS, gebruikt u: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Als u een Python-script wilt uitvoeren dat aanwezig is op uw lokale computer, gebruikt u: python_script_name=python_script_name, source_directory=source_directory

Geef precies een van notebook_path, python_script_path, python_script_nameof main_class_nameop.

notebook_params
Vereist

Een woordenlijst met parameters die moeten worden doorgegeven aan het notebook. notebook_params zijn beschikbaar als widgets. U kunt de waarden van deze widgets in uw notitieblok ophalen met behulp van dbutils.widgets.get("myparam")..

python_script_path
Vereist
str

[Vereist] Het pad naar het Python-script in de DBFS. Geef precies een van notebook_path, python_script_path, python_script_nameof main_class_nameop.

python_script_params
Vereist

Parameters voor het Python-script.

main_class_name
Vereist
str

[Vereist] De naam van het toegangspunt in een JAR-module. Geef precies een van notebook_path, python_script_path, python_script_nameof main_class_nameop.

jar_params
Vereist

Parameters voor de JAR-module.

source_directory
Vereist
str

De map met het script en andere bestanden. Als python_script_name is opgegeven, source_directory moet dat ook zijn.

hash_paths
Vereist
[str]

AFGESCHAFT: niet meer nodig.

Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard wordt de inhoud van gehasht, met uitzondering van source_directory bestanden die worden vermeld in .amlignore of .gitignore.

run_name
Vereist
str

De naam in Databricks voor deze uitvoering.

timeout_seconds
Vereist
int

De time-out voor de Databricks-uitvoering.

runconfig
Vereist

De runconfig die moet worden gebruikt.

Opmerking: u kunt zoveel bibliotheken als u wilt als afhankelijkheden aan uw taak doorgeven met behulp van de volgende parameters: maven_libraries, pypi_libraries, egg_libraries, jar_librariesof rcran_libraries. Geef deze parameters rechtstreeks door met de bijbehorende parameters of als onderdeel van het RunConfiguration-object met behulp van de runconfig parameter, maar niet beide.

maven_libraries
Vereist
list[<xref:azureml.core.runconfig.MavenLibrary>]

Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van Maven-bibliotheken help(azureml.core.runconfig.MavenLibrary).

pypi_libraries
Vereist
list[<xref:azureml.core.runconfig.PyPiLibrary>]

PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van PyPi-bibliotheken help(azureml.core.runconfig.PyPiLibrary).

egg_libraries
Vereist
list[<xref:azureml.core.runconfig.EggLibrary>]

Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van Egg-bibliotheken help(azureml.core.runconfig.EggLibrary).

jar_libraries
Vereist
list[<xref:azureml.core.runconfig.JarLibrary>]

Jar-bibliotheken die moeten worden gebruikt voor de Databricks worden uitgevoerd. Zie voor meer informatie over de specificatie van Jar-bibliotheken help(azureml.core.runconfig.JarLibrary).

rcran_libraries
Vereist
list[<xref:azureml.core.runconfig.RCranLibrary>]

RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van RCran-bibliotheken help(azureml.core.runconfig.RCranLibrary).

compute_target
Vereist

[Vereist] Azure Databricks-berekening. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte als rekendoel toevoegen aan uw Azure Machine Learning-werkruimte.

allow_reuse
Vereist

Hiermee wordt aangegeven of de stap eerdere resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gemaakt voor eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.

version
Vereist
str

Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.

permit_cluster_restart
Vereist

Als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster opnieuw kan worden gestart namens de gebruiker.

Methoden

create_node

Maak een knooppunt uit de Databricks-stap en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met deze stap, geeft Azure ML automatisch de vereiste parameters door via deze methode, zodat deze stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node

Maak een knooppunt uit de Databricks-stap en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met deze stap, geeft Azure ML automatisch de vereiste parameters door via deze methode, zodat deze stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node(graph, default_datastore, context)

Parameters

Name Description
graph
Vereist

Het grafiekobject waaraan u het knooppunt wilt toevoegen.

default_datastore
Vereist

Het standaardgegevensarchief.

context
Vereist
<xref:azureml.pipeline.core._GraphContext>

De grafiekcontext.

Retouren

Type Description

Het gemaakte knooppunt.