DatabricksStep Klas
Hiermee maakt u een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR als een knooppunt toe te voegen.
Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.
Maak een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR als een knooppunt toe te voegen.
Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.
:p aram python_script_name:[Vereist] De naam van een Python-script ten opzichte source_directory
van .
Als het script invoer en uitvoer heeft, worden deze als parameters doorgegeven aan het script.
Als python_script_name
is opgegeven, source_directory
moet dat ook zijn.
Geef precies een van notebook_path
, python_script_path
, python_script_name
of main_class_name
op.
Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met name=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Dit is hoe ze eruitzien en u moet de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Daarnaast zijn de volgende parameters beschikbaar in het script:
- AZUREML_RUN_TOKEN: het AML-token voor verificatie met Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: de verlooptijd van het AML-token.
- AZUREML_RUN_ID: Azure Machine Learning-uitvoerings-id voor deze uitvoering.
- AZUREML_ARM_SUBSCRIPTION: Azure-abonnement voor uw AML-werkruimte.
- AZUREML_ARM_RESOURCEGROUP: Azure-resourcegroep voor uw Azure Machine Learning-werkruimte.
- AZUREML_ARM_WORKSPACE_NAME: naam van uw Azure Machine Learning-werkruimte.
- AZUREML_ARM_PROJECT_NAME: naam van uw Azure Machine Learning-experiment.
- AZUREML_SERVICE_ENDPOINT: de eindpunt-URL voor AML-services.
- AZUREML_WORKSPACE_ID: id van uw Azure Machine Learning-werkruimte.
- AZUREML_EXPERIMENT_ID: id van uw Azure Machine Learning-experiment.
- AZUREML_SCRIPT_DIRECTORY_NAME: Mappad in DBFS waar source_directory is gekopieerd.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Wanneer u een Python-script uitvoert vanaf uw lokale computer in Databricks met behulp van DatabricksStep-parameters source_directory
en python_script_name
, wordt uw source_directory gekopieerd naar DBFS en wordt het mappad op DBFS als parameter doorgegeven aan uw script wanneer de uitvoering wordt gestart.
Deze parameter wordt gelabeld als –AZUREML_SCRIPT_DIRECTORY_NAME. U moet het voorvoegsel toevoegen aan de tekenreeks 'dbfs:/' of '/dbfs/' om toegang te krijgen tot de map in DBFS.
- Overname
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
Constructor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parameters
Name | Description |
---|---|
name
Vereist
|
[Vereist] De naam van de stap. |
inputs
|
Een lijst met invoerverbindingen voor gegevens die tijdens deze stap zijn verbruikt. Haal dit op in de notebook met behulp van dbutils.widgets.get("input_name"). Dit kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. Dit is in feite een pad naar een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 bevatten. PipelineData vertegenwoordigt tussenliggende gegevens die worden geproduceerd door een andere stap in een pijplijn. Default value: None
|
outputs
|
Een lijst met uitvoerpoortdefinities voor uitvoer die tijdens deze stap wordt geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn. Default value: None
|
existing_cluster_id
|
Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken:
Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt ze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Als u deze parameters rechtstreeks en via RunConfiguration doorgeeft, treedt er een fout op. Default value: None
|
spark_version
|
De versie van Spark voor het Databricks-cluster wordt uitgevoerd, bijvoorbeeld: '10.4.x-scala2.12'.
Zie de beschrijving voor de Default value: None
|
node_type
|
[Vereist] De Azure VM-knooppunttypen voor het Databricks-uitvoeringscluster, bijvoorbeeld: 'Standard_D3_v2'. Geef of Default value: None
|
instance_pool_id
|
[Vereist] De instantiegroep-id waaraan het cluster moet worden gekoppeld.
Geef of Default value: None
|
num_workers
|
[Vereist] Het statische aantal werkrollen voor het Databricks-uitvoeringscluster.
U moet of Default value: None
|
min_workers
|
[Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-uitvoeringscluster.
U moet of Default value: None
|
max_workers
|
[Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-uitvoercluster.
U moet of Default value: None
|
spark_env_variables
|
De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd.
Zie de beschrijving voor de Default value: None
|
spark_conf
|
De Spark-configuratie voor het Databricks-uitvoercluster.
Zie de beschrijving voor de Default value: None
|
init_scripts
|
[str]
Afgeschaft. Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS na 1 december 2023 stopt met werken. Als u het probleem wilt verhelpen, gebruikt u 1) globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) markeert u de regel van init_scripts in uw AzureML databricks-stap. Default value: None
|
cluster_log_dbfs_path
|
De DBFS-paden waar clusterslogboeken moeten worden geleverd. Default value: None
|
notebook_path
|
[Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u op vier manieren de code opgeven die moet worden uitgevoerd op het Databricks-cluster.
Geef precies een van Default value: None
|
notebook_params
|
Een woordenlijst met parameters die moeten worden doorgegeven aan het notitieblok.
Default value: None
|
python_script_path
|
[Vereist] Het pad naar het Python-script in de DBFS.
Geef precies een van Default value: None
|
python_script_params
|
Parameters voor het Python-script. Default value: None
|
main_class_name
|
[Vereist] De naam van het toegangspunt in een JAR-module.
Geef precies een van Default value: None
|
jar_params
|
Parameters voor de JAR-module. Default value: None
|
python_script_name
|
[Vereist] De naam van een Python-script ten opzichte Geef precies een van Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met naam=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Zo zien ze eruit en moet u de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Bovendien zijn de volgende parameters beschikbaar in het script:
Wanneer u een Python-script uitvoert vanaf uw lokale computer in Databricks met behulp van DatabricksStep-parameters Default value: None
|
source_directory
|
De map met het script en andere bestanden.
Als Default value: None
|
hash_paths
|
[str]
AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, wordt de inhoud van de stap uit een vorige uitvoering opnieuw gebruikt. Standaard wordt de inhoud van gehasht, met uitzondering van Default value: None
|
run_name
|
De naam in Databricks voor deze uitvoering. Default value: None
|
timeout_seconds
|
De time-out voor de Databricks-uitvoering. Default value: None
|
runconfig
|
De runconfig die moet worden gebruikt. Opmerking: u kunt zoveel bibliotheken doorgeven als u wilt als afhankelijkheden aan uw taak met behulp van de volgende parameters: Default value: None
|
maven_libraries
|
Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
pypi_libraries
|
PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
egg_libraries
|
Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
jar_libraries
|
Jar-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
rcran_libraries
|
RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
compute_target
|
[Vereist] Een Azure Databricks-berekening. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte toevoegen als rekendoel aan uw Azure Machine Learning-werkruimte. Default value: None
|
allow_reuse
|
Hiermee wordt aangegeven of de stap eerdere resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld voor eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd. Default value: True
|
version
|
Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven. Default value: None
|
permit_cluster_restart
|
Als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster opnieuw kan worden gestart namens de gebruiker. Default value: None
|
name
Vereist
|
[Vereist] De naam van de stap. |
inputs
Vereist
|
Lijst met invoerverbindingen voor gegevens die tijdens deze stap zijn verbruikt. Haal dit op in het notebook met behulp van dbutils.widgets.get("input_name"). Dit kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. In wezen is dit een pad in een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 bevatten. PipelineData vertegenwoordigt tussenliggende gegevens die worden geproduceerd door een andere stap in een pijplijn. |
outputs
Vereist
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Een lijst met uitvoerpoortdefinities voor uitvoer die tijdens deze stap is geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn. |
existing_cluster_id
Vereist
|
Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken:
Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt ze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Als u deze parameters rechtstreeks en via RunConfiguration doorgeeft, treedt er een fout op. |
spark_version
Vereist
|
De versie van Spark voor het Databricks-cluster wordt uitgevoerd, bijvoorbeeld: '10.4.x-scala2.12'.
Zie de beschrijving voor de |
node_type
Vereist
|
[Vereist] De Azure VM-knooppunttypen voor het Databricks-cluster worden uitgevoerd, bijvoorbeeld: 'Standard_D3_v2'. Geef of |
instance_pool_id
Vereist
|
[Vereist] De id van de instantiegroep waaraan het cluster moet worden gekoppeld.
Geef of |
num_workers
Vereist
|
[Vereist] Het statische aantal werkrollen voor het Databricks-uitvoeringscluster.
U moet of Zie de beschrijving voor de |
min_workers
Vereist
|
[Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-uitvoeringscluster.
U moet of Zie de beschrijving voor de |
max_workers
Vereist
|
[Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-uitvoercluster.
U moet of Zie de beschrijving voor de |
spark_env_variables
Vereist
|
De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd.
Zie de beschrijving voor de |
spark_conf
Vereist
|
De Spark-configuratie voor het Databricks-uitvoercluster.
Zie de beschrijving voor de |
init_scripts
Vereist
|
[str]
Afgeschaft. Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS na 1 december 2023 niet meer werkt. Als u het probleem wilt oplossen, gebruikt u 1) globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) markeert u de regel van init_scripts in uw AzureML databricks-stap. |
cluster_log_dbfs_path
Vereist
|
De DBFS-paden waar clusterslogboeken moeten worden geleverd. |
notebook_path
Vereist
|
[Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u op vier manieren de code opgeven die moet worden uitgevoerd op het Databricks-cluster.
Geef precies een van |
notebook_params
Vereist
|
Een woordenlijst met parameters die moeten worden doorgegeven aan het notebook.
|
python_script_path
Vereist
|
[Vereist] Het pad naar het Python-script in de DBFS.
Geef precies een van |
python_script_params
Vereist
|
Parameters voor het Python-script. |
main_class_name
Vereist
|
[Vereist] De naam van het toegangspunt in een JAR-module.
Geef precies een van |
jar_params
Vereist
|
Parameters voor de JAR-module. |
source_directory
Vereist
|
De map met het script en andere bestanden.
Als |
hash_paths
Vereist
|
[str]
AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard wordt de inhoud van gehasht, met uitzondering van |
run_name
Vereist
|
De naam in Databricks voor deze uitvoering. |
timeout_seconds
Vereist
|
De time-out voor de Databricks-uitvoering. |
runconfig
Vereist
|
De runconfig die moet worden gebruikt. Opmerking: u kunt zoveel bibliotheken als u wilt als afhankelijkheden aan uw taak doorgeven met behulp van de volgende parameters: |
maven_libraries
Vereist
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van Maven-bibliotheken |
pypi_libraries
Vereist
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van PyPi-bibliotheken |
egg_libraries
Vereist
|
list[<xref:azureml.core.runconfig.EggLibrary>]
Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van Egg-bibliotheken |
jar_libraries
Vereist
|
list[<xref:azureml.core.runconfig.JarLibrary>]
Jar-bibliotheken die moeten worden gebruikt voor de Databricks worden uitgevoerd.
Zie voor meer informatie over de specificatie van Jar-bibliotheken |
rcran_libraries
Vereist
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van RCran-bibliotheken |
compute_target
Vereist
|
[Vereist] Azure Databricks-berekening. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte als rekendoel toevoegen aan uw Azure Machine Learning-werkruimte. |
allow_reuse
Vereist
|
Hiermee wordt aangegeven of de stap eerdere resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gemaakt voor eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd. |
version
Vereist
|
Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven. |
permit_cluster_restart
Vereist
|
Als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster opnieuw kan worden gestart namens de gebruiker. |
Methoden
create_node |
Maak een knooppunt uit de Databricks-stap en voeg dit toe aan de opgegeven grafiek. Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met deze stap, geeft Azure ML automatisch de vereiste parameters door via deze methode, zodat deze stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt. |
create_node
Maak een knooppunt uit de Databricks-stap en voeg dit toe aan de opgegeven grafiek.
Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met deze stap, geeft Azure ML automatisch de vereiste parameters door via deze methode, zodat deze stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.
create_node(graph, default_datastore, context)
Parameters
Name | Description |
---|---|
graph
Vereist
|
Het grafiekobject waaraan u het knooppunt wilt toevoegen. |
default_datastore
Vereist
|
Het standaardgegevensarchief. |
context
Vereist
|
<xref:azureml.pipeline.core._GraphContext>
De grafiekcontext. |
Retouren
Type | Description |
---|---|
Het gemaakte knooppunt. |