DatabricksStep Třída
Vytvoří krok kanálu Azure ML pro přidání poznámkového bloku DataBricks, skriptu Pythonu nebo souboru JAR jako uzlu.
Příklad použití DatabricksStep najdete v poznámkovém bloku https://aka.ms/pl-databricks.
Vytvořte krok kanálu Azure ML pro přidání poznámkového bloku DataBricks, skriptu Pythonu nebo souboru JAR jako uzlu.
Příklad použití DatabricksStep najdete v poznámkovém bloku https://aka.ms/pl-databricks.
:p aram python_script_name:[Povinný argument] Název skriptu Pythonu vzhledem k source_directory.
Pokud skript přebírá vstupy a výstupy, předá se skriptu jako parametry.
Pokud python_script_name je zadána, source_directory musí být také.
Zadejte přesně jednu z hodnot notebook_path, python_script_path, python_script_namenebo main_class_name.
Pokud jako vstup zadáte objekt DataReference s data_reference_name=input1 a objekt PipelineData jako výstup s názvem=output1, předá se vstupy a výstupy skriptu jako parametry. Takto budou vypadat a budete muset analyzovat argumenty ve skriptu, abyste získali přístup k cestám jednotlivých vstupů a výstupů: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Kromě toho budou ve skriptu k dispozici následující parametry:
- AZUREML_RUN_TOKEN: Token AML pro ověřování ve službě Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: Čas vypršení platnosti tokenu AML.
- AZUREML_RUN_ID: ID spuštění služby Azure Machine Learning pro toto spuštění
- AZUREML_ARM_SUBSCRIPTION: Předplatné Azure pro váš pracovní prostor AML.
- AZUREML_ARM_RESOURCEGROUP: Skupina prostředků Azure pro váš pracovní prostor Azure Machine Learning.
- AZUREML_ARM_WORKSPACE_NAME: Název pracovního prostoru služby Azure Machine Learning.
- AZUREML_ARM_PROJECT_NAME: Název experimentu služby Azure Machine Learning
- AZUREML_SERVICE_ENDPOINT: Adresa URL koncového bodu pro služby AML.
- AZUREML_WORKSPACE_ID: ID pracovního prostoru služby Azure Machine Learning.
- AZUREML_EXPERIMENT_ID: ID experimentu služby Azure Machine Learning
- AZUREML_SCRIPT_DIRECTORY_NAME: Cesta k adresáři v DBFS, kde source_directory byla zkopírována.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Při spouštění skriptu Pythonu z místního počítače v Databricks pomocí parametrů source_directory DatabricksStep a python_script_namesource_directory se zkopíruje do DBFS a cesta k adresáři ve službě DBFS se předá jako parametr skriptu při zahájení provádění.
Tento parametr je označený jako –AZUREML_SCRIPT_DIRECTORY_NAME. Abyste mohli získat přístup k adresáři v DBFS, musíte ho předponovat řetězcem dbfs:/nebo /dbfs/.
Konstruktor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parametry
| Name | Description |
|---|---|
|
name
Vyžadováno
|
[Povinné] Název kroku. |
|
inputs
|
Seznam vstupních připojení pro data spotřebovaná tímto krokem Načtěte to v poznámkovém bloku pomocí dbutils.widgets.get("input_name"). Může to být DataReference nebo PipelineData. DataReference představuje existující část dat v úložišti dat. V podstatě se jedná o cestu k úložišti dat. DatabricksStep podporuje úložiště dat, která zapouzdřuje DBFS, objekt blob Azure nebo ADLS v1. PipelineData představuje zprostředkující data vytvořená jiným krokem v kanálu. Default value: None
|
|
outputs
|
Seznam definic výstupních portů pro výstupy vytvořené tímto krokem. Načtěte to v poznámkovém bloku pomocí dbutils.widgets.get("output_name"). Měla by to být PipelineData. Default value: None
|
|
existing_cluster_id
|
ID clusteru existujícího interaktivního clusteru v pracovním prostoru Databricks Pokud předáváte tento parametr, nemůžete předat žádný z následujících parametrů, které se používají k vytvoření nového clusteru:
Poznámka: Pro vytvoření nového clusteru úloh budete muset předat výše uvedené parametry. Tyto parametry můžete předat přímo nebo je můžete předat jako součást objektu RunConfiguration pomocí parametru runconfig. Předání těchto parametrů přímo a prostřednictvím RunConfiguration způsobí chybu. Default value: None
|
|
spark_version
|
Verze Sparku pro cluster Spuštění Databricks, například 10.4.x-scala2.12.
Další informace najdete v popisu parametru Default value: None
|
|
node_type
|
[Povinné] Typy uzlů virtuálních počítačů Azure pro cluster Spuštěný v Databricks, například: "Standard_D3_v2". Zadejte buď Default value: None
|
|
instance_pool_id
|
[Povinné] ID fondu instancí, ke kterému je potřeba cluster připojit.
Zadejte buď Default value: None
|
|
num_workers
|
[Povinné] Statický počet pracovních procesů pro cluster spuštěný v Databricks.
Je nutné zadat buď Default value: None
|
|
min_workers
|
[Povinné] Minimální počet pracovních procesů, které se mají použít pro automatické škálování clusteru spuštěného v Databricks.
Je nutné zadat buď Default value: None
|
|
max_workers
|
[Povinné] Maximální počet pracovních procesů, které se mají použít pro automatické škálování clusteru spuštěného v Databricks.
Je nutné zadat buď Default value: None
|
|
spark_env_variables
|
Proměnné prostředí Spark pro cluster spuštěný v Databricks.
Další informace najdete v popisu parametru Default value: None
|
|
spark_conf
|
Konfigurace Sparku pro cluster spuštěný v Databricks.
Další informace najdete v popisu parametru Default value: None
|
|
init_scripts
|
[str]
Označeno jako zastaralé Databricks oznámila, že inicializační skript uložený v DBFS přestane fungovat po 1. prosinci 2023. Pokud chcete tento problém zmírnit, použijte 1) globální inicializační skripty v Databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) okomentujte řádek init_scripts v kroku AzureML Databricks. Default value: None
|
|
cluster_log_dbfs_path
|
Cesty DBFS, kam se mají doručovat protokoly clusterů. Default value: None
|
|
notebook_path
|
[Povinné] Cesta k poznámkovému bloku v instanci Databricks. Tato třída umožňuje čtyři způsoby určení kódu ke spuštění v clusteru Databricks.
Zadejte přesně jednu z hodnot Default value: None
|
|
notebook_params
|
Slovník parametrů, které se mají předat do poznámkového bloku.
Default value: None
|
|
python_script_path
|
[Povinné] Cesta ke skriptu Pythonu v DBFS.
Zadejte přesně jednu z hodnot Default value: None
|
|
python_script_params
|
Parametry skriptu Pythonu Default value: None
|
|
main_class_name
|
[Povinné] Název vstupního bodu v modulu JAR.
Zadejte přesně jednu z hodnot Default value: None
|
|
jar_params
|
Parametry modulu JAR. Default value: None
|
|
python_script_name
|
[Povinné] Název skriptu Pythonu vzhledem k Zadejte přesně jednu z hodnot Pokud jako vstup zadáte objekt DataReference s data_reference_name=input1 a objekt PipelineData jako výstup s názvem=output1, předá se vstupy a výstupy skriptu jako parametry. Takto budou vypadat a budete muset analyzovat argumenty ve skriptu, abyste získali přístup k cestám jednotlivých vstupů a výstupů: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Kromě toho budou ve skriptu k dispozici následující parametry:
Při spouštění skriptu Pythonu z místního počítače v Databricks pomocí parametrů Default value: None
|
|
source_directory
|
Složka, která obsahuje skript a další soubory.
Pokud Default value: None
|
|
hash_paths
|
[str]
ZASTARALÉ: Už není potřeba. Seznam cest k hodnotě hash při kontrole změn v obsahu kroku. Pokud se nezjistí žádné změny, kanál znovu použije obsah kroku z předchozího spuštění. Ve výchozím nastavení je obsah Default value: None
|
|
run_name
|
Název v Databricks pro toto spuštění Default value: None
|
|
timeout_seconds
|
Časový limit spuštění Databricks Default value: None
|
|
runconfig
|
Runconfig, který se má použít. Poznámka: Ke své úloze můžete předat tolik knihoven, kolik chcete, a to pomocí následujících parametrů: Default value: None
|
|
maven_libraries
|
Knihovny Mavenu, které se mají použít pro spuštění Databricks. Default value: None
|
|
pypi_libraries
|
Knihovny PyPi, které se mají použít pro spuštění Databricks. Default value: None
|
|
egg_libraries
|
Knihovny egg, které se mají použít pro spuštění Databricks. Default value: None
|
|
jar_libraries
|
Knihovny Jar, které se mají použít pro spuštění Databricks. Default value: None
|
|
rcran_libraries
|
Knihovny RCran, které se mají použít pro spuštění Databricks. Default value: None
|
|
compute_target
|
[Povinné] Výpočetní prostředí Azure Databricks Abyste mohli databricksStep použít ke spouštění skriptů nebo poznámkových bloků v pracovním prostoru Azure Databricks, musíte do pracovního prostoru Azure Machine Learning přidat pracovní prostor Azure Databricks jako cíl výpočetních prostředků. Default value: None
|
|
allow_reuse
|
Určuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. Opakované použití je ve výchozím nastavení povolené. Pokud obsah kroku (skripty/závislosti) a vstupy a parametry zůstanou beze změny, výstup z předchozího spuštění tohoto kroku se znovu použije. Při opětovném použití kroku místo odeslání úlohy k výpočtu se výsledky předchozího spuštění okamžitě zpřístupní pro všechny následné kroky. Pokud jako vstupy používáte datové sady Azure Machine Learning, určuje se opakované použití podle toho, jestli se definice datové sady změnila, a ne tím, jestli se podkladová data změnila. Default value: True
|
|
version
|
Volitelná značka verze, která označuje změnu funkčnosti kroku. Default value: None
|
|
permit_cluster_restart
|
pokud je zadán existing_cluster_id, tento parametr udává, jestli je možné cluster restartovat jménem uživatele. Default value: None
|
|
name
Vyžadováno
|
[Povinné] Název kroku. |
|
inputs
Vyžadováno
|
Seznam vstupních připojení pro data spotřebovaná tímto krokem Načtěte to v poznámkovém bloku pomocí dbutils.widgets.get("input_name"). Může to být DataReference nebo PipelineData. DataReference představuje existující část dat v úložišti dat. V podstatě se jedná o cestu k úložišti dat. DatabricksStep podporuje úložiště dat, která zapouzdřuje DBFS, objekt blob Azure nebo ADLS v1. PipelineData představuje zprostředkující data vytvořená jiným krokem v kanálu. |
|
outputs
Vyžadováno
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Seznam definic výstupních portů pro výstupy vytvořené tímto krokem. Načtěte to v poznámkovém bloku pomocí dbutils.widgets.get("output_name"). Měla by to být PipelineData. |
|
existing_cluster_id
Vyžadováno
|
ID clusteru existujícího interaktivního clusteru v pracovním prostoru Databricks Pokud předáváte tento parametr, nemůžete předat žádný z následujících parametrů, které se používají k vytvoření nového clusteru:
Poznámka: Pro vytvoření nového clusteru úloh budete muset předat výše uvedené parametry. Tyto parametry můžete předat přímo nebo je můžete předat jako součást objektu RunConfiguration pomocí parametru runconfig. Předání těchto parametrů přímo a prostřednictvím RunConfiguration způsobí chybu. |
|
spark_version
Vyžadováno
|
Verze Sparku pro cluster Spuštění Databricks, například 10.4.x-scala2.12.
Další informace najdete v popisu parametru |
|
node_type
Vyžadováno
|
[Povinné] Typy uzlů virtuálních počítačů Azure pro cluster Spuštěný v Databricks, například: "Standard_D3_v2". Zadejte buď |
|
instance_pool_id
Vyžadováno
|
[Povinné] ID fondu instancí, ke kterému je potřeba cluster připojit.
Zadejte buď |
|
num_workers
Vyžadováno
|
[Povinné] Statický počet pracovních procesů pro cluster spuštěný v Databricks.
Je nutné zadat buď Další informace najdete v popisu parametru |
|
min_workers
Vyžadováno
|
[Povinné] Minimální počet pracovních procesů, které se mají použít pro automatické škálování clusteru spuštěného v Databricks.
Je nutné zadat buď Další informace najdete v popisu parametru |
|
max_workers
Vyžadováno
|
[Povinné] Maximální počet pracovních procesů, které se mají použít pro automatické škálování clusteru spuštěného v Databricks.
Je nutné zadat buď Další informace najdete v popisu parametru |
|
spark_env_variables
Vyžadováno
|
Proměnné prostředí Spark pro cluster spuštěný v Databricks.
Další informace najdete v popisu parametru |
|
spark_conf
Vyžadováno
|
Konfigurace Sparku pro cluster spuštěný v Databricks.
Další informace najdete v popisu parametru |
|
init_scripts
Vyžadováno
|
[str]
Označeno jako zastaralé Databricks oznámila, že inicializační skript uložený v DBFS přestane fungovat po 1. prosinci 2023. Pokud chcete tento problém zmírnit, použijte 1) globální inicializační skripty v Databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) okomentujte řádek init_scripts v kroku AzureML Databricks. |
|
cluster_log_dbfs_path
Vyžadováno
|
Cesty DBFS, kam se mají doručovat protokoly clusterů. |
|
notebook_path
Vyžadováno
|
[Povinné] Cesta k poznámkovému bloku v instanci Databricks. Tato třída umožňuje čtyři způsoby určení kódu ke spuštění v clusteru Databricks.
Zadejte přesně jednu z hodnot |
|
notebook_params
Vyžadováno
|
Slovník parametrů, které se mají předat do poznámkového bloku.
|
|
python_script_path
Vyžadováno
|
[Povinné] Cesta ke skriptu Pythonu v DBFS.
Zadejte přesně jednu z hodnot |
|
python_script_params
Vyžadováno
|
Parametry skriptu Pythonu |
|
main_class_name
Vyžadováno
|
[Povinné] Název vstupního bodu v modulu JAR.
Zadejte přesně jednu z hodnot |
|
jar_params
Vyžadováno
|
Parametry modulu JAR. |
|
source_directory
Vyžadováno
|
Složka, která obsahuje skript a další soubory.
Pokud |
|
hash_paths
Vyžadováno
|
[str]
ZASTARALÉ: Už není potřeba. Seznam cest k hodnotě hash při kontrole změn v obsahu kroku. Pokud se nezjistí žádné změny, kanál znovu použije obsah kroku z předchozího spuštění. Ve výchozím nastavení je obsah |
|
run_name
Vyžadováno
|
Název v Databricks pro toto spuštění |
|
timeout_seconds
Vyžadováno
|
Časový limit spuštění Databricks |
|
runconfig
Vyžadováno
|
Runconfig, který se má použít. Poznámka: Ke své úloze můžete předat tolik knihoven, kolik chcete, a to pomocí následujících parametrů: |
|
maven_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
Knihovny Mavenu, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven Maven naleznete v tématu |
|
pypi_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Knihovny PyPi, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven PyPi naleznete v tématu |
|
egg_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.EggLibrary>]
Knihovny egg, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven egg naleznete v tématu |
|
jar_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.JarLibrary>]
Knihovny Jar, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven Jar naleznete v tématu |
|
rcran_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
Knihovny RCran, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven RCran naleznete v tématu |
|
compute_target
Vyžadováno
|
[Povinné] Výpočetní prostředky Azure Databricks Abyste mohli databricksStep použít ke spouštění skriptů nebo poznámkových bloků v pracovním prostoru Azure Databricks, musíte do pracovního prostoru Azure Machine Learning přidat pracovní prostor Azure Databricks jako cíl výpočetních prostředků. |
|
allow_reuse
Vyžadováno
|
Určuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. Opakované použití je ve výchozím nastavení povolené. Pokud obsah kroku (skripty/závislosti) a vstupy a parametry zůstanou beze změny, výstup z předchozího spuštění tohoto kroku se znovu použije. Při opětovném použití kroku místo odeslání úlohy k výpočtu se výsledky předchozího spuštění okamžitě zpřístupní pro všechny následné kroky. Pokud jako vstupy používáte datové sady Azure Machine Learning, určuje se opakované použití podle toho, jestli se definice datové sady změnila, a ne tím, jestli se podkladová data změnila. |
|
version
Vyžadováno
|
Volitelná značka verze, která označuje změnu funkčnosti kroku. |
|
permit_cluster_restart
Vyžadováno
|
pokud je zadán existing_cluster_id, tento parametr udává, jestli je možné cluster restartovat jménem uživatele. |
Metody
| create_node |
Vytvořte uzel z kroku Databricks a přidejte ho do zadaného grafu. Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předá parametry požadované touto metodou, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup. |
create_node
Vytvořte uzel z kroku Databricks a přidejte ho do zadaného grafu.
Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předá parametry požadované touto metodou, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.
create_node(graph, default_datastore, context)
Parametry
| Name | Description |
|---|---|
|
graph
Vyžadováno
|
Objekt grafu pro přidání uzlu. |
|
default_datastore
Vyžadováno
|
Výchozí úložiště dat. |
|
context
Vyžadováno
|
<xref:azureml.pipeline.core._GraphContext>
Kontext grafu |
Návraty
| Typ | Description |
|---|---|
|
Vytvořený uzel. |