DatabricksStep Osztály
Létrehoz egy Azure ML Pipeline-lépést egy DataBricks-jegyzetfüzet, Python-szkript vagy JAR csomópontként való hozzáadásához.
A DatabricksStep használatára a jegyzetfüzetben https://aka.ms/pl-databrickstalál példát.
Hozzon létre egy Azure ML-folyamatlépést egy DataBricks-jegyzetfüzet, Python-szkript vagy JAR csomópontként való hozzáadásához.
A DatabricksStep használatára a jegyzetfüzetben https://aka.ms/pl-databrickstalál példát.
:p aram python_script_name:[Kötelező] Egy Python-szkript neve a következőhöz source_directory
viszonyítva: .
Ha a szkript bemeneteket és kimeneteket vesz fel, azokat a rendszer paraméterekként továbbítja a szkriptnek.
Ha python_script_name
meg van adva, akkor source_directory
annak is meg kell lennie.
Adja meg pontosan az egyiket, python_script_path
a , python_script_name
a vagy main_class_name
a notebook_path
értéket.
Ha egy DataReference objektumot ad meg bemenetként data_reference_name=input1 értékkel, és egy PipelineData objektumot kimenetként name=output1 értékkel, akkor a bemenetek és kimenetek paraméterként lesznek átadva a szkriptnek. Így fognak kinézni, és elemeznie kell a szkript argumentumait az egyes bemenetek és kimenetek elérési útjainak eléréséhez: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Emellett a következő paraméterek is elérhetők lesznek a szkriptben:
- AZUREML_RUN_TOKEN: Az Azure Machine Learning-hitelesítés AML-jogkivonata.
- AZUREML_RUN_TOKEN_EXPIRY: Az AML-jogkivonat lejárati ideje.
- AZUREML_RUN_ID: Azure Machine Learning-futtatási azonosító ehhez a futtatáshoz.
- AZUREML_ARM_SUBSCRIPTION: Azure-előfizetés az AML-munkaterülethez.
- AZUREML_ARM_RESOURCEGROUP: Azure-erőforráscsoport az Azure Machine Learning-munkaterülethez.
- AZUREML_ARM_WORKSPACE_NAME: Az Azure Machine Learning-munkaterület neve.
- AZUREML_ARM_PROJECT_NAME: Az Azure Machine Learning-kísérlet neve.
- AZUREML_SERVICE_ENDPOINT: Az AML-szolgáltatások végponti URL-címe.
- AZUREML_WORKSPACE_ID: Az Azure Machine Learning-munkaterület azonosítója.
- AZUREML_EXPERIMENT_ID: Az Azure Machine Learning-kísérlet azonosítója.
- AZUREML_SCRIPT_DIRECTORY_NAME: Könyvtár elérési útja a DBFS-ben, ahol a source_directory átmásolták.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Amikor a DatabricksStep paraméterekkel source_directory
python_script_name
futtat egy Python-szkriptet a helyi gépről a Databricksben, a source_directory átmásolja a DBFS-be, és a DBFS könyvtárelérési útvonala paraméterként lesz átadva a szkriptnek a végrehajtás megkezdésekor.
Ez a paraméter -AZUREML_SCRIPT_DIRECTORY_NAME címkével van ellátva. A könyvtár dbFS-ben való eléréséhez előtaggal kell ellátva a "dbfs:/" vagy a "/dbfs/" sztringgel.
- Öröklődés
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
Konstruktor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Paraméterek
Name | Description |
---|---|
name
Kötelező
|
[Kötelező] A lépés neve. |
inputs
|
Az ebben a lépésben felhasznált adatok bemeneti kapcsolatainak listája. Ezt a dbutils.widgets.get("input_name") használatával olvassa be a jegyzetfüzetbe. Lehet DataReference vagy PipelineData. A DataReference egy meglévő adatrészletet jelöl egy adattárban. Ez lényegében egy adattár elérési útja. A DatabricksStep támogatja a DBFS, az Azure Blob vagy az ADLS v1 csomagokat tartalmazó adattárakat. A PipelineData egy folyamat egy másik lépése által előállított köztes adatokat jelöli. Alapértelmezett érték: None
|
outputs
|
Az ebben a lépésben létrehozott kimenetek kimeneti portdefinícióinak listája. Ezt a dbutils.widgets.get("output_name") használatával olvassa be a jegyzetfüzetbe. PipelineData-nak kell lennie. Alapértelmezett érték: None
|
existing_cluster_id
|
Egy meglévő interaktív fürt fürtazonosítója a Databricks-munkaterületen. Ha ezt a paramétert adja át, nem adhatja át az új fürt létrehozásához használt alábbi paraméterek egyikét sem:
Megjegyzés: Új feladatfürt létrehozásához a fenti paramétereket kell megadnia. Ezeket a paramétereket közvetlenül is átadhatja, vagy átadhatja őket a RunConfiguration objektum részeként a runconfig paraméterrel. Ha ezeket a paramétereket közvetlenül és a RunConfiguration használatával adja át, az hibát eredményez. Alapértelmezett érték: None
|
spark_version
|
A Databricks spark-verziója futtatja a fürtöt, például: "10.4.x-scala2.12".
További információt a paraméter leírásában Alapértelmezett érték: None
|
node_type
|
[Kötelező] A Databricks-fürt Azure-beli virtuálisgép-csomóponttípusai, például: "Standard_D3_v2". Adja meg a Alapértelmezett érték: None
|
instance_pool_id
|
[Kötelező] Az a példánykészlet-azonosító, amelyhez a fürtöt hozzá kell csatolni.
Adja meg a Alapértelmezett érték: None
|
num_workers
|
[Kötelező] A Databricks-fürthöz tartozó feldolgozók statikus száma.
Meg kell adnia a Alapértelmezett érték: None
|
min_workers
|
[Kötelező] A Databricks-futtató fürt automatikus skálázásához használandó feldolgozók minimális száma.
Meg kell adnia a Alapértelmezett érték: None
|
max_workers
|
[Kötelező] A Databricks-futtató fürt automatikus skálázásához használandó feldolgozók maximális száma.
Meg kell adnia a Alapértelmezett érték: None
|
spark_env_variables
|
A Databricks-fürt Spark környezeti változói.
További információt a paraméter leírásában Alapértelmezett érték: None
|
spark_conf
|
A Databricks-fürt Spark-konfigurációja.
További információt a paraméter leírásában Alapértelmezett érték: None
|
init_scripts
|
[str]
Elavult. A Databricks bejelentette, hogy a DBFS-ben tárolt init-szkript 2023. december 1. után leáll. A probléma megoldásához kérjük, 1) használjon globális init szkripteket a databricksben a következő https://learn.microsoft.com/azure/databricks/init-scripts/global 2. lépésben) tegye megjegyzésbe az AzureML databricks lépésben szereplő init_scripts sorát. Alapértelmezett érték: None
|
cluster_log_dbfs_path
|
A DBFS elérési útjai, ahol a fürtök naplóit kézbesíteni kell. Alapértelmezett érték: None
|
notebook_path
|
[Kötelező] A Databricks-példány jegyzetfüzetének elérési útja. Ez az osztály négyféleképpen adja meg a Databricks-fürtön végrehajtandó kódot.
Adja meg pontosan az egyiket, Alapértelmezett érték: None
|
notebook_params
|
A jegyzetfüzetbe továbbítandó paraméterek szótára.
Alapértelmezett érték: None
|
python_script_path
|
[Kötelező] A PYTHON-szkript elérési útja a DBFS-ben.
Adja meg pontosan az egyiket, Alapértelmezett érték: None
|
python_script_params
|
A Python-szkript paraméterei. Alapértelmezett érték: None
|
main_class_name
|
[Kötelező] A JAR-modul belépési pontjának neve.
Adja meg pontosan az egyiket, Alapértelmezett érték: None
|
jar_params
|
A JAR modul paraméterei. Alapértelmezett érték: None
|
python_script_name
|
[Kötelező] Egy Python-szkript neve a következőhöz Adja meg pontosan az egyiket, Ha egy DataReference-objektumot ad meg bemenetként data_reference_name=input1 és egy PipelineData objektumot a name=output1 kimenetként, akkor a bemenetek és kimenetek paraméterként lesznek átadva a szkriptnek. Így fognak kinézni, és elemeznie kell a szkript argumentumait az egyes bemenetek és kimenetek elérési útjainak eléréséhez: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Emellett a szkriptben a következő paraméterek lesznek elérhetők:
Amikor a DatabricksStep paraméterekkel Alapértelmezett érték: None
|
source_directory
|
A szkriptet és más fájlokat tartalmazó mappa.
Ha Alapértelmezett érték: None
|
hash_paths
|
[str]
ELAVULT: már nincs rá szükség. A kivonat elérési útjainak listája a lépés tartalmának módosításakor. Ha nem észlelhető változás, a folyamat újra felhasználja az előző futtatásból származó lépés tartalmát. Alapértelmezés szerint a tartalom Alapértelmezett érték: None
|
run_name
|
A Databricksben a futtatás neve. Alapértelmezett érték: None
|
timeout_seconds
|
A Databricks futásának időtúllépése. Alapértelmezett érték: None
|
runconfig
|
A használni kívánt runconfig. Megjegyzés: Annyi tárat adhat át a feladatnak, amennyit csak szeretne, a következő paraméterekkel: Alapértelmezett érték: None
|
maven_libraries
|
A Databricks futtatásához használandó Maven-kódtárak. Alapértelmezett érték: None
|
pypi_libraries
|
A Databricks futtatásához használandó PyPi-kódtárak. Alapértelmezett érték: None
|
egg_libraries
|
A Databricks futtatásához használandó tojáskódtárak. Alapértelmezett érték: None
|
jar_libraries
|
Jar-kódtárak a Databricks futtatásához. Alapértelmezett érték: None
|
rcran_libraries
|
A Databricks futtatásához használandó RCran-kódtárak. Alapértelmezett érték: None
|
compute_target
|
[Kötelező] Egy Azure Databricks-számítás. Ahhoz, hogy a DatabricksStep használatával végrehajthassa a szkripteket vagy jegyzetfüzeteket egy Azure Databricks-munkaterületen, hozzá kell adnia az Azure Databricks-munkaterületet számítási célként az Azure Machine Learning-munkaterülethez. Alapértelmezett érték: None
|
allow_reuse
|
Azt jelzi, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokat a beállításokat használja újra. Az újrafelhasználás alapértelmezés szerint engedélyezve van. Ha a lépés tartalma (szkriptek/függőségek), valamint a bemenetek és paraméterek változatlanok maradnak, a lépés előző futtatásából származó kimenet újra felhasználva lesz. A lépés újbóli használata esetén a feladat számítási feladatba való elküldése helyett az előző futtatás eredményei azonnal elérhetővé válnak a további lépésekhez. Ha az Azure Machine Learning-adathalmazokat használja bemenetként, az újrafelhasználást az határozza meg, hogy az adathalmaz definíciója megváltozott-e, nem pedig az, hogy a mögöttes adatok megváltoztak-e. Alapértelmezett érték: True
|
version
|
Választható verziócímke, amely a lépés funkcióváltozását jelzi. Alapértelmezett érték: None
|
permit_cluster_restart
|
ha existing_cluster_id van megadva, ez a paraméter azt jelzi, hogy a fürt újraindítható-e a felhasználó nevében. Alapértelmezett érték: None
|
name
Kötelező
|
[Kötelező] A lépés neve. |
inputs
Kötelező
|
Az ebben a lépésben felhasznált adatok bemeneti kapcsolatainak listája. Ezt a dbutils.widgets.get("input_name") használatával olvassa be a jegyzetfüzetbe. Lehet DataReference vagy PipelineData. A DataReference egy meglévő adatrészletet jelöl egy adattárban. Ez lényegében egy adattár elérési útja. A DatabricksStep támogatja a DBFS, az Azure Blob vagy az ADLS v1 csomagokat tartalmazó adattárakat. A PipelineData egy folyamat egy másik lépése által előállított köztes adatokat jelöli. |
outputs
Kötelező
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Az ebben a lépésben létrehozott kimenetek kimeneti portdefinícióinak listája. Ezt a dbutils.widgets.get("output_name") használatával olvassa be a jegyzetfüzetbe. PipelineData-nak kell lennie. |
existing_cluster_id
Kötelező
|
Egy meglévő interaktív fürt fürtazonosítója a Databricks-munkaterületen. Ha ezt a paramétert adja át, nem adhatja át az új fürt létrehozásához használt alábbi paraméterek egyikét sem:
Megjegyzés: Új feladatfürt létrehozásához a fenti paramétereket kell megadnia. Ezeket a paramétereket közvetlenül is átadhatja, vagy átadhatja őket a RunConfiguration objektum részeként a runconfig paraméterrel. Ha ezeket a paramétereket közvetlenül és a RunConfiguration használatával adja át, az hibát eredményez. |
spark_version
Kötelező
|
A Databricks spark-verziója futtatja a fürtöt, például: "10.4.x-scala2.12".
További információt a paraméter leírásában |
node_type
Kötelező
|
[Kötelező] A Databricks-fürt Azure-beli virtuálisgép-csomóponttípusai, például: "Standard_D3_v2". Adja meg a |
instance_pool_id
Kötelező
|
[Kötelező] Az a példánykészlet-azonosító, amelyhez a fürtöt hozzá kell csatolni.
Adja meg a |
num_workers
Kötelező
|
[Kötelező] A Databricks-futtató fürt feldolgozóinak statikus száma.
Meg kell adnia a További információt a paraméter leírásában |
min_workers
Kötelező
|
[Kötelező] A Databricks-futtató fürt automatikus skálázásához használandó feldolgozók minimális száma.
Meg kell adnia a További információt a paraméter leírásában |
max_workers
Kötelező
|
[Kötelező] A Databricks-futtató fürt automatikus skálázásához használandó feldolgozók maximális száma.
Meg kell adnia a További információt a paraméter leírásában |
spark_env_variables
Kötelező
|
A Databricks-futtató fürt Spark környezeti változói.
További információt a paraméter leírásában |
spark_conf
Kötelező
|
A Databricks-fürt Spark-konfigurációja.
További információt a paraméter leírásában |
init_scripts
Kötelező
|
[str]
Elavult. A Databricks bejelentette, hogy a DBFS-ben tárolt init szkript 2023. december 1-jével leáll. A probléma megoldásához 1. használjon globális init szkripteket a databricksben a következő https://learn.microsoft.com/azure/databricks/init-scripts/global 2. lépésben) tegye megjegyzésbe az AzureML databricks-lépésben init_scripts sorát. |
cluster_log_dbfs_path
Kötelező
|
A DBFS elérési útjai, ahol a fürtök naplóit kézbesíteni kell. |
notebook_path
Kötelező
|
[Kötelező] A Jegyzetfüzet elérési útja a Databricks-példányban. Ez az osztály négyféleképpen adja meg a Databricks-fürtön végrehajtandó kódot.
Adja meg pontosan az egyiket, |
notebook_params
Kötelező
|
A jegyzetfüzetbe továbbítandó paraméterek szótára.
|
python_script_path
Kötelező
|
[Kötelező] A PYTHON-szkript elérési útja a DBFS-ben.
Adja meg pontosan az egyiket, |
python_script_params
Kötelező
|
A Python-szkript paraméterei. |
main_class_name
Kötelező
|
[Kötelező] A JAR-modul belépési pontjának neve.
Adja meg pontosan az egyiket, |
jar_params
Kötelező
|
A JAR-modul paraméterei. |
source_directory
Kötelező
|
A szkriptet és más fájlokat tartalmazó mappa.
Ha |
hash_paths
Kötelező
|
[str]
ELAVULT: már nincs rá szükség. A kivonat elérési útjainak listája a lépés tartalmának módosításakor. Ha nem észlelhető változás, a folyamat újra felhasználja az előző futtatás lépéstartalmat. Alapértelmezés szerint a tartalma |
run_name
Kötelező
|
A Databricksben a futtatás neve. |
timeout_seconds
Kötelező
|
A Databricks futásának időtúllépése. |
runconfig
Kötelező
|
A használni kívánt runconfig. Megjegyzés: Annyi kódtárat adhat át a feladatnak, amennyit csak szeretne függőségként a következő paraméterekkel: , , , vagy |
maven_libraries
Kötelező
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
A Databricks futtatásához használandó Maven-kódtárak.
További információ a Maven-kódtárak specifikációiról: |
pypi_libraries
Kötelező
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
A Databricks futtatásához használandó PyPi-kódtárak.
További információ a PyPi-kódtárak specifikációiról: |
egg_libraries
Kötelező
|
list[<xref:azureml.core.runconfig.EggLibrary>]
A Databricks futtatásához használandó tojáskódtárak.
A Tojás kódtárak specifikációjára vonatkozó további információkért lásd: |
jar_libraries
Kötelező
|
list[<xref:azureml.core.runconfig.JarLibrary>]
A Databricks futtatásához használandó JAR-kódtárak.
A Jar-kódtárak specifikációjára vonatkozó további információkért lásd: |
rcran_libraries
Kötelező
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
A Databricks futtatásához használandó RCran-kódtárak.
További információ az RCran-kódtárak specifikációiról: |
compute_target
Kötelező
|
[Kötelező] Azure Databricks-számítás. Ahhoz, hogy a DatabricksStep használatával végrehajthassa a szkripteket vagy jegyzetfüzeteket egy Azure Databricks-munkaterületen, hozzá kell adnia az Azure Databricks-munkaterületet számítási célként az Azure Machine Learning-munkaterülethez. |
allow_reuse
Kötelező
|
Azt jelzi, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokkal a beállításokkal fut újra. Az újrafelhasználás alapértelmezés szerint engedélyezve van. Ha a lépés tartalma (szkriptek/függőségek), valamint a bemenetek és paraméterek változatlanok maradnak, a rendszer újra felhasználja a lépés előző futtatásának kimenetét. A lépés újrahasználásakor a feladat számítási feladatként való elküldése helyett az előző futtatás eredményei azonnal elérhetővé válnak a további lépésekhez. Ha az Azure Machine Learning-adatkészleteket használja bemenetként, az újrafelhasználást az határozza meg, hogy az adathalmaz definíciója megváltozott-e, nem pedig az, hogy az alapul szolgáló adatok megváltoztak-e. |
version
Kötelező
|
Nem kötelező verziócímke, amely a lépés funkcióváltozását jelzi. |
permit_cluster_restart
Kötelező
|
ha existing_cluster_id van megadva, ez a paraméter azt jelzi, hogy a fürt újraindítható-e a felhasználó nevében. |
Metódusok
create_node |
Hozzon létre egy csomópontot a Databricks lépésből, és adja hozzá a megadott gráfhoz. Ezt a módszert nem közvetlenül kell használni. Ha ezzel a lépéssel példányosít egy folyamatot, az Azure ML automatikusan átadja a szükséges paramétereket ezen a módon, hogy a lépés hozzáadható legyen a munkafolyamatot képviselő folyamatgráfhoz. |
create_node
Hozzon létre egy csomópontot a Databricks lépésből, és adja hozzá a megadott gráfhoz.
Ezt a módszert nem közvetlenül kell használni. Ha ezzel a lépéssel példányosít egy folyamatot, az Azure ML automatikusan átadja a szükséges paramétereket ezen a módon, hogy a lépés hozzáadható legyen a munkafolyamatot képviselő folyamatgráfhoz.
create_node(graph, default_datastore, context)
Paraméterek
Name | Description |
---|---|
graph
Kötelező
|
A csomópontot hozzáadni kívánt gráfobjektum. |
default_datastore
Kötelező
|
Az alapértelmezett adattár. |
context
Kötelező
|
<xref:azureml.pipeline.core._GraphContext>
A gráfkörnyezet. |
Válaszok
Típus | Description |
---|---|
A létrehozott csomópont. |