Megosztás a következőn keresztül:


DataTransferStep Osztály

Létrehoz egy Azure ML Pipeline-lépést, amely adatokat továbbít a tárolási lehetőségek között.

A DataTransferStep olyan gyakori tárolótípusokat támogat, mint a Azure Blob Storage és az Azure Data Lake, mint források és fogadók. További információkért lásd a Megjegyzések szakaszt .

A DataTransferStep használatára példaként tekintse meg a jegyzetfüzetet https://aka.ms/pl-data-trans.

Hozzon létre egy Azure ML-folyamatlépést, amely adatokat továbbít a tárolási lehetőségek között.

Öröklődés
azureml.pipeline.core._data_transfer_step_base._DataTransferStepBase
DataTransferStep

Konstruktor

DataTransferStep(name, source_data_reference=None, destination_data_reference=None, compute_target=None, source_reference_type=None, destination_reference_type=None, allow_reuse=True)

Paraméterek

name
str
Kötelező

[Kötelező] A lépés neve.

source_data_reference
Union[InputPortBinding, DataReference, PortDataReference, PipelineData]
alapértelmezett érték: None

[Kötelező] Egy bemeneti kapcsolat, amely az adatátviteli művelet forrásaként szolgál.

destination_data_reference
Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference]
alapértelmezett érték: None

[Kötelező] Egy kimeneti kapcsolat, amely az adatátviteli művelet céljaként szolgál.

compute_target
DataFactoryCompute, str
alapértelmezett érték: None

[Kötelező] Az adatok átviteléhez használható Azure Data Factory.

source_reference_type
str
alapértelmezett érték: None

Egy választható sztring, amely a típusát source_data_referenceadja meg. A lehetséges értékek a következők: "file", "directory". Ha nincs megadva, a rendszer a meglévő elérési út típusát használja. Ezzel a paraméterrel megkülönböztethet egy azonos nevű fájlt és könyvtárat.

destination_reference_type
str
alapértelmezett érték: None

Egy választható sztring, amely a típusát destination_data_referenceadja meg. A lehetséges értékek a következők: "file", "directory". Ha nincs megadva, az Azure ML a meglévő elérési út, forráshivatkozás vagy könyvtár típusát használja ebben a sorrendben.

allow_reuse
bool
alapértelmezett érték: True

Azt jelzi, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokkal a beállításokkal fut újra. Az újrafelhasználás alapértelmezés szerint engedélyezve van. Ha a lépésargumentumok változatlanok maradnak, a rendszer újra felhasználja a lépés előző futtatásának kimenetét. A lépés újbóli használatakor az adatok újbóli átvitele helyett az előző futtatás eredményei azonnal elérhetővé válnak a további lépésekhez. Ha az Azure Machine Learning-adatkészleteket használja bemenetként, az újrafelhasználást az határozza meg, hogy az adathalmaz definíciója megváltozott-e, nem pedig az, hogy az alapul szolgáló adatok megváltoztak-e.

name
str
Kötelező

[Kötelező] A lépés neve.

source_data_reference
Union[InputPortBinding, DataReference, PortDataReference, PipelineData]
Kötelező

[Kötelező] Egy bemeneti kapcsolat, amely az adatátviteli művelet forrásaként szolgál.

destination_data_reference
Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference]
Kötelező

[Kötelező] Egy kimeneti kapcsolat, amely az adatátviteli művelet céljaként szolgál.

compute_target
DataFactoryCompute, str
Kötelező

[Kötelező] Az adatok átviteléhez használható Azure Data Factory.

source_reference_type
str
Kötelező

Egy választható sztring, amely a típusát source_data_referenceadja meg. A lehetséges értékek a következők: "file", "directory". Ha nincs megadva, a rendszer a meglévő elérési út típusát használja. Ezzel a paraméterrel megkülönböztethet egy azonos nevű fájlt és könyvtárat.

destination_reference_type
str
Kötelező

Egy választható sztring, amely a típusát destination_data_referenceadja meg. A lehetséges értékek a következők: "file", "directory". Ha nincs megadva, az Azure ML a meglévő elérési út, forráshivatkozás vagy könyvtár típusát használja ebben a sorrendben.

allow_reuse
bool
Kötelező

Azt jelzi, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokkal a beállításokkal fut újra. Az újrafelhasználás alapértelmezés szerint engedélyezve van. Ha a lépésargumentumok változatlanok maradnak, a rendszer újra felhasználja a lépés előző futtatásának kimenetét. A lépés újbóli használatakor az adatok újbóli átvitele helyett az előző futtatás eredményei azonnal elérhetővé válnak a további lépésekhez. Ha az Azure Machine Learning-adatkészleteket használja bemenetként, az újrafelhasználást az határozza meg, hogy az adathalmaz definíciója megváltozott-e, nem pedig az, hogy az alapul szolgáló adatok megváltoztak-e.

Megjegyzések

Ez a lépés a következő tárolási típusokat támogatja forrásként és fogadóként, kivéve, ha fel van jegyezve:

  • Azure Blob Storage

  • Azure Data Lake Storage Gen1 és Gen2

  • Azure SQL Database

  • Azure Database for PostgreSQL

  • Azure Database for MySQL

Az Azure SQL Database esetében szolgáltatásnév-hitelesítést kell használnia. További információ: Egyszerű szolgáltatáshitelesítés. Példa a szolgáltatásnév-hitelesítés Azure SQL Database-hez való használatára: https://aka.ms/pl-data-trans.

A lépések közötti adatfüggőség megállapításához a get_output metódussal lekérhet egy PipelineData objektumot, amely az adatátviteli lépés kimenetét képviseli, és bemenetként használható a folyamat későbbi lépéseihez.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Ha egy adott nevű kimenetet InputPortBinding szeretne létrehozni, kombinálhatja a get_output() kimenetét a as_input vagy as_mount metódusának PipelineDatakimenetével.


   data_transfer_step = DataTransferStep(name="copy data", ...)
   training_input = data_transfer_step.get_output().as_input("my_input_name")

Metódusok

create_node

Hozzon létre egy csomópontot a DataTransfer lépésből, és adja hozzá az adott gráfhoz.

Ezt a módszert nem közvetlenül kell használni. Ha ezzel a lépéssel példányosít egy folyamatot, az Azure ML automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, hogy a lépés hozzáadható legyen a munkafolyamatot képviselő folyamatgráfhoz.

get_output

Kérje le a lépés kimenetét PipelineData néven.

create_node

Hozzon létre egy csomópontot a DataTransfer lépésből, és adja hozzá az adott gráfhoz.

Ezt a módszert nem közvetlenül kell használni. Ha ezzel a lépéssel példányosít egy folyamatot, az Azure ML automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, hogy a lépés hozzáadható legyen a munkafolyamatot képviselő folyamatgráfhoz.

create_node(graph, default_datastore, context)

Paraméterek

graph
Graph
Kötelező

A csomópontot hozzáadni kívánt gráfobjektum.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Kötelező

Az alapértelmezett adattár.

context
<xref:azureml.pipeline.core._GraphContext>
Kötelező

A gráfkörnyezet.

Válaszok

A létrehozott csomópont.

Visszatérési típus

get_output

Kérje le a lépés kimenetét PipelineData néven.

get_output()

Válaszok

A lépés kimenete.

Visszatérési típus

Megjegyzések

A lépések közötti adatfüggőség megállapításához használja get_output a metódust egy PipelineData olyan objektum lekéréséhez, amely az adatátviteli lépés kimenetét jelöli, és bemenetként használható a folyamat későbbi lépéseihez.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Ha egy adott nevű hívást szeretne létrehozni InputPortBinding , kombinálhatja get_output() hívását as_input vagy as_mount segédmetereként.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   training_input = data_transfer_step.get_output().as_input("my_input_name")