Sdílet prostřednictvím


DataTransferStep Třída

Vytvoří krok kanálu Azure ML, který přenáší data mezi možnostmi úložiště.

DataTransferStep podporuje běžné typy úložišť, jako jsou Azure Blob Storage a Azure Data Lake jako zdroje a jímky. Další informace najdete v části Poznámky .

Příklad použití DataTransferStep najdete v poznámkovém bloku https://aka.ms/pl-data-trans.

Vytvořte krok kanálu Azure ML, který přenáší data mezi možnostmi úložiště.

Dědičnost
azureml.pipeline.core._data_transfer_step_base._DataTransferStepBase
DataTransferStep

Konstruktor

DataTransferStep(name, source_data_reference=None, destination_data_reference=None, compute_target=None, source_reference_type=None, destination_reference_type=None, allow_reuse=True)

Parametry

name
str
Vyžadováno

[Povinné] Název kroku.

source_data_reference
Union[InputPortBinding, DataReference, PortDataReference, PipelineData]
výchozí hodnota: None

[Povinné] Vstupní připojení, které slouží jako zdroj operace přenosu dat.

destination_data_reference
Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference]
výchozí hodnota: None

[Povinné] Výstupní připojení, které slouží jako cíl operace přenosu dat.

compute_target
DataFactoryCompute, str
výchozí hodnota: None

[Povinné] Azure Data Factory pro přenos dat.

source_reference_type
str
výchozí hodnota: None

Volitelný řetězec určující typ source_data_reference. Mezi možné hodnoty patří: 'file', 'directory'. Pokud není zadán, použije se typ existující cesty. Tento parametr slouží k rozlišení mezi souborem a adresářem se stejným názvem.

destination_reference_type
str
výchozí hodnota: None

Volitelný řetězec určující typ destination_data_reference. Mezi možné hodnoty patří: 'file', 'directory'. Pokud není zadáno, Azure ML použije typ existující cesty, odkazu na zdroj nebo adresář v tomto pořadí.

allow_reuse
bool
výchozí hodnota: True

Určuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. Opakované použití je ve výchozím nastavení povolené. Pokud argumenty kroku zůstanou beze změny, znovu se použije výstup z předchozího spuštění tohoto kroku. Při opakovaném použití kroku se místo opětovného přenosu dat okamžitě zpřístupní výsledky z předchozího spuštění všem dalším krokům. Pokud jako vstupy použijete datové sady Azure Machine Learning, opakované použití závisí na tom, jestli se změnila definice datové sady, a ne na tom, jestli se změnila podkladová data.

name
str
Vyžadováno

[Povinné] Název kroku.

source_data_reference
Union[InputPortBinding, DataReference, PortDataReference, PipelineData]
Vyžadováno

[Povinné] Vstupní připojení, které slouží jako zdroj operace přenosu dat.

destination_data_reference
Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference]
Vyžadováno

[Povinné] Výstupní připojení, které slouží jako cíl operace přenosu dat.

compute_target
DataFactoryCompute, str
Vyžadováno

[Povinné] Azure Data Factory pro přenos dat.

source_reference_type
str
Vyžadováno

Volitelný řetězec určující typ source_data_reference. Mezi možné hodnoty patří: 'file', 'directory'. Pokud není zadán, použije se typ existující cesty. Tento parametr slouží k rozlišení mezi souborem a adresářem se stejným názvem.

destination_reference_type
str
Vyžadováno

Volitelný řetězec určující typ destination_data_reference. Mezi možné hodnoty patří: 'file', 'directory'. Pokud není zadáno, Azure ML použije typ existující cesty, odkazu na zdroj nebo adresář v tomto pořadí.

allow_reuse
bool
Vyžadováno

Určuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. Opakované použití je ve výchozím nastavení povolené. Pokud argumenty kroku zůstanou beze změny, znovu se použije výstup z předchozího spuštění tohoto kroku. Při opakovaném použití kroku se místo opětovného přenosu dat okamžitě zpřístupní výsledky z předchozího spuštění všem dalším krokům. Pokud jako vstupy použijete datové sady Azure Machine Learning, opakované použití závisí na tom, jestli se změnila definice datové sady, a ne na tom, jestli se změnila podkladová data.

Poznámky

Tento krok podporuje následující typy úložiště jako zdroje a jímky s výjimkou případů uvedených:

  • Azure Blob Storage

  • Azure Data Lake Storage Gen1 a Gen2

  • Azure SQL Database

  • Azure Database for PostgreSQL

  • Azure Database for MySQL

Pro Azure SQL Database musíte použít ověřování instančního objektu. Další informace najdete v tématu Ověřování instančního objektu. Příklad použití ověřování instančního objektu pro Azure SQL Database najdete v tématu https://aka.ms/pl-data-trans.

Pokud chcete vytvořit závislost dat mezi kroky, použijte metodu get_output k získání objektu PipelineData , který představuje výstup tohoto kroku přenosu dat a lze ho použít jako vstup pro pozdější kroky v kanálu.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Pokud chcete vytvořit InputPortBinding objekt s určitým názvem, můžete zkombinovat výstup get_output() s výstupem as_input metod nebo as_mount metody PipelineData.


   data_transfer_step = DataTransferStep(name="copy data", ...)
   training_input = data_transfer_step.get_output().as_input("my_input_name")

Metody

create_node

Vytvořte uzel z kroku DataTransfer a přidejte ho do daného grafu.

Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předává požadované parametry prostřednictvím této metody, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.

get_output

Získejte výstup kroku jako PipelineData.

create_node

Vytvořte uzel z kroku DataTransfer a přidejte ho do daného grafu.

Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předává požadované parametry prostřednictvím této metody, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.

create_node(graph, default_datastore, context)

Parametry

graph
Graph
Vyžadováno

Objekt grafu, do který se má uzel přidat.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Vyžadováno

Výchozí úložiště dat.

context
<xref:azureml.pipeline.core._GraphContext>
Vyžadováno

Kontext grafu.

Návraty

Vytvořený uzel.

Návratový typ

get_output

Získejte výstup kroku jako PipelineData.

get_output()

Návraty

Výstup kroku

Návratový typ

Poznámky

Pokud chcete vytvořit závislost dat mezi kroky, použijte get_output metodu k získání objektu PipelineData , který představuje výstup tohoto kroku přenosu dat a lze ho použít jako vstup pro pozdější kroky v kanálu.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Pokud chcete vytvořit InputPortBinding objekt s konkrétním názvem, můžete zkombinovat volání get_output() s pomocnými metodami as_input nebo as_mount .


   data_transfer_step = DataTransferStep(name="copy data", ...)

   training_input = data_transfer_step.get_output().as_input("my_input_name")