DataTransferStep 클래스

참조

이 문서의 내용

생성자
1. 생성자
2. 매개 변수
설명
메서드

스토리지 옵션 간에 데이터를 전송하는 Azure ML 파이프라인 단계를 만듭니다.

DataTransferStep은 Azure Blob Storage 및 Azure Data Lake와 같은 일반적인 스토리지 유형을 원본 및 싱크로 지원합니다. 자세한 내용은 설명 섹션을 참조 하세요 .

DataTransferStep을 사용하는 예제는 Notebook https://aka.ms/pl-data-trans을 참조하세요.

스토리지 옵션 간에 데이터를 전송하는 Azure ML 파이프라인 단계를 만듭니다.

생성자

DataTransferStep(name, source_data_reference=None, destination_data_reference=None, compute_target=None, source_reference_type=None, destination_reference_type=None, allow_reuse=True)

매개 변수

Name	Description
name 필수	str [필수] 단계의 이름입니다.
source_data_reference	Union[InputPortBinding, DataReference, PortDataReference, PipelineData] [필수] 데이터 전송 작업의 원본 역할을 하는 입력 연결입니다. Default value: None
destination_data_reference	Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference] [필수] 데이터 전송 작업의 대상으로 사용되는 출력 연결입니다. Default value: None
compute_target	DataFactoryCompute, str [필수] 데이터 전송에 사용할 Azure Data Factory입니다. Default value: None
source_reference_type	str 형식을 지정하는 선택적 문자열입니다 `source_data_reference`. 가능한 값은 'file', 'directory'입니다. 지정하지 않으면 기존 경로의 형식이 사용됩니다. 이 매개 변수를 사용하여 동일한 이름의 파일과 디렉터리를 구분합니다. Default value: None
destination_reference_type	str 형식을 지정하는 선택적 문자열입니다 `destination_data_reference`. 가능한 값은 'file', 'directory'입니다. 지정하지 않으면 Azure ML은 해당 순서대로 기존 경로, 원본 참조 또는 '디렉터리' 형식을 사용합니다. Default value: None
allow_reuse	bool 동일한 설정으로 다시 실행할 때 단계가 이전 결과를 다시 사용해야 하는지 여부를 나타냅니다. 재사용은 기본적으로 사용하도록 설정됩니다. 단계 인수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행의 출력이 다시 사용됩니다. 단계를 다시 사용할 때 데이터를 다시 전송하는 대신 이전 실행의 결과를 후속 단계에서 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 세트를 입력으로 사용하는 경우 다시 사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 세트의 정의가 변경되었는지 여부에 따라 결정됩니다. Default value: True
name 필수	str [필수] 단계의 이름입니다.
source_data_reference 필수	Union[InputPortBinding, DataReference, PortDataReference, PipelineData] [필수] 데이터 전송 작업의 원본 역할을 하는 입력 연결입니다.
destination_data_reference 필수	Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference] [필수] 데이터 전송 작업의 대상으로 사용되는 출력 연결입니다.
compute_target 필수	DataFactoryCompute, str [필수] 데이터 전송에 사용할 Azure Data Factory입니다.
source_reference_type 필수	str 형식을 지정하는 선택적 문자열입니다 `source_data_reference`. 가능한 값은 'file', 'directory'입니다. 지정하지 않으면 기존 경로의 형식이 사용됩니다. 이 매개 변수를 사용하여 동일한 이름의 파일과 디렉터리를 구분합니다.
destination_reference_type 필수	str 형식을 지정하는 선택적 문자열입니다 `destination_data_reference`. 가능한 값은 'file', 'directory'입니다. 지정하지 않으면 Azure ML은 해당 순서대로 기존 경로, 원본 참조 또는 '디렉터리' 형식을 사용합니다.
allow_reuse 필수	bool 동일한 설정으로 다시 실행할 때 단계가 이전 결과를 다시 사용해야 하는지 여부를 나타냅니다. 재사용은 기본적으로 사용하도록 설정됩니다. 단계 인수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행의 출력이 다시 사용됩니다. 단계를 다시 사용할 때 데이터를 다시 전송하는 대신 이전 실행의 결과를 후속 단계에서 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 세트를 입력으로 사용하는 경우 다시 사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 세트의 정의가 변경되었는지 여부에 따라 결정됩니다.

설명

이 단계에서는 다음과 같은 스토리지 유형을 원본 및 싱크로 지원합니다.

Azure Blob Storage (애저 블롭 스토리지)
Azure Data Lake Storage Gen1 및 Gen2
Azure SQL 데이터베이스
PostgreSQL용 Azure 데이터베이스
Azure Database for MySQL (MySQL을 위한 Azure 데이터베이스)

Azure SQL Database의 경우 서비스 주체 인증을 사용해야 합니다. 자세한 내용은 서비스 주체 인증을 참조하세요. Azure SQL Database에 서비스 주체 인증을 사용하는 예제는 다음을 참조하세요 https://aka.ms/pl-data-trans.

단계 간에 데이터 종속성을 설정하려면 이 메서드를 사용하여 get_output 이 데이터 전송 단계의 출력을 나타내는 개체를 가져와 PipelineData 파이프라인의 이후 단계에 대한 입력으로 사용할 수 있습니다.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

특정 이름을 사용하여 InputPortBinding 만들려면 get_output() 출력을 의 출력 as_input 또는 as_mount 메서드 PipelineData와 결합할 수 있습니다.


   data_transfer_step = DataTransferStep(name="copy data", ...)
   training_input = data_transfer_step.get_output().as_input("my_input_name")

메서드

create_node

DataTransfer 단계에서 노드를 만들고 지정된 그래프에 추가합니다.

이 메서드는 직접 사용할 수 없습니다. 이 단계로 파이프라인이 인스턴스화되면 Azure ML은 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있도록 이 메서드를 통해 필요한 매개 변수를 자동으로 전달합니다.

get_output

단계의 출력을 PipelineData로 가져옵니다.

create_node

DataTransfer 단계에서 노드를 만들고 지정된 그래프에 추가합니다.

create_node(graph, default_datastore, context)

매개 변수

Name	Description
graph 필수	Graph 노드를 추가할 그래프 개체입니다.
default_datastore 필수	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] 기본 데이터 저장소입니다.
context 필수	<xref:azureml.pipeline.core._GraphContext> 그래프 컨텍스트입니다.

반환

형식	Description
Node	만든 노드입니다.

get_output

단계의 출력을 PipelineData로 가져옵니다.

get_output()

반환

형식	Description
PipelineData	단계의 출력입니다.

설명

단계 간에 데이터 종속성을 설정하려면 메서드를 사용하여 get_output 이 데이터 전송 단계의 출력을 나타내는 개체를 가져와 PipelineData 파이프라인의 이후 단계에 대한 입력으로 사용할 수 있습니다.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

특정 이름을 사용하여 InputPortBinding 만들려면 get_output() 호출을 또는 as_input 도우미 메서드와 as_mount 결합할 수 있습니다.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   training_input = data_transfer_step.get_output().as_input("my_input_name")

여러분의 미래

다음을 통해 공유

DataTransferStep 클래스

생성자

매개 변수

설명

메서드

create_node

매개 변수

반환

get_output

반환

설명

피드백

추가 리소스