DatasetDefinition 클래스

참조

데이터 집합에서 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계를 정의합니다.

참고

이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

Azure Machine Learning 작업 영역에 등록된 데이터 집합에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의가 가장 최근에 생성된 정의입니다.

등록되지 않은 데이터 집합의 경우 하나의 정의만 존재합니다.

데이터 집합 정의는 <xref:azureml.dataprep.Dataflow> 클래스에 대해 나열된 모든 변환을 지원합니다. http://aka.ms/azureml/howto/transformdata를 참조하세요. 데이터 집합 정의에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/versiondata로 이동하세요.

데이터 세트 정의 개체를 초기화합니다.

상속: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

생성자

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

매개 변수

Name	Description
workspace 필수	str 데이터 세트가 등록된 작업 영역입니다.
dataset_id 필수	str 데이터 세트 식별자입니다.
version_id 필수	str 정의 버전입니다.
dataflow 필수	str Dataflow 개체입니다.
dataflow_json 필수	데이터 흐름 json입니다.
notes 필수	str 정의에 대한 선택적 정보입니다.
etag 필수	str Etag.
created_time 필수	datetime 정의의 생성 시간입니다.
modified_time 필수	datetime 정의의 마지막으로 수정된 시간입니다.
deprecated_by_dataset_id 필수	str 이 정의를 더 이상 사용하지 않는 데이터 세트의 ID입니다.
deprecated_by_definition_version 필수	str 이 정의를 더 이상 사용하지 않는 정의의 버전입니다.
data_path 필수	DataPath 데이터 경로입니다.
dataset 필수	Dataset 부모 Dataset 개체입니다.

메서드

archive	데이터 집합 정의를 보관합니다.
create_snapshot	등록된 데이터 집합의 스냅샷을 만듭니다.
deprecate	새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다.
reactivate	데이터 집합 정의를 다시 활성화합니다. 사용되지 않거나 보관된 데이터 집합 정의에서 작동합니다.
to_pandas_dataframe	이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.
to_spark_dataframe	이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다.

create_snapshot

등록된 데이터 집합의 스냅샷을 만듭니다.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

매개 변수

Name	Description
snapshot_name 필수	str 스냅샷 이름입니다. 스냅샷 이름은 데이터 집합 내에서 고유해야 합니다.
compute_target	ComputeTarget 또는 str 스냅샷 프로필 만들기를 수행할 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다. Default value: None
create_data_snapshot	bool True이면 데이터의 구체화된 복사본이 만들어집니다. Default value: False
target_datastore	Union[AbstractAzureStorageDatastore, str] 스냅샷을 저장할 대상 데이터 저장소입니다. 생략하면 스냅샷이 작업 영역의 기본 스토리지에 만들어집니다. Default value: None

반환

형식	Description
DatasetSnapshot	DatasetSnapshot 개체입니다.

설명

스냅샷은 기본 데이터의 특정 시점 요약 통계와 데이터 자체의 선택적 복사본을 캡처합니다. 스냅샷을 만드는 방법에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots로 이동하세요.

deprecate

새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

매개 변수

Name	Description
deprecate_by_dataset_id 필수	uuid 현재 데이터 집합의 사용 중단을 담당하는 데이터 집합 ID입니다.
deprecated_by_definition_version	str 현재 데이터 집합 정의의 사용 중단을 담당하는 데이터 집합 정의 버전입니다. Default value: None

반환

형식	Description
None	없음

설명

사용 중단된 데이터 세트 정의가 이용될 때 경고를 로그합니다. 데이터 집합 정의 이용을 완전히 차단하려면 데이터 집합을 보관합니다.

실수로 데이터 집합 정의가 사용되지 않는 경우 reactivate를 사용하여 활성화합니다.

reactivate

데이터 집합 정의를 다시 활성화합니다.

사용되지 않거나 보관된 데이터 집합 정의에서 작동합니다.

reactivate()

반환

형식	Description
None	없음

to_pandas_dataframe

이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.

to_pandas_dataframe()

반환

형식	Description
DataFrame	Pandas DataFrame입니다.

설명

메모리에서 완전히 구체화된 Pandas DataFrame을 반환합니다.

to_spark_dataframe

이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다.

to_spark_dataframe()

반환

형식	Description
DataFrame	Spark DataFrame입니다.

설명

반환된 Spark 데이터 프레임은 실행 계획일 뿐이며 Spark 데이터 프레임이 지연 평가되기 때문에 실제로 데이터를 포함하지 않습니다.

다음을 통해 공유

DatasetDefinition 클래스

생성자

매개 변수

메서드

archive

반환

설명

create_snapshot

매개 변수

반환

설명

deprecate

매개 변수

반환

설명

reactivate

반환

to_pandas_dataframe

반환

설명

to_spark_dataframe

반환

설명

피드백

추가 리소스