DatasetDefinition 클래스

데이터 집합에서 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계를 정의합니다.

참고

이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

Azure Machine Learning 작업 영역에 등록된 데이터 집합에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의가 가장 최근에 생성된 정의입니다.

등록되지 않은 데이터 집합의 경우 하나의 정의만 존재합니다.

데이터 집합 정의는 <xref:azureml.dataprep.Dataflow> 클래스에 대해 나열된 모든 변환을 지원합니다. http://aka.ms/azureml/howto/transformdata를 참조하세요. 데이터 집합 정의에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/versiondata로 이동하세요.

데이터 세트 정의 개체를 초기화합니다.

상속
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

생성자

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

매개 변수

workspace
str
필수

데이터 세트가 등록된 작업 영역입니다.

dataset_id
str
필수

데이터 세트 식별자입니다.

version_id
str
필수

정의 버전입니다.

dataflow
str
필수

Dataflow 개체입니다.

dataflow_json
필수

데이터 흐름 json입니다.

notes
str
필수

정의에 대한 선택적 정보입니다.

etag
str
필수

Etag.

created_time
datetime
필수

정의의 생성 시간입니다.

modified_time
datetime
필수

정의의 마지막으로 수정된 시간입니다.

deprecated_by_dataset_id
str
필수

이 정의를 더 이상 사용하지 않는 데이터 세트의 ID입니다.

deprecated_by_definition_version
str
필수

이 정의를 더 이상 사용하지 않는 정의의 버전입니다.

data_path
DataPath
필수

데이터 경로입니다.

dataset
Dataset
필수

부모 Dataset 개체입니다.

메서드

archive

데이터 집합 정의를 보관합니다.

create_snapshot

등록된 데이터 집합의 스냅샷을 만듭니다.

deprecate

새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다.

reactivate

데이터 집합 정의를 다시 활성화합니다.

사용되지 않거나 보관된 데이터 집합 정의에서 작동합니다.

to_pandas_dataframe

이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.

to_spark_dataframe

이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다.

archive

데이터 집합 정의를 보관합니다.

archive()

반환

없음

반환 형식

설명

보관 후 데이터 집합을 검색하려고 하면 오류가 발생합니다. 실수로 보관된 경우 reactivate를 사용하여 활성화합니다.

create_snapshot

등록된 데이터 집합의 스냅샷을 만듭니다.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

매개 변수

snapshot_name
str
필수

스냅샷 이름입니다. 스냅샷 이름은 데이터 집합 내에서 고유해야 합니다.

compute_target
ComputeTarget 또는 str
기본값: None

스냅샷 프로필 만들기를 수행할 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다.

create_data_snapshot
bool
기본값: False

True이면 데이터의 구체화된 복사본이 만들어집니다.

target_datastore
Union[AbstractAzureStorageDatastore, str]
기본값: None

스냅샷을 저장할 대상 데이터 저장소입니다. 생략하면 스냅샷이 작업 영역의 기본 스토리지에 만들어집니다.

반환

DatasetSnapshot 개체입니다.

반환 형식

설명

스냅샷은 기본 데이터의 특정 시점 요약 통계와 데이터 자체의 선택적 복사본을 캡처합니다. 스냅샷을 만드는 방법에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots로 이동하세요.

deprecate

새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

매개 변수

deprecate_by_dataset_id
uuid
필수

현재 데이터 집합의 사용 중단을 담당하는 데이터 집합 ID입니다.

deprecated_by_definition_version
str
기본값: None

현재 데이터 집합 정의의 사용 중단을 담당하는 데이터 집합 정의 버전입니다.

반환

없음

반환 형식

설명

사용 중단된 데이터 세트 정의가 이용될 때 경고를 로그합니다. 데이터 집합 정의 이용을 완전히 차단하려면 데이터 집합을 보관합니다.

실수로 데이터 집합 정의가 사용되지 않는 경우 reactivate를 사용하여 활성화합니다.

reactivate

데이터 집합 정의를 다시 활성화합니다.

사용되지 않거나 보관된 데이터 집합 정의에서 작동합니다.

reactivate()

반환

없음

반환 형식

to_pandas_dataframe

이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.

to_pandas_dataframe()

반환

Pandas DataFrame입니다.

반환 형식

설명

메모리에서 완전히 구체화된 Pandas DataFrame을 반환합니다.

to_spark_dataframe

이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다.

to_spark_dataframe()

반환

Spark DataFrame입니다.

반환 형식

설명

반환된 Spark 데이터 프레임은 실행 계획일 뿐이며 Spark 데이터 프레임이 지연 평가되기 때문에 실제로 데이터를 포함하지 않습니다.