DatasetDefinition 클래스

참조

데이터 집합에서 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계를 정의합니다.

참고

이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

Azure Machine Learning 작업 영역에 등록된 데이터 집합에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의가 가장 최근에 생성된 정의입니다.

등록되지 않은 데이터 집합의 경우 하나의 정의만 존재합니다.

데이터 집합 정의는 <xref:azureml.dataprep.Dataflow> 클래스에 대해 나열된 모든 변환을 지원합니다. http://aka.ms/azureml/howto/transformdata를 참조하세요. 데이터 집합 정의에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/versiondata로 이동하세요.

데이터 세트 정의 개체를 초기화합니다.

상속: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

생성자

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

매개 변수

workspace: str

필수

데이터 세트가 등록된 작업 영역입니다.

dataset_id: str

필수

데이터 세트 식별자입니다.

version_id: str

필수

정의 버전입니다.

dataflow: str

필수

Dataflow 개체입니다.

dataflow_json

필수

데이터 흐름 json입니다.

notes: str

필수

정의에 대한 선택적 정보입니다.

etag: str

필수

Etag.

created_time: datetime

필수

정의의 생성 시간입니다.

modified_time: datetime

필수

정의의 마지막으로 수정된 시간입니다.

deprecated_by_dataset_id: str

필수

이 정의를 더 이상 사용하지 않는 데이터 세트의 ID입니다.

deprecated_by_definition_version: str

필수

이 정의를 더 이상 사용하지 않는 정의의 버전입니다.

data_path: DataPath

필수

데이터 경로입니다.

dataset: Dataset

필수

부모 Dataset 개체입니다.

메서드

archive	데이터 집합 정의를 보관합니다.
create_snapshot	등록된 데이터 집합의 스냅샷을 만듭니다.
deprecate	새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다.
reactivate	데이터 집합 정의를 다시 활성화합니다. 사용되지 않거나 보관된 데이터 집합 정의에서 작동합니다.
to_pandas_dataframe	이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.
to_spark_dataframe	이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다.

create_snapshot

등록된 데이터 집합의 스냅샷을 만듭니다.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

매개 변수

snapshot_name: str

필수

스냅샷 이름입니다. 스냅샷 이름은 데이터 집합 내에서 고유해야 합니다.

compute_target: ComputeTarget 또는 str

기본값: None

스냅샷 프로필 만들기를 수행할 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다.

create_data_snapshot: bool

기본값: False

True이면 데이터의 구체화된 복사본이 만들어집니다.

target_datastore: Union[AbstractAzureStorageDatastore, str]

기본값: None

스냅샷을 저장할 대상 데이터 저장소입니다. 생략하면 스냅샷이 작업 영역의 기본 스토리지에 만들어집니다.

반환

DatasetSnapshot 개체입니다.

반환 형식

DatasetSnapshot

설명

스냅샷은 기본 데이터의 특정 시점 요약 통계와 데이터 자체의 선택적 복사본을 캡처합니다. 스냅샷을 만드는 방법에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots로 이동하세요.

deprecate

새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

매개 변수

deprecate_by_dataset_id: uuid

필수

현재 데이터 집합의 사용 중단을 담당하는 데이터 집합 ID입니다.

deprecated_by_definition_version: str

기본값: None

현재 데이터 집합 정의의 사용 중단을 담당하는 데이터 집합 정의 버전입니다.

반환

없음

반환 형식

None

설명

사용 중단된 데이터 세트 정의가 이용될 때 경고를 로그합니다. 데이터 집합 정의 이용을 완전히 차단하려면 데이터 집합을 보관합니다.

실수로 데이터 집합 정의가 사용되지 않는 경우 reactivate를 사용하여 활성화합니다.

reactivate

데이터 집합 정의를 다시 활성화합니다.

사용되지 않거나 보관된 데이터 집합 정의에서 작동합니다.

reactivate()

반환

없음

반환 형식

None

to_pandas_dataframe

이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.

to_pandas_dataframe()

반환

Pandas DataFrame입니다.

반환 형식

DataFrame

설명

메모리에서 완전히 구체화된 Pandas DataFrame을 반환합니다.

to_spark_dataframe

이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다.

to_spark_dataframe()

반환

Spark DataFrame입니다.

반환 형식

DataFrame

설명

반환된 Spark 데이터 프레임은 실행 계획일 뿐이며 Spark 데이터 프레임이 지연 평가되기 때문에 실제로 데이터를 포함하지 않습니다.

다음을 통해 공유

DatasetDefinition 클래스

생성자

매개 변수

메서드

archive

반환

반환 형식

설명

create_snapshot

매개 변수

반환

반환 형식

설명

deprecate

매개 변수

반환

반환 형식

설명

reactivate

반환

반환 형식

to_pandas_dataframe

반환

반환 형식

설명

to_spark_dataframe

반환

반환 형식

설명

피드백

피드백

추가 리소스