DatasetDefinition 클래스
데이터 집합에서 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계를 정의합니다.
참고
이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
Azure Machine Learning 작업 영역에 등록된 데이터 집합에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의가 가장 최근에 생성된 정의입니다.
등록되지 않은 데이터 집합의 경우 하나의 정의만 존재합니다.
데이터 집합 정의는 <xref:azureml.dataprep.Dataflow> 클래스에 대해 나열된 모든 변환을 지원합니다. http://aka.ms/azureml/howto/transformdata를 참조하세요. 데이터 집합 정의에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/versiondata로 이동하세요.
데이터 세트 정의 개체를 초기화합니다.
- 상속
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
생성자
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 등록된 작업 영역입니다. |
dataset_id
필수
|
데이터 세트 식별자입니다. |
version_id
필수
|
정의 버전입니다. |
dataflow
필수
|
Dataflow 개체입니다. |
dataflow_json
필수
|
데이터 흐름 json입니다. |
notes
필수
|
정의에 대한 선택적 정보입니다. |
etag
필수
|
Etag. |
created_time
필수
|
정의의 생성 시간입니다. |
modified_time
필수
|
정의의 마지막으로 수정된 시간입니다. |
deprecated_by_dataset_id
필수
|
이 정의를 더 이상 사용하지 않는 데이터 세트의 ID입니다. |
deprecated_by_definition_version
필수
|
이 정의를 더 이상 사용하지 않는 정의의 버전입니다. |
data_path
필수
|
데이터 경로입니다. |
dataset
필수
|
부모 Dataset 개체입니다. |
메서드
archive |
데이터 집합 정의를 보관합니다. |
create_snapshot |
등록된 데이터 집합의 스냅샷을 만듭니다. |
deprecate |
새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다. |
reactivate |
데이터 집합 정의를 다시 활성화합니다. 사용되지 않거나 보관된 데이터 집합 정의에서 작동합니다. |
to_pandas_dataframe |
이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다. |
to_spark_dataframe |
이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다. |
archive
데이터 집합 정의를 보관합니다.
archive()
반환
형식 | Description |
---|---|
없음 |
설명
보관 후 데이터 집합을 검색하려고 하면 오류가 발생합니다. 실수로 보관된 경우 reactivate를 사용하여 활성화합니다.
create_snapshot
등록된 데이터 집합의 스냅샷을 만듭니다.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
매개 변수
Name | Description |
---|---|
snapshot_name
필수
|
스냅샷 이름입니다. 스냅샷 이름은 데이터 집합 내에서 고유해야 합니다. |
compute_target
|
ComputeTarget 또는
str
스냅샷 프로필 만들기를 수행할 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다. Default value: None
|
create_data_snapshot
|
True이면 데이터의 구체화된 복사본이 만들어집니다. Default value: False
|
target_datastore
|
스냅샷을 저장할 대상 데이터 저장소입니다. 생략하면 스냅샷이 작업 영역의 기본 스토리지에 만들어집니다. Default value: None
|
반환
형식 | Description |
---|---|
DatasetSnapshot 개체입니다. |
설명
스냅샷은 기본 데이터의 특정 시점 요약 통계와 데이터 자체의 선택적 복사본을 캡처합니다. 스냅샷을 만드는 방법에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots로 이동하세요.
deprecate
새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
매개 변수
Name | Description |
---|---|
deprecate_by_dataset_id
필수
|
현재 데이터 집합의 사용 중단을 담당하는 데이터 집합 ID입니다. |
deprecated_by_definition_version
|
현재 데이터 집합 정의의 사용 중단을 담당하는 데이터 집합 정의 버전입니다. Default value: None
|
반환
형식 | Description |
---|---|
없음 |
설명
사용 중단된 데이터 세트 정의가 이용될 때 경고를 로그합니다. 데이터 집합 정의 이용을 완전히 차단하려면 데이터 집합을 보관합니다.
실수로 데이터 집합 정의가 사용되지 않는 경우 reactivate를 사용하여 활성화합니다.
reactivate
to_pandas_dataframe
이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.
to_pandas_dataframe()
반환
형식 | Description |
---|---|
Pandas DataFrame입니다. |
설명
메모리에서 완전히 구체화된 Pandas DataFrame을 반환합니다.
to_spark_dataframe
이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다.
to_spark_dataframe()
반환
형식 | Description |
---|---|
Spark DataFrame입니다. |
설명
반환된 Spark 데이터 프레임은 실행 계획일 뿐이며 Spark 데이터 프레임이 지연 평가되기 때문에 실제로 데이터를 포함하지 않습니다.