DatasetDefinition 클래스
데이터 집합에서 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계를 정의합니다.
참고
이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
Azure Machine Learning 작업 영역에 등록된 데이터 집합에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의가 가장 최근에 생성된 정의입니다.
등록되지 않은 데이터 집합의 경우 하나의 정의만 존재합니다.
데이터 집합 정의는 <xref:azureml.dataprep.Dataflow> 클래스에 대해 나열된 모든 변환을 지원합니다. http://aka.ms/azureml/howto/transformdata를 참조하세요. 데이터 집합 정의에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/versiondata로 이동하세요.
데이터 세트 정의 개체를 초기화합니다.
- 상속
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
생성자
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
매개 변수
- dataflow_json
데이터 흐름 json입니다.
메서드
archive |
데이터 집합 정의를 보관합니다. |
create_snapshot |
등록된 데이터 집합의 스냅샷을 만듭니다. |
deprecate |
새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다. |
reactivate |
데이터 집합 정의를 다시 활성화합니다. 사용되지 않거나 보관된 데이터 집합 정의에서 작동합니다. |
to_pandas_dataframe |
이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다. |
to_spark_dataframe |
이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다. |
archive
데이터 집합 정의를 보관합니다.
archive()
반환
없음
반환 형식
설명
보관 후 데이터 집합을 검색하려고 하면 오류가 발생합니다. 실수로 보관된 경우 reactivate를 사용하여 활성화합니다.
create_snapshot
등록된 데이터 집합의 스냅샷을 만듭니다.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
매개 변수
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
스냅샷을 저장할 대상 데이터 저장소입니다. 생략하면 스냅샷이 작업 영역의 기본 스토리지에 만들어집니다.
반환
DatasetSnapshot 개체입니다.
반환 형식
설명
스냅샷은 기본 데이터의 특정 시점 요약 통계와 데이터 자체의 선택적 복사본을 캡처합니다. 스냅샷을 만드는 방법에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots로 이동하세요.
deprecate
새 데이터 집합에 대한 포인터를 사용하여, 데이터 세트를 사용하지 않도록 합니다.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
매개 변수
반환
없음
반환 형식
설명
사용 중단된 데이터 세트 정의가 이용될 때 경고를 로그합니다. 데이터 집합 정의 이용을 완전히 차단하려면 데이터 집합을 보관합니다.
실수로 데이터 집합 정의가 사용되지 않는 경우 reactivate를 사용하여 활성화합니다.
reactivate
to_pandas_dataframe
이 데이터 세트 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.
to_pandas_dataframe()
반환
Pandas DataFrame입니다.
반환 형식
설명
메모리에서 완전히 구체화된 Pandas DataFrame을 반환합니다.
to_spark_dataframe
이 데이터 흐름에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark 데이터 프레임을 만듭니다.
to_spark_dataframe()
반환
Spark DataFrame입니다.
반환 형식
설명
반환된 Spark 데이터 프레임은 실행 계획일 뿐이며 Spark 데이터 프레임이 지연 평가되기 때문에 실제로 데이터를 포함하지 않습니다.
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기