DatasetSnapshot 클래스
스냅샷을 가져와 상태를 반환하고 데이터 프레임으로 변환하는 작업을 수행하여 데이터 세트 스냅샷을 관리합니다.
참고
이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
DataSnapshot 개체는 Dataset 클래스의 create_snapshot 메서드에서 반환됩니다.
데이터 세트 스냅샷 프로필과 데이터의 선택적 구체화된 복사본의 조합입니다.
데이터 세트 스냅샷에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots
- 상속
-
builtins.objectDatasetSnapshot
생성자
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
매개 변수
- workspace
- <xref:azureml.core.Workspace.>
데이터 세트가 등록된 작업 영역입니다.
메서드
compare_profiles |
현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다. 프로필이 없으면 이 메서드는 예외를 발생합니다. |
get |
스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다. |
get_all |
지정된 데이터 세트의 모든 스냅샷을 가져옵니다. |
get_profile |
데이터 세트 스냅샷의 프로필을 가져옵니다. |
get_status |
데이터 세트 스냅샷 만들기 상태를 가져옵니다. |
is_data_snapshot_available |
스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다. |
to_pandas_dataframe |
스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다. |
to_spark_dataframe |
스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다. |
wait_for_completion |
DatasetSnapshot 생성이 완료될 때까지 기다립니다. |
compare_profiles
현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다.
프로필이 없으면 이 메서드는 예외를 발생합니다.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
매개 변수
- histogram_compare_method
- HistogramCompareMethod
비교 메서드를 설명하는 열거형입니다(예: WASSERSTEIN 또는 ENERGY).
반환
프로필 간의 차이입니다.
반환 형식
get
스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
매개 변수
- dataset_name
데이터 세트의 이름입니다.
반환
DatasetSnapshot 개체입니다.
반환 형식
get_all
지정된 데이터 세트의 모든 스냅샷을 가져옵니다.
static get_all(workspace, dataset_name)
매개 변수
- dataset_name
데이터 세트의 이름입니다.
반환
데이터 세트 스냅샷 목록
반환 형식
get_profile
데이터 세트 스냅샷의 프로필을 가져옵니다.
get_profile()
반환
데이터 세트 스냅샷의 DataProfile
반환 형식
get_status
is_data_snapshot_available
스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다.
is_data_snapshot_available()
반환
True이면 데이터 스냅샷을 사용할 수 있습니다.
반환 형식
to_pandas_dataframe
스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다.
to_pandas_dataframe()
반환
Pandas DataFrame입니다.
반환 형식
설명
메모리에서 완전히 구체화된 Pandas DataFrame입니다. create_data_snapshot=False
를 사용하여 스냅샷을 만든 경우 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 함수 is_data_snapshot_available을 사용합니다.
to_spark_dataframe
스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.
to_spark_dataframe()
반환
Spark DataFrame입니다.
반환 형식
설명
반환된 Spark Dataframe은 실행 계획일 뿐이며 Spark Dataframe이 느리게 평가되기 때문에 실제로 데이터를 포함하지 않습니다. create_data_snapshot=False
를 사용하여 스냅샷을 만든 경우 데이터에 액세스하려고 하면 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 is_data_snapshot_available을 사용합니다.
wait_for_completion
DatasetSnapshot 생성이 완료될 때까지 기다립니다.
wait_for_completion(show_output=True, status_update_frequency=10)
매개 변수
특성
dataset_id
name
workspace
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기