DatasetSnapshot 클래스

참조

스냅샷을 가져와 상태를 반환하고 데이터 프레임으로 변환하는 작업을 수행하여 데이터 세트 스냅샷을 관리합니다.

참고

이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

DataSnapshot 개체는 Dataset 클래스의 create_snapshot 메서드에서 반환됩니다.

데이터 세트 스냅샷 프로필과 데이터의 선택적 구체화된 복사본의 조합입니다.

데이터 세트 스냅샷에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots

상속: builtins.object

DatasetSnapshot

생성자

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

매개 변수

workspace: <xref:azureml.core.Workspace.>

필수

데이터 세트가 등록된 작업 영역입니다.

snapshot_name: str

필수

데이터 세트 스냅샷의 이름입니다.

dataset_id: str

필수

데이터 세트의 식별자입니다.

definition_version: str

필수

데이터 세트의 정의 버전입니다.

time_stamp: datetime

필수

스냅샷 생성 시간입니다.

profile_action_id: str

필수

스냅샷 프로필 작업 ID입니다.

datastore_name: str

필수

스냅샷 데이터 저장소 이름입니다.

relative_path: str

필수

스냅샷 데이터의 상대 경로입니다.

dataset_name: str

필수

데이터 세트의 이름입니다.

메서드

compare_profiles	현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다. 프로필이 없으면 이 메서드는 예외를 발생합니다.
get	스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.
get_all	지정된 데이터 세트의 모든 스냅샷을 가져옵니다.
get_profile	데이터 세트 스냅샷의 프로필을 가져옵니다.
get_status	데이터 세트 스냅샷 만들기 상태를 가져옵니다.
is_data_snapshot_available	스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다.
to_pandas_dataframe	스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다.
to_spark_dataframe	스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.
wait_for_completion	DatasetSnapshot 생성이 완료될 때까지 기다립니다.

compare_profiles

현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다.

프로필이 없으면 이 메서드는 예외를 발생합니다.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

매개 변수

rhs_dataset_snapshot: DatasetSnapshot

필수

비교할 데이터 세트 스냅샷입니다.

include_columns: list[str]

기본값: None

비교에 포함할 열 이름 목록입니다.

exclude_columns: list[str]

기본값: None

비교에서 제외할 열 이름 목록입니다.

histogram_compare_method: HistogramCompareMethod

기본값: HistogramCompareMethod.WASSERSTEIN

비교 메서드를 설명하는 열거형입니다(예: WASSERSTEIN 또는 ENERGY).

반환

프로필 간의 차이입니다.

반환 형식

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

매개 변수

workspace: Workspace

필수

데이터 세트가 등록된 작업 영역입니다.

snapshot_name: str

필수

데이터 세트 스냅샷의 이름입니다.

dataset_name

필수

데이터 세트의 이름입니다.

dataset_id: uuid

필수

데이터 세트의 식별자입니다.

반환

DatasetSnapshot 개체입니다.

반환 형식

DatasetSnapshot

get_all

지정된 데이터 세트의 모든 스냅샷을 가져옵니다.

static get_all(workspace, dataset_name)

매개 변수

workspace: Workspace

필수

데이터 세트가 등록된 작업 영역입니다.

dataset_name

메모리에서 완전히 구체화된 Pandas DataFrame입니다. create_data_snapshot=False를 사용하여 스냅샷을 만든 경우 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 함수 is_data_snapshot_available을 사용합니다.

to_spark_dataframe

스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.

to_spark_dataframe()

반환

Spark DataFrame입니다.

반환 형식

DataFrame

설명

반환된 Spark Dataframe은 실행 계획일 뿐이며 Spark Dataframe이 느리게 평가되기 때문에 실제로 데이터를 포함하지 않습니다. create_data_snapshot=False를 사용하여 스냅샷을 만든 경우 데이터에 액세스하려고 하면 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 is_data_snapshot_available을 사용합니다.

wait_for_completion

DatasetSnapshot 생성이 완료될 때까지 기다립니다.

wait_for_completion(show_output=True, status_update_frequency=10)

매개 변수

show_output: bool

기본값: True

메서드가 출력을 인쇄할지 여부를 나타냅니다.

status_update_frequency: int

기본값: 10

작업 실행 상태 업데이트 빈도(초)입니다.

Workspace

DatasetSnapshot 클래스

생성자

매개 변수

메서드

compare_profiles

매개 변수

반환

반환 형식

get

매개 변수

반환

반환 형식

get_all

매개 변수

반환

반환 형식

get_profile

반환

반환 형식

get_status

반환

반환 형식

is_data_snapshot_available

반환

반환 형식

to_pandas_dataframe

반환

반환 형식

설명

to_spark_dataframe

반환

반환 형식

설명

wait_for_completion

매개 변수

특성

dataset_id

반환

반환 형식

name

반환

반환 형식

workspace

반환

반환 형식

피드백

피드백

추가 리소스