DatasetSnapshot 클래스

스냅샷을 가져와 상태를 반환하고 데이터 프레임으로 변환하는 작업을 수행하여 데이터 세트 스냅샷을 관리합니다.

참고

이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

DataSnapshot 개체는 Dataset 클래스의 create_snapshot 메서드에서 반환됩니다.

데이터 세트 스냅샷 프로필과 데이터의 선택적 구체화된 복사본의 조합입니다.

데이터 세트 스냅샷에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots

상속
builtins.object
DatasetSnapshot

생성자

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

매개 변수

workspace
<xref:azureml.core.Workspace.>
필수

데이터 세트가 등록된 작업 영역입니다.

snapshot_name
str
필수

데이터 세트 스냅샷의 이름입니다.

dataset_id
str
필수

데이터 세트의 식별자입니다.

definition_version
str
필수

데이터 세트의 정의 버전입니다.

time_stamp
datetime
필수

스냅샷 생성 시간입니다.

profile_action_id
str
필수

스냅샷 프로필 작업 ID입니다.

datastore_name
str
필수

스냅샷 데이터 저장소 이름입니다.

relative_path
str
필수

스냅샷 데이터의 상대 경로입니다.

dataset_name
str
필수

데이터 세트의 이름입니다.

메서드

compare_profiles

현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다.

프로필이 없으면 이 메서드는 예외를 발생합니다.

get

스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.

get_all

지정된 데이터 세트의 모든 스냅샷을 가져옵니다.

get_profile

데이터 세트 스냅샷의 프로필을 가져옵니다.

get_status

데이터 세트 스냅샷 만들기 상태를 가져옵니다.

is_data_snapshot_available

스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다.

to_pandas_dataframe

스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다.

to_spark_dataframe

스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.

wait_for_completion

DatasetSnapshot 생성이 완료될 때까지 기다립니다.

compare_profiles

현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다.

프로필이 없으면 이 메서드는 예외를 발생합니다.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

매개 변수

rhs_dataset_snapshot
DatasetSnapshot
필수

비교할 데이터 세트 스냅샷입니다.

include_columns
list[str]
기본값: None

비교에 포함할 열 이름 목록입니다.

exclude_columns
list[str]
기본값: None

비교에서 제외할 열 이름 목록입니다.

histogram_compare_method
HistogramCompareMethod
기본값: HistogramCompareMethod.WASSERSTEIN

비교 메서드를 설명하는 열거형입니다(예: WASSERSTEIN 또는 ENERGY).

반환

프로필 간의 차이입니다.

반환 형식

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

매개 변수

workspace
Workspace
필수

데이터 세트가 등록된 작업 영역입니다.

snapshot_name
str
필수

데이터 세트 스냅샷의 이름입니다.

dataset_name
필수

데이터 세트의 이름입니다.

dataset_id
uuid
필수

데이터 세트의 식별자입니다.

반환

DatasetSnapshot 개체입니다.

반환 형식

get_all

지정된 데이터 세트의 모든 스냅샷을 가져옵니다.

static get_all(workspace, dataset_name)

매개 변수

workspace
Workspace
필수

데이터 세트가 등록된 작업 영역입니다.

dataset_name
필수

데이터 세트의 이름입니다.

반환

데이터 세트 스냅샷 목록

반환 형식

get_profile

데이터 세트 스냅샷의 프로필을 가져옵니다.

get_profile()

반환

데이터 세트 스냅샷의 DataProfile

반환 형식

<xref:azureml.dataprep.DataProfile>

get_status

데이터 세트 스냅샷 만들기 상태를 가져옵니다.

get_status()

반환

데이터 세트 스냅샷의 상태입니다.

반환 형식

str

is_data_snapshot_available

스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다.

is_data_snapshot_available()

반환

True이면 데이터 스냅샷을 사용할 수 있습니다.

반환 형식

to_pandas_dataframe

스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다.

to_pandas_dataframe()

반환

Pandas DataFrame입니다.

반환 형식

설명

메모리에서 완전히 구체화된 Pandas DataFrame입니다. create_data_snapshot=False를 사용하여 스냅샷을 만든 경우 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 함수 is_data_snapshot_available을 사용합니다.

to_spark_dataframe

스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.

to_spark_dataframe()

반환

Spark DataFrame입니다.

반환 형식

설명

반환된 Spark Dataframe은 실행 계획일 뿐이며 Spark Dataframe이 느리게 평가되기 때문에 실제로 데이터를 포함하지 않습니다. create_data_snapshot=False를 사용하여 스냅샷을 만든 경우 데이터에 액세스하려고 하면 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 is_data_snapshot_available을 사용합니다.

wait_for_completion

DatasetSnapshot 생성이 완료될 때까지 기다립니다.

wait_for_completion(show_output=True, status_update_frequency=10)

매개 변수

show_output
bool
기본값: True

메서드가 출력을 인쇄할지 여부를 나타냅니다.

status_update_frequency
int
기본값: 10

작업 실행 상태 업데이트 빈도(초)입니다.

특성

dataset_id

데이터 세트 식별자를 가져옵니다.

반환

데이터 세트 ID입니다.

반환 형식

str

name

데이터 세트 스냅샷 이름을 가져옵니다.

반환

데이터 세트 스냅샷 이름입니다.

반환 형식

str

workspace

데이터 세트가 등록된 Azure Machine Learning 작업 영역을 가져옵니다.

반환

데이터 세트가 등록된 작업 영역입니다.

반환 형식