Поделиться через


DatasetSnapshot Класс

Управляет моментальными снимками наборов данных с помощью операций для получения моментального снимка, возврата его состояния и его преобразования в кадр данных.

Примечание

Этот класс устарел. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Объект DataSnapshot возвращается из метода create_snapshot класса Dataset.

Набор данных snapshot представляет собой сочетание профиля и необязательной материализованной копии данных.

Дополнительные сведения о моментальных снимках наборов данных см. на https://aka.ms/azureml/howto/createsnapshots

Наследование
builtins.object
DatasetSnapshot

Конструктор

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Параметры

Имя Описание
workspace
Обязательно
<xref:azureml.core.Workspace.>

Рабочая область, в которой зарегистрирован набор данных.

snapshot_name
Обязательно
str

Имя моментального снимка набора данных.

dataset_id
Обязательно
str

Идентификатор набора данных.

definition_version
Обязательно
str

Версия определения набора данных.

time_stamp
Обязательно

Время создания snapshot.

profile_action_id
Обязательно
str

Идентификатор действия профиля snapshot.

datastore_name
Обязательно
str

Имя хранилища данных snapshot.

relative_path
Обязательно
str

Относительный путь к данным snapshot.

dataset_name
Обязательно
str

Имя набора данных.

Методы

compare_profiles

Сравнивает текущий профиль набора данных с профилем rhs_dataset.

Если профили не существуют, этот метод вызовет исключение.

get

Получение моментального снимка набора данных по имени моментального снимка.

get_all

Возвращает все моментальные снимки заданного набора данных.

get_profile

Возвращает профиль моментального снимка набора данных.

get_status

Возвращает состояние создания моментального снимка набора данных.

is_data_snapshot_available

Проверяет, доступен ли материализованный экземпляр моментального снимка.

to_pandas_dataframe

Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка.

to_spark_dataframe

Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка.

wait_for_completion

Дождитесь завершения создания DatasetSnapshot.

compare_profiles

Сравнивает текущий профиль набора данных с профилем rhs_dataset.

Если профили не существуют, этот метод вызовет исключение.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Параметры

Имя Описание
rhs_dataset_snapshot
Обязательно

Моментальный снимок набора данных для сравнения.

include_columns

Список имен столбцов, учитываемых при сравнении.

Default value: None
exclude_columns

Список имен столбцов, исключаемых при сравнении.

Default value: None
histogram_compare_method

Перечисление, описывающее метод сравнения, например, WASSERSTEIN или ENERGY.

Default value: HistogramCompareMethod.WASSERSTEIN

Возвращаемое значение

Тип Описание
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Разница между профилями.

get

Получение моментального снимка набора данных по имени моментального снимка.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, в которой зарегистрирован набор данных.

snapshot_name
Обязательно
str

Имя моментального снимка набора данных.

dataset_name
Обязательно

Имя набора данных.

dataset_id
Обязательно

Идентификатор набора данных.

Возвращаемое значение

Тип Описание

Объект DatasetSnapshot.

get_all

Возвращает все моментальные снимки заданного набора данных.

static get_all(workspace, dataset_name)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, в которой зарегистрирован набор данных.

dataset_name
Обязательно

Имя набора данных.

Возвращаемое значение

Тип Описание

Список моментальных снимков набора данных

get_profile

Возвращает профиль моментального снимка набора данных.

get_profile()

Возвращаемое значение

Тип Описание
<xref:azureml.dataprep.DataProfile>

Профиль данных моментального снимка набора данных

get_status

Возвращает состояние создания моментального снимка набора данных.

get_status()

Возвращаемое значение

Тип Описание
str

Состояние моментального снимка набора данных.

is_data_snapshot_available

Проверяет, доступен ли материализованный экземпляр моментального снимка.

is_data_snapshot_available()

Возвращаемое значение

Тип Описание

Значение True, если моментальный снимок данных доступен.

to_pandas_dataframe

Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка.

to_pandas_dataframe()

Возвращаемое значение

Тип Описание

Кадр данных Pandas.

Комментарии

Кадр данных Pandas полностью материализован в памяти. Если моментальный снимок был создан с помощью create_data_snapshot=False, создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте функцию is_data_snapshot_available.

to_spark_dataframe

Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка.

to_spark_dataframe()

Возвращаемое значение

Тип Описание

Кадр данных Spark.

Комментарии

Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как оценка кадров данных Spark выполняется медленно. Если моментальный снимок был создан с помощью create_data_snapshot=False, при попытке получить доступ к данным создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте is_data_snapshot_available.

wait_for_completion

Дождитесь завершения создания DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Параметры

Имя Описание
show_output

Указывает, позволяет ли метод печатать выходные данные.

Default value: True
status_update_frequency
int

Частота обновления состояния выполнения действия в секундах.

Default value: 10

Атрибуты

dataset_id

Возвращает идентификатор набора данных.

Возвращаемое значение

Тип Описание
str

Идентификатор набора данных.

name

Возвращает имя моментального снимка набора данных.

Возвращаемое значение

Тип Описание
str

Имя моментального снимка набора данных.

workspace

Возвращает рабочую область Машинного обучения Azure, где зарегистрирован набор данных.

Возвращаемое значение

Тип Описание

Рабочая область, в которой зарегистрирован набор данных.