DatasetDefinition Класс

Определяет последовательность шагов, которые указывают способ считывания и преобразования данных в набор данных.

Примечание

Этот класс устарел. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Набор данных, зарегистрированный в рабочей области Машинного обучения Azure, может иметь несколько определений, каждое из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным.

Для незарегистрированных наборов данных существует только одно определение.

Определения наборов данных поддерживают все преобразования, перечисленные для класса <xref:azureml.dataprep.Dataflow>. См. страницу http://aka.ms/azureml/howto/transformdata. Дополнительные сведения об определениях наборов данных см. на странице https://aka.ms/azureml/howto/versiondata.

Инициализируйте объект определения набора данных.

Наследование
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Конструктор

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Параметры

workspace
str
Обязательно

Рабочая область, в которой зарегистрирован набор данных.

dataset_id
str
Обязательно

Идентификатор набора данных.

version_id
str
Обязательно

Версия определения.

dataflow
str
Обязательно

Объект Потока данных.

dataflow_json
Обязательно

Json потока данных.

notes
str
Обязательно

Необязательные сведения об определении.

etag
str
Обязательно

Etag.

created_time
datetime
Обязательно

Время создания определения.

modified_time
datetime
Обязательно

Время последнего изменения определения.

deprecated_by_dataset_id
str
Обязательно

Идентификатор набора данных, который не рекомендуется использовать это определение.

deprecated_by_definition_version
str
Обязательно

Версия определения, которая не рекомендуется использовать это определение.

data_path
DataPath
Обязательно

Путь к данным.

dataset
Dataset
Обязательно

Родительский объект Dataset.

Методы

archive

Архивация определения набора данных.

create_snapshot

Создает моментальный снимок зарегистрированного набора данных.

deprecate

Обозначение набора данных как нерекомендуемого с указателем на новый набор данных.

reactivate

Повторная активация определения набора данных.

Работает с определениями наборов данных, которые помечены как нерекомендуемые или архивированные.

to_pandas_dataframe

Создает кадр данных Pandas, выполняя конвейер преобразования, заданный этим определением набора данных.

to_spark_dataframe

Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим потоком данных.

archive

Архивация определения набора данных.

archive()

Возвращаемое значение

Отсутствует.

Возвращаемый тип

Комментарии

После архивации любая попытка извлечь набор данных приведет к ошибке. Если архивация была выполнена случайно, используйте reactivate для активации.

create_snapshot

Создает моментальный снимок зарегистрированного набора данных.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Параметры

snapshot_name
str
Обязательно

Имя моментального снимка. Имена моментальных снимков должны быть уникальными в пределах набора данных.

compute_target
ComputeTarget или str
значение по умолчанию: None

Целевой объект вычислений для создания профиля моментальных снимков. Если он опущен, используется локальное вычисление.

create_data_snapshot
bool
значение по умолчанию: False

При значении True будут созданы материализованные копии данных.

target_datastore
Union[AbstractAzureStorageDatastore, str]
значение по умолчанию: None

Целевое хранилище данных, в котором сохраняется моментальный снимок. Если оно не задано, моментальный снимок будет создан в заданном по умолчанию хранилище рабочей области.

Возвращаемое значение

Объект DatasetSnapshot.

Возвращаемый тип

Комментарии

В моментальные снимки записывается сводная статистика по базовым данным на определенный момент времени и необязательная копия самих данных. Дополнительные сведения о создании моментальных снимков см. на странице https://aka.ms/azureml/howto/createsnapshots.

deprecate

Обозначение набора данных как нерекомендуемого с указателем на новый набор данных.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Параметры

deprecate_by_dataset_id
uuid
Обязательно

Идентификатор набора данных, который отвечает за обозначение текущего набора данных как нерекомендуемого.

deprecated_by_definition_version
str
значение по умолчанию: None

Версия определения набора данных, которая отвечает за обозначение текущего определения набора данных как нерекомендуемого.

Возвращаемое значение

Отсутствует.

Возвращаемый тип

Комментарии

При использовании нерекомендуемых определений наборов данных в журнал записываются предупреждения. Чтобы полностью заблокировать использование определения набора данных, его нужно заархивировать.

Если определение набора данных было случайно обозначено как нерекомендуемое, используйте reactivate для его активации.

reactivate

Повторная активация определения набора данных.

Работает с определениями наборов данных, которые помечены как нерекомендуемые или архивированные.

reactivate()

Возвращаемое значение

Отсутствует.

Возвращаемый тип

to_pandas_dataframe

Создает кадр данных Pandas, выполняя конвейер преобразования, заданный этим определением набора данных.

to_pandas_dataframe()

Возвращаемое значение

Кадр данных Pandas.

Возвращаемый тип

Комментарии

Возвращает полностью материализованный в памяти кадр данных Pandas.

to_spark_dataframe

Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим потоком данных.

to_spark_dataframe()

Возвращаемое значение

Кадр данных Spark.

Возвращаемый тип

Комментарии

Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как оценка кадров данных Spark выполняется медленно.