DatasetDefinition Класс

Ссылка

Определяет последовательность шагов, которые указывают способ считывания и преобразования данных в набор данных.

Примечание

Этот класс устарел. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Набор данных, зарегистрированный в рабочей области Машинного обучения Azure, может иметь несколько определений, каждое из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным.

Для незарегистрированных наборов данных существует только одно определение.

Определения наборов данных поддерживают все преобразования, перечисленные для класса <xref:azureml.dataprep.Dataflow>. См. страницу http://aka.ms/azureml/howto/transformdata. Дополнительные сведения об определениях наборов данных см. на странице https://aka.ms/azureml/howto/versiondata.

Инициализируйте объект определения набора данных.

Наследование: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Конструктор

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Параметры

workspace: str

Обязательно

Рабочая область, в которой зарегистрирован набор данных.

dataset_id: str

Обязательно

Идентификатор набора данных.

version_id: str

Обязательно

Версия определения.

dataflow: str

Обязательно

Объект Потока данных.

dataflow_json

Обязательно

Json потока данных.

notes: str

Обязательно

Необязательные сведения об определении.

etag: str

Обязательно

Etag.

created_time: datetime

Обязательно

Время создания определения.

modified_time: datetime

Обязательно

Время последнего изменения определения.

deprecated_by_dataset_id: str

Обязательно

Идентификатор набора данных, который не рекомендуется использовать это определение.

deprecated_by_definition_version: str

Обязательно

Версия определения, которая не рекомендуется использовать это определение.

data_path: DataPath

Обязательно

Путь к данным.

dataset: Dataset

Обязательно

Родительский объект Dataset.

Методы

archive	Архивация определения набора данных.
create_snapshot	Создает моментальный снимок зарегистрированного набора данных.
deprecate	Обозначение набора данных как нерекомендуемого с указателем на новый набор данных.
reactivate	Повторная активация определения набора данных. Работает с определениями наборов данных, которые помечены как нерекомендуемые или архивированные.
to_pandas_dataframe	Создает кадр данных Pandas, выполняя конвейер преобразования, заданный этим определением набора данных.
to_spark_dataframe	Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим потоком данных.

create_snapshot

Создает моментальный снимок зарегистрированного набора данных.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Параметры

snapshot_name: str

Обязательно

Имя моментального снимка. Имена моментальных снимков должны быть уникальными в пределах набора данных.

compute_target: ComputeTarget или str

значение по умолчанию: None

Целевой объект вычислений для создания профиля моментальных снимков. Если он опущен, используется локальное вычисление.

create_data_snapshot: bool

значение по умолчанию: False

При значении True будут созданы материализованные копии данных.

target_datastore: Union[AbstractAzureStorageDatastore, str]

значение по умолчанию: None

Целевое хранилище данных, в котором сохраняется моментальный снимок. Если оно не задано, моментальный снимок будет создан в заданном по умолчанию хранилище рабочей области.

Возвращаемое значение

Объект DatasetSnapshot.

Возвращаемый тип

DatasetSnapshot

В моментальные снимки записывается сводная статистика по базовым данным на определенный момент времени и необязательная копия самих данных. Дополнительные сведения о создании моментальных снимков см. на странице https://aka.ms/azureml/howto/createsnapshots.

deprecate

Обозначение набора данных как нерекомендуемого с указателем на новый набор данных.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Параметры

deprecate_by_dataset_id: uuid

Обязательно

Идентификатор набора данных, который отвечает за обозначение текущего набора данных как нерекомендуемого.

deprecated_by_definition_version: str

значение по умолчанию: None

Версия определения набора данных, которая отвечает за обозначение текущего определения набора данных как нерекомендуемого.

Возвращаемое значение

Отсутствует.

Возвращаемый тип

None

При использовании нерекомендуемых определений наборов данных в журнал записываются предупреждения. Чтобы полностью заблокировать использование определения набора данных, его нужно заархивировать.

Если определение набора данных было случайно обозначено как нерекомендуемое, используйте reactivate для его активации.

reactivate

Повторная активация определения набора данных.

Работает с определениями наборов данных, которые помечены как нерекомендуемые или архивированные.

reactivate()

Возвращаемое значение

Отсутствует.

Возвращаемый тип

None

to_pandas_dataframe

Создает кадр данных Pandas, выполняя конвейер преобразования, заданный этим определением набора данных.

to_pandas_dataframe()

Возвращаемое значение

Кадр данных Pandas.

Возвращаемый тип

DataFrame

to_spark_dataframe

Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим потоком данных.

to_spark_dataframe()

Возвращаемое значение

Кадр данных Spark.

Возвращаемый тип

DataFrame

Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как оценка кадров данных Spark выполняется медленно.

DatasetDefinition Класс

Конструктор

Параметры

Методы

archive

Возвращаемое значение

Возвращаемый тип

Комментарии

create_snapshot

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

deprecate

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

reactivate

Возвращаемое значение

Возвращаемый тип

to_pandas_dataframe

Возвращаемое значение

Возвращаемый тип

Комментарии

to_spark_dataframe

Возвращаемое значение

Возвращаемый тип

Комментарии

Обратная связь

Обратная связь

Дополнительные ресурсы