DatasetDefinition Класс
Определяет последовательность шагов, которые указывают способ считывания и преобразования данных в набор данных.
Примечание
Этот класс устарел. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
Набор данных, зарегистрированный в рабочей области Машинного обучения Azure, может иметь несколько определений, каждое из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным.
Для незарегистрированных наборов данных существует только одно определение.
Определения наборов данных поддерживают все преобразования, перечисленные для класса <xref:azureml.dataprep.Dataflow>. См. страницу http://aka.ms/azureml/howto/transformdata. Дополнительные сведения об определениях наборов данных см. на странице https://aka.ms/azureml/howto/versiondata.
Инициализируйте объект определения набора данных.
- Наследование
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Конструктор
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Параметры
- dataflow_json
Json потока данных.
- deprecated_by_dataset_id
- str
Идентификатор набора данных, который не рекомендуется использовать это определение.
- deprecated_by_definition_version
- str
Версия определения, которая не рекомендуется использовать это определение.
Методы
archive |
Архивация определения набора данных. |
create_snapshot |
Создает моментальный снимок зарегистрированного набора данных. |
deprecate |
Обозначение набора данных как нерекомендуемого с указателем на новый набор данных. |
reactivate |
Повторная активация определения набора данных. Работает с определениями наборов данных, которые помечены как нерекомендуемые или архивированные. |
to_pandas_dataframe |
Создает кадр данных Pandas, выполняя конвейер преобразования, заданный этим определением набора данных. |
to_spark_dataframe |
Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим потоком данных. |
archive
Архивация определения набора данных.
archive()
Возвращаемое значение
Отсутствует.
Возвращаемый тип
Комментарии
После архивации любая попытка извлечь набор данных приведет к ошибке. Если архивация была выполнена случайно, используйте reactivate для активации.
create_snapshot
Создает моментальный снимок зарегистрированного набора данных.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Параметры
- snapshot_name
- str
Имя моментального снимка. Имена моментальных снимков должны быть уникальными в пределах набора данных.
- compute_target
- ComputeTarget или str
Целевой объект вычислений для создания профиля моментальных снимков. Если он опущен, используется локальное вычисление.
- create_data_snapshot
- bool
При значении True будут созданы материализованные копии данных.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Целевое хранилище данных, в котором сохраняется моментальный снимок. Если оно не задано, моментальный снимок будет создан в заданном по умолчанию хранилище рабочей области.
Возвращаемое значение
Объект DatasetSnapshot.
Возвращаемый тип
Комментарии
В моментальные снимки записывается сводная статистика по базовым данным на определенный момент времени и необязательная копия самих данных. Дополнительные сведения о создании моментальных снимков см. на странице https://aka.ms/azureml/howto/createsnapshots.
deprecate
Обозначение набора данных как нерекомендуемого с указателем на новый набор данных.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Параметры
- deprecate_by_dataset_id
- uuid
Идентификатор набора данных, который отвечает за обозначение текущего набора данных как нерекомендуемого.
- deprecated_by_definition_version
- str
Версия определения набора данных, которая отвечает за обозначение текущего определения набора данных как нерекомендуемого.
Возвращаемое значение
Отсутствует.
Возвращаемый тип
Комментарии
При использовании нерекомендуемых определений наборов данных в журнал записываются предупреждения. Чтобы полностью заблокировать использование определения набора данных, его нужно заархивировать.
Если определение набора данных было случайно обозначено как нерекомендуемое, используйте reactivate для его активации.
reactivate
Повторная активация определения набора данных.
Работает с определениями наборов данных, которые помечены как нерекомендуемые или архивированные.
reactivate()
Возвращаемое значение
Отсутствует.
Возвращаемый тип
to_pandas_dataframe
Создает кадр данных Pandas, выполняя конвейер преобразования, заданный этим определением набора данных.
to_pandas_dataframe()
Возвращаемое значение
Кадр данных Pandas.
Возвращаемый тип
Комментарии
Возвращает полностью материализованный в памяти кадр данных Pandas.
to_spark_dataframe
Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим потоком данных.
to_spark_dataframe()
Возвращаемое значение
Кадр данных Spark.
Возвращаемый тип
Комментарии
Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как оценка кадров данных Spark выполняется медленно.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по