Dataset Класс

Ссылка

Представляет ресурс для изучения, преобразования и администрирования данных в Машинном обучении Azure.

Набор данных — это ссылка на данные в Datastore или в расположениях по общедоступным URL-адресам.

Улучшенные интерфейсы API для нерекомендуемых методов в этом классе см. в описании класса AbstractDataset.

Поддерживаются следующие типы наборов данных:

TabularDataset представляет в табличном формате данные, созданные путем синтаксического анализа указанного файла или списка файлов.
FileDataset ссылается на один или несколько файлов, размещенных в хранилищах данных или по общедоступным URL-адресам.

Чтобы приступить к работе с наборами данных, см. статью Добавление & регистрировать наборы данных или записные книжки https://aka.ms/tabulardataset-samplenotebook и https://aka.ms/filedataset-samplenotebook.

Инициализируйте объект Dataset.

Чтобы получить набор данных, который уже зарегистрирован в рабочей области, используйте метод get.

Наследование: builtins.object

Dataset

Конструктор

Dataset(definition, workspace=None, name=None, id=None)

Параметры

definition: <xref:azureml.data.DatasetDefinition>

Обязательно

Определение набора данных.

workspace: Workspace

Обязательно

Рабочая область, в которой существует набор данных.

name: str

Обязательно

Имя набора данных.

id: str

Обязательно

Уникальный идентификатор набора данных.

Класс Dataset предоставляет два удобных атрибута класса (File и Tabular), которые можно использовать для создания набора данных без работы с соответствующими методами фабрики. Например, для создания набора данных с использованием следующих атрибутов:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Можно также создать новые TabularDataset или FileDataset, напрямую вызвав соответствующие фабричные методы класса, определенного в TabularDatasetFactory и FileDatasetFactory.

В следующем примере показано, как создать TabularDataset, указывающий на один путь в хранилище данных.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Полный пример можно найти по адресу: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb.

Переменные

azureml.core.Dataset.File

Атрибут класса, предоставляющий доступ к методам FileDatasetFactory для создания новых объектов FileDataset. Использование: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Атрибут класса, предоставляющий доступ к методам TabularDatasetFactory для создания новых объектов TabularDataset. Использование: Dataset.Tabular.from_delimited_files().

Методы

archive	Архивирует активный или нерекомендуемый набор данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
auto_read_files	Анализирует файлы по указанному пути и возвращает новый набор данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для чтения файлов рекомендуется использовать методы Dataset.Tabular.from_*. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
compare_profiles	Сравнивает профиль текущего набора данных с другим профилем набора данных. Это показывает различия между двумя наборами данных в сводной статистике. Параметр "rhs_dataset" означает "правосторонний" и просто указывает на то, что это второй набор данных. Первый набор данных (текущий объект набора данных) считается "левосторонним". Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
create_snapshot	Создает моментальный снимок зарегистрированного набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
delete_snapshot	Удаляет моментальный снимок набора данных по имени. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
deprecate	Обозначает активный набор данных в рабочей области как нерекомендуемый другим набором данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
diff	Выполняет сравнение текущего набора данных с rhs_dataset с помощью инструмента сравнения. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
from_binary_files	Создает незарегистрированный набор данных в памяти из двоичных файлов. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.File.from_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
from_delimited_files	Создает незарегистрированный набор данных в памяти из файлов с разделителями. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.from_delimited_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Создает незарегистрированный набор данных в памяти из Excel-файлов. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
from_json_files	Создает незарегистрированный набор данных в памяти из файлов JSON. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.from_json_lines_files для считывания данных из файла строк JSON. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Создайте незарегистрированный, набор данных в памяти из кадра данных Pandas. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
from_parquet_files	Создает незарегистрированный набор данных в памяти из файлов Parquet. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.from_parquet_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
from_sql_query	Создает незарегистрированный набор данных в памяти из SQL-запроса. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.from_sql_query. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
generate_profile	Создает новый профиль для набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get	Получает набор данных, уже существующий в рабочей области, указав его имя или идентификатор. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать get_by_name и get_by_id. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_all	Получает все зарегистрированные наборы данных в рабочей области.
get_all_snapshots	Получает все моментальные снимки набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_by_id	Получает набор данных, который сохраняется в рабочей области.
get_by_name	Получает из рабочей области зарегистрированный набор данных по его имени регистрации.
get_definition	Получает конкретное определение набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_definitions	Получает все определения набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_profile	Получает сводную статистику для набора данных, вычисленного ранее. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_snapshot	Получает моментальный снимок набора данных по имени. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
head	Извлекает указанное число записей, указанных для этого набора данных, и возвращение их в виде кадра данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
list	Выводит список всех объектов наборов данных в рабочей области, включая объекты со свойством `is_visible`, равным False. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать get_all. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
reactivate	Повторно активирует архивный или нерекомендуемый набор данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
register	Регистрирует набор данных в рабочей области, сделав его доступным для других пользователей рабочей области. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать register. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
sample	Создайте новую выборку из исходного набора данных, используя заданную стратегию и параметры выборки. Примечание Это устаревший метод, который больше не будет поддерживаться. Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод take_sample. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Создает кадр данных Pandas, выполнив конвейер преобразования, заданный этим определением набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод to_pandas_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
to_spark_dataframe	Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим определением набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод to_spark_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
update	Обновляет изменяемые атрибуты набора данных в рабочей области и возвращает обновленный набор данных из рабочей области. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
update_definition	Обновляет определение набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

auto_read_files

Анализирует файлы по указанному пути и возвращает новый набор данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для чтения файлов рекомендуется использовать методы Dataset.Tabular.from_*. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Параметры

path: DataReference или str

Обязательно

Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP (CSV/TSV).

include_path: bool

Обязательно

Указывает, следует ли включать столбец, содержащий путь к файлу, из которого считываются данные. Удобно, если при считывании нескольких файлов необходимо указать, из какого файла поступила определенная запись. Также полезно, если в столбце должна содержатся информация, указанная в пути или имени файла.

partition_format: str

Обязательно

Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, при наличии пути к файлу "../Accounts/2019/01/01/data.csv", где данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени.

Возвращаемое значение

Объект набора данных.

Возвращаемый тип

Dataset

compare_profiles

Сравнивает профиль текущего набора данных с другим профилем набора данных.

Это показывает различия между двумя наборами данных в сводной статистике. Параметр "rhs_dataset" означает "правосторонний" и просто указывает на то, что это второй набор данных. Первый набор данных (текущий объект набора данных) считается "левосторонним".

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Параметры

rhs_dataset: Dataset

Обязательно

Второй набор данных (также называемый "правосторонним") для сравнения.

profile_arguments: dict

Обязательно

Аргументы для извлечения конкретного профиля.

include_columns: list[str]

Обязательно

Список имен столбцов, учитываемых при сравнении.

exclude_columns: list[str]

Обязательно

Список имен столбцов, исключаемых при сравнении.

histogram_compare_method: HistogramCompareMethod

Обязательно

Перечисление, описывающее метод сравнения, например Wasserstein или Energy.

Возвращаемое значение

Разница между двумя профилями наборов данных.

Возвращаемый тип

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Применимо только к зарегистрированным наборам данных. Вызывает исключение, если текущий профиль набора данных не существует. Для незарегистрированных наборов данных используется метод profile.compare.

create_snapshot

Создает моментальный снимок зарегистрированного набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Параметры

snapshot_name: str

Обязательно

Имя моментального снимка. Имена моментальных снимков должны быть уникальными в пределах набора данных.

compute_target: Union[ComputeTarget, str]

Обязательно

Необязательный целевой объект вычислений для создания профиля моментальных снимков. Если он опущен, используется локальное вычисление.

create_data_snapshot: bool

Обязательно

При значении True будут созданы материализованные копии данных.

target_datastore: Union[AbstractAzureStorageDatastore, str]

Обязательно

Целевое хранилище данных для хранения моментального снимка. Если оно не задано, моментальный снимок будет создан в заданном по умолчанию хранилище рабочей области.

Возвращаемое значение

Объект моментального снимка набора данных.

Возвращаемый тип

DatasetSnapshot

В моментальные снимки записывается сводная статистика по базовым данным на определенный момент времени и необязательная копия самих данных. Дополнительные сведения о создании моментальных снимков см. по адресу https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Удаляет моментальный снимок набора данных по имени.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Параметры

snapshot_name: str

Обязательно

Имя моментального снимка.

Возвращаемое значение

Отсутствует.

Возвращаемый тип

None

deprecate

Обозначает активный набор данных в рабочей области как нерекомендуемый другим набором данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Параметры

deprecate_by_dataset_id: str

Обязательно

Идентификатор набора данных, который является предполагаемой заменой для этого набора данных.

Возвращаемое значение

Отсутствует.

Возвращаемый тип

None

При использовании нерекомендуемых наборов данных в журнал записываются предупреждения. Если набор данных обозначен как нерекомендуемый, нерекомендуемыми будут и все его определения.

Нерекомендуемые наборы данных по-прежнему можно использовать. Чтобы полностью заблокировать использование набора данных, его нужно заархивировать.

Если набор данных обозначен как нерекомендуемый случайно, он снова станет активным после повторной активации.

diff

Выполняет сравнение текущего набора данных с rhs_dataset с помощью инструмента сравнения.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Параметры

rhs_dataset: Dataset

Обязательно

Другой набор данных (также называемый "правосторонним") для сравнения

compute_target: Union[ComputeTarget, str]

Обязательно

Целевой объект вычислений для поиска различий. Если он не указан, используется локальное вычисление.

columns: list[str]

Обязательно

Список имен столбцов, включенный в инструмент сравнения.

Возвращаемое значение

Объект выполнения действия набора данных.

Возвращаемый тип

DatasetActionRun

from_binary_files

Создает незарегистрированный набор данных в памяти из двоичных файлов.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать Dataset.File.from_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Параметры

path: DataReference или str

Обязательно

Путь к данным в зарегистрированном хранилище данных или по локальному пути.

Возвращаемое значение

Объект набора данных.

Возвращаемый тип

Dataset

Этот метод используется для считывания файлов в виде потоков двоичных данных. Возвращает один объект потока файлов для каждой операции чтения файла. Используйте этот метод при считывании изображений, видео, аудио или других двоичных данных.

Для набора данных, созданного этим методом, get_profile и create_snapshot не будут работать должным образом.

Возвращенный набор данных не зарегистрирован в рабочей области.

from_delimited_files

Создает незарегистрированный набор данных в памяти из файлов с разделителями.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать Dataset.Tabular.from_delimited_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Параметры

path: DataReference или str

Обязательно

Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP.

separator: str

Обязательно

Разделитель, используемый для разделения столбцов.

header: PromoteHeadersBehavior

Обязательно

Управляет повышением уровня заголовков столбцов при чтении из файлов.

encoding: FileEncoding

Обязательно

Кодировка считываемых файлов.

quoting: bool

Обязательно

Указывает способ обработки символов новой строки в кавычках. Значение по умолчанию (False) — интерпретировать символы новой строки как начало новых строк независимо от того, взяты они в кавычки или нет. Если задано значение True, то символы новой строки в кавычках не будут приводить к созданию новых строк, а скорость считывания файла замедлится.

infer_column_types: bool

Обязательно

Указывает, выводятся ли типы данных столбца.

skip_rows: int

Обязательно

Количество строк, которое необходимо пропустить в считываемых файлах.

skip_mode: SkipLinesBehavior

Обязательно

Определяет, как пропускаются строки при считывании из файлов.

comment: str

Обязательно

Символ, используемый для обозначения строк комментариев в считываемых файлах. Строки, начинающиеся с этой строки, будут пропущены.

include_path: bool

Обязательно

Указывает, следует ли включать столбец, содержащий путь к файлу, из которого считываются данные. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.

archive_options: <xref:azureml.dataprep.ArchiveOptions>

Обязательно

Параметры для файла архива, включая тип архива и стандартную маску записи. В данный момент в качестве типа архива поддерживается только формат ZIP. Например, если указать


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

в ZIP-архиве будут считаны все файлы с именем, оканчивающихся на "10-20.csv".

partition_format: str

Обязательно

Возвращаемое значение

Объект набора данных.

Возвращаемый тип

Dataset

from_excel_files

Создает незарегистрированный набор данных в памяти из Excel-файлов.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Параметры

path: DataReference или str

Обязательно

Путь к данным в зарегистрированном хранилище данных или по локальному пути.

sheet_name: str

Обязательно

Имя загружаемого листа Excel. По умолчанию считывается первый лист из каждого файла Excel.

use_column_headers: bool

Обязательно

Указывает, следует ли использовать первую строку в качестве заголовков столбцов.

skip_rows: int

Обязательно

Количество строк, которое необходимо пропустить в считываемых файлах.

include_path: bool

Обязательно

infer_column_types: bool

Обязательно

Если значение равно true, типы данных столбцов будут выводиться.

partition_format: str

Обязательно

Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, при наличии пути к файлу "../Accounts/2019/01/01/data.xlsx", где данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени.

Возвращаемое значение

Объект набора данных.

Возвращаемый тип

Dataset

Используйте этот метод для считывания Excel-файлов в формате XLSX. Данные можно считывать с одного листа в каждом Excel-файле. После создания набора данных следует использовать get_profile, чтобы создать список обнаруженных типов столбцов и сводные статистические данные для каждого столбца. Возвращенный набор данных не зарегистрирован в рабочей области.

from_json_files

Создает незарегистрированный набор данных в памяти из файлов JSON.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать Dataset.Tabular.from_json_lines_files для считывания данных из файла строк JSON. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Параметры

path: DataReference или str

Обязательно

Путь к файлам или папкам, которые необходимо загрузить и проанализировать. Это может быть локальный путь или URL-адрес большого двоичного объекта Azure. Глобализации поддерживается. Например, можно использовать path = "./data*" для считывания всех файлов с именем, начинающимся с "data".

encoding: FileEncoding

Обязательно

Кодировка считываемых файлов.

flatten_nested_arrays: bool

Обязательно

Свойство, управляющее тем, как программа обрабатывает вложенные массивы. Если вы решили выполнить сведение вложенных массивов JSON, это может привести к значительному увеличению числа строк.

include_path: bool

Обязательно

Указывает, следует ли включать столбец, содержащий путь, по которому считываются данные. Это удобно, если при считывании нескольких файлов требуется возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.

partition_format: str

Обязательно

Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, если при наличии пути к файлу "../Accounts/2019/01/01/data.json", данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.json", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени.

Возвращаемое значение

Локальный объект набора данных.

Возвращаемый тип

Dataset

from_pandas_dataframe

Создайте незарегистрированный, набор данных в памяти из кадра данных Pandas.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Параметры

dataframe: DataFrame

Обязательно

Кадр данных Pandas.

path: Union[DataReference, str]

Обязательно

Путь к данным в зарегистрированном хранилище данных или путь к локальной папке.

in_memory: bool

Обязательно

Следует ли считывать кадр данных из памяти вместо хранения его на диске.

Возвращаемое значение

Объект набора данных.

Возвращаемый тип

Dataset

Используйте этот метод, чтобы преобразовать кадр данных Pandas в объект набора данных. Набор данных, созданный этим методом, нельзя зарегистрировать, так как данные поступают из памяти.

Если in_memory имеет значение False, кадр данных Pandas преобразуется локально в CSV-файл. Если pat имеет тип ссылки на данные, кадр данных Pandas будет отправлен в хранилище данных, а набор данных будет основан на ссылке на данные. Если ``path` является локальной папкой, то набор данных будет создан из локального файла, который не может быть удален.

Вызывает исключение, если текущая ссылка на данные не является путем к папке.

from_parquet_files

Создает незарегистрированный набор данных в памяти из файлов Parquet.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать Dataset.Tabular.from_parquet_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Параметры

path: DataReference или str

Обязательно

Путь к данным в зарегистрированном хранилище данных или по локальному пути.

include_path: bool

Обязательно

partition_format: str

Обязательно

Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, при наличии пути к файлу "../Accounts/2019/01/01/data.parquet", где данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени.

Возвращаемое значение

Объект набора данных.

Возвращаемый тип

Dataset

from_sql_query

Создает незарегистрированный набор данных в памяти из SQL-запроса.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать Dataset.Tabular.from_sql_query. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Параметры

data_source: AzureSqlDatabaseDatastore

Обязательно

Сведения о хранилище данных Azure SQL.

query: str

Обязательно

Запрос, выполняемый для считывания данных.

Возвращаемое значение

Локальный объект набора данных.

Возвращаемый тип

Dataset

generate_profile

Создает новый профиль для набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Параметры

compute_target: Union[ComputeTarget, str]

Обязательно

workspace: Workspace

Обязательно

Рабочая область, необходимая для временных (незарегистрированных) наборов данных.

arguments: dict[str, object]

Обязательно

Аргументы профиля. Допустимые аргументы:

"include_stype_counts" типа bool. Проверяет, похоже ли значение на значение какого-либо хорошо известного семантического типа, например адрес электронной почты, IP-адрес (V4/V6), номер телефона США, почтовый индекс США, широту или долготу. Активация этого аргумента влияет на производительность.
"number_of_histogram_bins" типа int. Представляет число интервалов гистограммы, используемых для числовых данных. Значение по умолчанию — 10.

Возвращаемое значение

Объект выполнения действия набора данных.

Возвращаемый тип

DatasetActionRun

get

Получает набор данных, уже существующий в рабочей области, указав его имя или идентификатор.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать get_by_name и get_by_id. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Параметры

workspace: Workspace

Обязательно

Существующая рабочая область AzureML, в которой был создан набор данных.

name: str

Обязательно

Имя извлекаемого набора данных.

id: str

Обязательно

Уникальный идентификатор набора данных в рабочей области.

Возвращаемое значение

Набор данных с указанным именем или идентификатором.

Возвращаемый тип

Dataset

get_all

Получает все зарегистрированные наборы данных в рабочей области.

get_all()

Параметры

workspace: Workspace

Обязательно

Существующая рабочая область AzureML, в которой зарегистрирован набор данных.

Возвращаемое значение

Словарь объектов TabularDataset и FileDataset, для которого в качестве ключа применяется имя регистрации.

Возвращаемый тип

dict[str, Union[TabularDataset, FileDataset]]

get_all_snapshots

Получает все моментальные снимки набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

get_all_snapshots()

Возвращаемое значение

Список моментальных снимков наборов данных.

Возвращаемый тип

list[DatasetSnapshot]

get_by_id

Получает набор данных, который сохраняется в рабочей области.

get_by_id(id, **kwargs)

Параметры

workspace: Workspace

Обязательно

Существующая рабочая область AzureML, в которой был сохранен набор данных.

id: str

Обязательно

Идентификатор набора данных.

Возвращаемое значение

Объект набора данных. Если набор данных зарегистрирован, будут также возвращены версия и имя регистрации.

Возвращаемый тип

Union[TabularDataset, FileDataset]

get_by_name

Получает из рабочей области зарегистрированный набор данных по его имени регистрации.

get_by_name(name, version='latest', **kwargs)

Параметры

workspace: Workspace

Обязательно

Существующая рабочая область AzureML, в которой был зарегистрирован набор данных.

name: str

Обязательно

Имя регистрации.

version: int

Обязательно

Версия регистрации. По умолчанию имеет значение latest.

Возвращаемое значение

Зарегистрированный объект набора данных.

Возвращаемый тип

Union[TabularDataset, FileDataset]

get_definition

Получает конкретное определение набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Параметры

version_id: str

Обязательно

Идентификатор версии определения набора данных

Возвращаемое значение

Определение набора данных.

Возвращаемый тип

DatasetDefinition

Если задано значение version_id, Машинное обучение Azure пытается получить определение, соответствующее этой версии. Если такая версия не существует, создается исключение. Если значение version_id не указано, извлекается последняя версия.

get_definitions

Получает все определения набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

get_definitions()

Возвращаемое значение

Словарь определений наборов данных.

Возвращаемый тип

dict[str, DatasetDefinition]

get_profile

Получает сводную статистику для набора данных, вычисленного ранее.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Параметры

arguments: dict[str, object]

Обязательно

Аргументы профиля.

generate_if_not_exist: bool

Обязательно

Указывает, следует ли создавать профиль, если его не существует.

workspace: Workspace

Обязательно

Рабочая область, необходимая для временных (незарегистрированных) наборов данных.

compute_target: Union[ComputeTarget, str]

Обязательно

Целевой объект вычислений для выполнения действия профиля.

Возвращаемое значение

Профиль данных для набора данных.

Возвращаемый тип

<xref:azureml.dataprep.DataProfile>

Для набора данных, зарегистрированного в рабочей области Машинного обучения Azure, этот метод извлекает существующий профиль, который был создан ранее, вызывая get_profile, если он все еще действителен. Профили становятся недействительными, если обнаружены измененные данные в наборе данных или если аргументы get_profile отличаются от тех, которые использовались при создании профиля. Если профиль отсутствует или становится недействительным, generate_if_not_exist определяет, будет ли создан новый профиль.

Для набора данных, не зарегистрированного в рабочей области Машинного обучения Azure, этот метод всегда запускает generate_profile и возвращает результат.

get_snapshot

Получает моментальный снимок набора данных по имени.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Параметры

snapshot_name: str

Обязательно

Имя моментального снимка.

Возвращаемое значение

Объект моментального снимка набора данных.

Возвращаемый тип

DatasetSnapshot

head

Извлекает указанное число записей, указанных для этого набора данных, и возвращение их в виде кадра данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

head(count)

Параметры

count: int

Обязательно

Количество получаемых записей.

Возвращаемое значение

Кадр данных Pandas.

Возвращаемый тип

DataFrame

list

Выводит список всех объектов наборов данных в рабочей области, включая объекты со свойством is_visible, равным False.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать get_all. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

static list(workspace)

Параметры

workspace: Workspace

Обязательно

Рабочая область, для которой необходимо получить список наборов данных.

Возвращаемое значение

Список объектов наборов данных.

Возвращаемый тип

list[Dataset]

reactivate

Повторно активирует архивный или нерекомендуемый набор данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

reactivate()

Возвращаемое значение

Отсутствует.

Возвращаемый тип

None

register

Регистрирует набор данных в рабочей области, сделав его доступным для других пользователей рабочей области.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Вместо него рекомендуется использовать register. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Параметры

workspace: Workspace

Обязательно

Рабочая область AzureML, в которой должен быть зарегистрирован набор данных.

name: str

Обязательно

Имя набора данных в рабочей области.

description: str

Обязательно

Описание набора данных.

tags: dict[str, str]

Обязательно

Теги для связывания с набором данных.

visible: bool

Обязательно

Указывает, виден ли набор данных в пользовательском интерфейсе. Если значение равно False, то набор данных скрыт в пользовательском интерфейсе и доступен через пакет SDK.

exist_ok: bool

Обязательно

Если значение равно True, метод возвращает набор данных, если он уже существует в данной рабочей области, или ошибку, если это не так.

update_if_exist: bool

Обязательно

Если exist_ok и update_if_exist имеют значение True, этот метод обновит определение и возвратит обновленный набор данных.

Возвращаемое значение

Зарегистрированный объект набора данных в рабочей области.

Возвращаемый тип

Dataset

sample

Создайте новую выборку из исходного набора данных, используя заданную стратегию и параметры выборки.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод take_sample. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Параметры

sample_strategy: str

Обязательно

Пример используемой стратегии. Допустимые значения: top_n, simple_random и stratified.

arguments: dict[str, object]

Обязательно

Словарь с ключами из раздела "Необязательные аргументы" в приведенном выше списке и значениями из столбца "Тип". Можно использовать только аргументы из соответствующего метода выборки. Например, для типа выборки simple_random можно указать только словарь с ключами probability и seed.

Возвращаемое значение

Объект набора данных в качестве выборки для исходного набора данных.

Возвращаемый тип

Dataset

Примеры создаются путем выполнения конвейера преобразования, определенного этим набором данных с последующим применением стратегии выборки и параметров к выходным данным. Каждый метод выборки поддерживает следующие необязательные аргументы:

top_n
- Необязательные аргументы
  - n, тип integer. Выберите первые N строк в качестве выборки.
simple_random
- Необязательные аргументы
  - probability, тип float. Простая случайная выборка, в которой выбор всех строк равновероятен. Вероятность должна быть числом от 0 до 1.
  - seed, тип float. Используется генератором случайных чисел. Используется для повторяемости.
stratified
- Необязательные аргументы
  - columns, тип list[str]. Список столбцов strata в данных.
  - seed, тип float. Используется генератором случайных чисел. Используется для повторяемости.
  - fractions, тип dict[tuple, float]. Кортеж: значения столбцов, определяющие stratum, должны быть указаны в том же порядке, что и имена столбцов. Число с плавающей точкой: весовой коэффициент, присоединенный к stratum во время выборки.

Следующие фрагменты кода служат примерами конструктивных шаблонов для различных методов выборки.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Создает кадр данных Pandas, выполнив конвейер преобразования, заданный этим определением набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод to_pandas_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Возвращаемое значение

Кадр данных Pandas.

Возвращаемый тип

DataFrame

to_spark_dataframe

Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим определением набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод to_spark_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Возвращаемое значение

Кадр данных Spark.

Возвращаемый тип

DataFrame

update

Обновляет изменяемые атрибуты набора данных в рабочей области и возвращает обновленный набор данных из рабочей области.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Параметры

name: str

Обязательно

Имя набора данных в рабочей области.

description: str

Обязательно

Описание данных.

tags: dict[str, str]

Обязательно

Теги для связывания с набором данных.

visible: bool

Обязательно

Указывает, виден ли набор данных в пользовательском интерфейсе.

Возвращаемое значение

Обновленный объект набора данных из рабочей области.

Возвращаемый тип

Dataset

update_definition

Обновляет определение набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Параметры

definition: DatasetDefinition

Обязательно

Новое определение этого набора данных.

definition_update_message: str

Обязательно

Сообщение об обновлении определения.

Возвращаемое значение

Обновленный объект набора данных из рабочей области.

Возвращаемый тип

Dataset

Атрибуты

definition

Возвращает текущее определение набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Возвращаемое значение

Определение набора данных.

Возвращаемый тип

DatasetDefinition

Набор данных, зарегистрированный в рабочей области AzureML, может иметь несколько определений, каждое из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Наличие нескольких определений позволяет вносить изменения в существующие наборы данных без нарушения работы моделей и конвейеров, зависящих от старого определения.

Для незарегистрированных наборов данных существует только одно определение.

definition_version

Возвращает версию текущего определения набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Возвращаемое значение

Версия определения набора данных.

Возвращаемый тип

str

Набор данных, зарегистрированный в рабочей области AzureML, может иметь несколько определений, каждое из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение — это последнее созданное определение, идентификатор которого возвращается этим объектом.

Для незарегистрированных наборов данных существует только одно определение.

description

Возвращает описание набора данных.

Возвращаемое значение

Описание набора данных.

Возвращаемый тип

str

id

Если набор данных зарегистрирован в рабочей области, возвращается идентификатор этого набора данных. В противном случае возвращается значение None (Нет).

Возвращаемое значение

Идентификатор набора данных.

Возвращаемый тип

str

is_visible

Управляет видимостью зарегистрированного набора данных в пользовательском интерфейсе рабочей области Azure ML.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Возвращаемое значение

Видимость набора данных.

Возвращаемый тип

bool

name

Возвращает имя набора данных.

Возвращаемое значение

Имя набора данных.

Возвращаемый тип

str

state

Возвращает состояние набора данных.

Примечание

Это устаревший метод, который больше не будет поддерживаться.

Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Возвращаемое значение

Состояние набора данных.

Возвращаемый тип

str

Активная. Активные определения (как предполагает само их название) — это такие определения, с которыми могут выполняться любые действия.
Не рекомендуется. Нерекомендуемое определение можно использовать, но при каждом обращении к базовым данным в журналы будет заноситься предупреждение.
Архивировано. Заархивированное определение нельзя использовать для выполнения каких бы то ни было действий. Для выполнения действий с архивным определением его необходимо активировать повторно.

workspace

Если набор данных зарегистрирован в рабочей области, возвращает ее. В противном случае возвращается значение None (Нет).

Возвращаемое значение

Рабочая область.

Возвращаемый тип

Workspace

Tabular

Фабрика для создания FileDataset

псевдоним TabularDatasetFactory

Поделиться через

Dataset Класс

Конструктор

Параметры

Комментарии

Переменные

Методы

archive

Возвращаемое значение

Возвращаемый тип

Комментарии

auto_read_files

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

compare_profiles

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

create_snapshot

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

delete_snapshot

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

deprecate

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

diff

Параметры

Возвращаемое значение

Возвращаемый тип

from_binary_files

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

from_delimited_files

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

from_excel_files

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

from_json_files

Параметры

Возвращаемое значение

Возвращаемый тип

from_pandas_dataframe

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

from_parquet_files

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

from_sql_query

Параметры

Возвращаемое значение

Возвращаемый тип

generate_profile

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

get

Параметры