Dataset Класс
Представляет ресурс для изучения, преобразования и администрирования данных в Машинном обучении Azure.
Набор данных — это ссылка на данные в Datastore или в расположениях по общедоступным URL-адресам.
Улучшенные интерфейсы API для нерекомендуемых методов в этом классе см. в описании класса AbstractDataset.
Поддерживаются следующие типы наборов данных:
TabularDataset представляет в табличном формате данные, созданные путем синтаксического анализа указанного файла или списка файлов.
FileDataset ссылается на один или несколько файлов, размещенных в хранилищах данных или по общедоступным URL-адресам.
Чтобы приступить к работе с наборами данных, см. статью Добавление & регистрировать наборы данных или записные книжки https://aka.ms/tabulardataset-samplenotebook и https://aka.ms/filedataset-samplenotebook.
Инициализируйте объект Dataset.
Чтобы получить набор данных, который уже зарегистрирован в рабочей области, используйте метод get.
- Наследование
-
builtins.objectDataset
Конструктор
Dataset(definition, workspace=None, name=None, id=None)
Параметры
Имя | Описание |
---|---|
definition
Обязательно
|
<xref:azureml.data.DatasetDefinition>
Определение набора данных. |
workspace
Обязательно
|
Рабочая область, в которой существует набор данных. |
name
Обязательно
|
Имя набора данных. |
id
Обязательно
|
Уникальный идентификатор набора данных. |
Комментарии
Класс Dataset предоставляет два удобных атрибута класса (File
и Tabular
), которые можно использовать для создания набора данных без работы с соответствующими методами фабрики. Например, для создания набора данных с использованием следующих атрибутов:
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
Можно также создать новые TabularDataset или FileDataset, напрямую вызвав соответствующие фабричные методы класса, определенного в TabularDatasetFactory и FileDatasetFactory.
В следующем примере показано, как создать TabularDataset, указывающий на один путь в хранилище данных.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Полный пример можно найти по адресу: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb.
Переменные
Имя | Описание |
---|---|
azureml.core.Dataset.File
|
Атрибут класса, предоставляющий доступ к методам FileDatasetFactory для создания новых объектов FileDataset. Использование: Dataset.File.from_files(). |
azureml.core.Dataset.Tabular
|
Атрибут класса, предоставляющий доступ к методам TabularDatasetFactory для создания новых объектов TabularDataset. Использование: Dataset.Tabular.from_delimited_files(). |
Методы
archive |
Архивирует активный или нерекомендуемый набор данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
auto_read_files |
Анализирует файлы по указанному пути и возвращает новый набор данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для чтения файлов рекомендуется использовать методы Dataset.Tabular.from_*. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
compare_profiles |
Сравнивает профиль текущего набора данных с другим профилем набора данных. Это показывает различия между двумя наборами данных в сводной статистике. Параметр "rhs_dataset" означает "правосторонний" и просто указывает на то, что это второй набор данных. Первый набор данных (текущий объект набора данных) считается "левосторонним". Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
create_snapshot |
Создает моментальный снимок зарегистрированного набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
delete_snapshot |
Удаляет моментальный снимок набора данных по имени. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
deprecate |
Обозначает активный набор данных в рабочей области как нерекомендуемый другим набором данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
diff |
Выполняет сравнение текущего набора данных с rhs_dataset с помощью инструмента сравнения. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
from_binary_files |
Создает незарегистрированный набор данных в памяти из двоичных файлов. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.File.from_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
from_delimited_files |
Создает незарегистрированный набор данных в памяти из файлов с разделителями. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.from_delimited_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
|
from_excel_files |
Создает незарегистрированный набор данных в памяти из Excel-файлов. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
from_json_files |
Создает незарегистрированный набор данных в памяти из файлов JSON. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.from_json_lines_files для считывания данных из файла строк JSON. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Создайте незарегистрированный, набор данных в памяти из кадра данных Pandas. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
from_parquet_files |
Создает незарегистрированный набор данных в памяти из файлов Parquet. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.from_parquet_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
from_sql_query |
Создает незарегистрированный набор данных в памяти из SQL-запроса. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать Dataset.Tabular.from_sql_query. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
generate_profile |
Создает новый профиль для набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
get |
Получает набор данных, уже существующий в рабочей области, указав его имя или идентификатор. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать get_by_name и get_by_id. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
get_all |
Получает все зарегистрированные наборы данных в рабочей области. |
get_all_snapshots |
Получает все моментальные снимки набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
get_by_id |
Получает набор данных, который сохраняется в рабочей области. |
get_by_name |
Получает из рабочей области зарегистрированный набор данных по его имени регистрации. |
get_definition |
Получает конкретное определение набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
get_definitions |
Получает все определения набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
get_profile |
Получает сводную статистику для набора данных, вычисленного ранее. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
get_snapshot |
Получает моментальный снимок набора данных по имени. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
head |
Извлекает указанное число записей, указанных для этого набора данных, и возвращение их в виде кадра данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
list |
Выводит список всех объектов наборов данных в рабочей области, включая объекты со свойством Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать get_all. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
reactivate |
Повторно активирует архивный или нерекомендуемый набор данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
register |
Регистрирует набор данных в рабочей области, сделав его доступным для других пользователей рабочей области. Примечание Это устаревший метод, который больше не будет поддерживаться. Вместо него рекомендуется использовать register. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
sample |
Создайте новую выборку из исходного набора данных, используя заданную стратегию и параметры выборки. Примечание Это устаревший метод, который больше не будет поддерживаться. Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод take_sample. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Создает кадр данных Pandas, выполнив конвейер преобразования, заданный этим определением набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод to_pandas_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим определением набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод to_spark_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
update |
Обновляет изменяемые атрибуты набора данных в рабочей области и возвращает обновленный набор данных из рабочей области. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
update_definition |
Обновляет определение набора данных. Примечание Это устаревший метод, который больше не будет поддерживаться. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
archive
Архивирует активный или нерекомендуемый набор данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
archive()
Возвращаемое значение
Тип | Описание |
---|---|
Отсутствует. |
Комментарии
После архивации любая попытка использовать набор данных приведет к ошибке. Если архивация выполнена случайно, набор данных снова станет активным после повторной активации.
auto_read_files
Анализирует файлы по указанному пути и возвращает новый набор данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для чтения файлов рекомендуется использовать методы Dataset.Tabular.from_*. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP (CSV/TSV). |
include_path
Обязательно
|
Указывает, следует ли включать столбец, содержащий путь к файлу, из которого считываются данные. Удобно, если при считывании нескольких файлов необходимо указать, из какого файла поступила определенная запись. Также полезно, если в столбце должна содержатся информация, указанная в пути или имени файла. |
partition_format
Обязательно
|
Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, при наличии пути к файлу "../Accounts/2019/01/01/data.csv", где данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод, если форматы файлов и разделители должны обнаруживаться автоматически.
После создания набора данных следует использовать get_profile, чтобы создать список обнаруженных типов столбцов и сводные статистические данные для каждого столбца.
Возвращенный набор данных не зарегистрирован в рабочей области.
compare_profiles
Сравнивает профиль текущего набора данных с другим профилем набора данных.
Это показывает различия между двумя наборами данных в сводной статистике. Параметр "rhs_dataset" означает "правосторонний" и просто указывает на то, что это второй набор данных. Первый набор данных (текущий объект набора данных) считается "левосторонним".
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Параметры
Имя | Описание |
---|---|
rhs_dataset
Обязательно
|
Второй набор данных (также называемый "правосторонним") для сравнения. |
profile_arguments
Обязательно
|
Аргументы для извлечения конкретного профиля. |
include_columns
Обязательно
|
Список имен столбцов, учитываемых при сравнении. |
exclude_columns
Обязательно
|
Список имен столбцов, исключаемых при сравнении. |
histogram_compare_method
Обязательно
|
Перечисление, описывающее метод сравнения, например Wasserstein или Energy. |
Возвращаемое значение
Тип | Описание |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Разница между двумя профилями наборов данных. |
Комментарии
Применимо только к зарегистрированным наборам данных. Вызывает исключение, если текущий профиль набора данных не существует. Для незарегистрированных наборов данных используется метод profile.compare.
create_snapshot
Создает моментальный снимок зарегистрированного набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Параметры
Имя | Описание |
---|---|
snapshot_name
Обязательно
|
Имя моментального снимка. Имена моментальных снимков должны быть уникальными в пределах набора данных. |
compute_target
Обязательно
|
Необязательный целевой объект вычислений для создания профиля моментальных снимков. Если он опущен, используется локальное вычисление. |
create_data_snapshot
Обязательно
|
При значении True будут созданы материализованные копии данных. |
target_datastore
Обязательно
|
Целевое хранилище данных для хранения моментального снимка. Если оно не задано, моментальный снимок будет создан в заданном по умолчанию хранилище рабочей области. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект моментального снимка набора данных. |
Комментарии
В моментальные снимки записывается сводная статистика по базовым данным на определенный момент времени и необязательная копия самих данных. Дополнительные сведения о создании моментальных снимков см. по адресу https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Удаляет моментальный снимок набора данных по имени.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Параметры
Имя | Описание |
---|---|
snapshot_name
Обязательно
|
Имя моментального снимка. |
Возвращаемое значение
Тип | Описание |
---|---|
Отсутствует. |
Комментарии
Используйте его, чтобы освободить хранилище, занятое данными, хранящимися в уже ненужных моментальных снимках.
deprecate
Обозначает активный набор данных в рабочей области как нерекомендуемый другим набором данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Параметры
Имя | Описание |
---|---|
deprecate_by_dataset_id
Обязательно
|
Идентификатор набора данных, который является предполагаемой заменой для этого набора данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Отсутствует. |
Комментарии
При использовании нерекомендуемых наборов данных в журнал записываются предупреждения. Если набор данных обозначен как нерекомендуемый, нерекомендуемыми будут и все его определения.
Нерекомендуемые наборы данных по-прежнему можно использовать. Чтобы полностью заблокировать использование набора данных, его нужно заархивировать.
Если набор данных обозначен как нерекомендуемый случайно, он снова станет активным после повторной активации.
diff
Выполняет сравнение текущего набора данных с rhs_dataset с помощью инструмента сравнения.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Параметры
Имя | Описание |
---|---|
rhs_dataset
Обязательно
|
Другой набор данных (также называемый "правосторонним") для сравнения |
compute_target
Обязательно
|
Целевой объект вычислений для поиска различий. Если он не указан, используется локальное вычисление. |
columns
Обязательно
|
Список имен столбцов, включенный в инструмент сравнения. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект выполнения действия набора данных. |
from_binary_files
Создает незарегистрированный набор данных в памяти из двоичных файлов.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать Dataset.File.from_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных или по локальному пути. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Этот метод используется для считывания файлов в виде потоков двоичных данных. Возвращает один объект потока файлов для каждой операции чтения файла. Используйте этот метод при считывании изображений, видео, аудио или других двоичных данных.
Для набора данных, созданного этим методом, get_profile и create_snapshot не будут работать должным образом.
Возвращенный набор данных не зарегистрирован в рабочей области.
from_delimited_files
Создает незарегистрированный набор данных в памяти из файлов с разделителями.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать Dataset.Tabular.from_delimited_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP. |
separator
Обязательно
|
Разделитель, используемый для разделения столбцов. |
header
Обязательно
|
Управляет повышением уровня заголовков столбцов при чтении из файлов. |
encoding
Обязательно
|
Кодировка считываемых файлов. |
quoting
Обязательно
|
Указывает способ обработки символов новой строки в кавычках. Значение по умолчанию (False) — интерпретировать символы новой строки как начало новых строк независимо от того, взяты они в кавычки или нет. Если задано значение True, то символы новой строки в кавычках не будут приводить к созданию новых строк, а скорость считывания файла замедлится. |
infer_column_types
Обязательно
|
Указывает, выводятся ли типы данных столбца. |
skip_rows
Обязательно
|
Количество строк, которое необходимо пропустить в считываемых файлах. |
skip_mode
Обязательно
|
Определяет, как пропускаются строки при считывании из файлов. |
comment
Обязательно
|
Символ, используемый для обозначения строк комментариев в считываемых файлах. Строки, начинающиеся с этой строки, будут пропущены. |
include_path
Обязательно
|
Указывает, следует ли включать столбец, содержащий путь к файлу, из которого считываются данные. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу. |
archive_options
Обязательно
|
<xref:azureml.dataprep.ArchiveOptions>
Параметры для файла архива, включая тип архива и стандартную маску записи. В данный момент в качестве типа архива поддерживается только формат ZIP. Например, если указать
в ZIP-архиве будут считаны все файлы с именем, оканчивающихся на "10-20.csv". |
partition_format
Обязательно
|
Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, при наличии пути к файлу "../Accounts/2019/01/01/data.csv", где данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод для считывания текстовых файлов с разделителями, если требуется управлять используемыми параметрами.
После создания набора данных следует использовать get_profile, чтобы создать список обнаруженных типов столбцов и сводные статистические данные для каждого столбца.
Возвращенный набор данных не зарегистрирован в рабочей области.
from_excel_files
Создает незарегистрированный набор данных в памяти из Excel-файлов.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных или по локальному пути. |
sheet_name
Обязательно
|
Имя загружаемого листа Excel. По умолчанию считывается первый лист из каждого файла Excel. |
use_column_headers
Обязательно
|
Указывает, следует ли использовать первую строку в качестве заголовков столбцов. |
skip_rows
Обязательно
|
Количество строк, которое необходимо пропустить в считываемых файлах. |
include_path
Обязательно
|
Указывает, следует ли включать столбец, содержащий путь к файлу, из которого считываются данные. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу. |
infer_column_types
Обязательно
|
Если значение равно true, типы данных столбцов будут выводиться. |
partition_format
Обязательно
|
Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, при наличии пути к файлу "../Accounts/2019/01/01/data.xlsx", где данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод для считывания Excel-файлов в формате XLSX. Данные можно считывать с одного листа в каждом Excel-файле. После создания набора данных следует использовать get_profile, чтобы создать список обнаруженных типов столбцов и сводные статистические данные для каждого столбца. Возвращенный набор данных не зарегистрирован в рабочей области.
from_json_files
Создает незарегистрированный набор данных в памяти из файлов JSON.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать Dataset.Tabular.from_json_lines_files для считывания данных из файла строк JSON. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к файлам или папкам, которые необходимо загрузить и проанализировать. Это может быть локальный путь или URL-адрес большого двоичного объекта Azure. Глобализации поддерживается. Например, можно использовать path = "./data*" для считывания всех файлов с именем, начинающимся с "data". |
encoding
Обязательно
|
Кодировка считываемых файлов. |
flatten_nested_arrays
Обязательно
|
Свойство, управляющее тем, как программа обрабатывает вложенные массивы. Если вы решили выполнить сведение вложенных массивов JSON, это может привести к значительному увеличению числа строк. |
include_path
Обязательно
|
Указывает, следует ли включать столбец, содержащий путь, по которому считываются данные. Это удобно, если при считывании нескольких файлов требуется возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу. |
partition_format
Обязательно
|
Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, если при наличии пути к файлу "../Accounts/2019/01/01/data.json", данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.json", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени. |
Возвращаемое значение
Тип | Описание |
---|---|
Локальный объект набора данных. |
from_pandas_dataframe
Создайте незарегистрированный, набор данных в памяти из кадра данных Pandas.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Параметры
Имя | Описание |
---|---|
dataframe
Обязательно
|
Кадр данных Pandas. |
path
Обязательно
|
Путь к данным в зарегистрированном хранилище данных или путь к локальной папке. |
in_memory
Обязательно
|
Следует ли считывать кадр данных из памяти вместо хранения его на диске. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод, чтобы преобразовать кадр данных Pandas в объект набора данных. Набор данных, созданный этим методом, нельзя зарегистрировать, так как данные поступают из памяти.
Если in_memory
имеет значение False, кадр данных Pandas преобразуется локально в CSV-файл. Если pat
имеет тип ссылки на данные, кадр данных Pandas будет отправлен в хранилище данных, а набор данных будет основан на ссылке на данные. Если ``path` является локальной папкой, то набор данных будет создан из локального файла, который не может быть удален.
Вызывает исключение, если текущая ссылка на данные не является путем к папке.
from_parquet_files
Создает незарегистрированный набор данных в памяти из файлов Parquet.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать Dataset.Tabular.from_parquet_files. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных или по локальному пути. |
include_path
Обязательно
|
Указывает, следует ли включать столбец, содержащий путь к файлу, из которого считываются данные. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу. |
partition_format
Обязательно
|
Задает формат раздела в пути и создает строковые столбцы на основе формата {x} и столбец даты и времени на основе формата {x:yyyy/MM/dd/HH/mm/ss}, где "yyyy", "MM", "dd", "HH", "mm" и "ss" используются для получения года, месяца, дня, часа, минуты и секунды для типа даты и времени. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, при наличии пути к файлу "../Accounts/2019/01/01/data.parquet", где данные разделены по имени отдела и времени, можно определить"/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet", чтобы создать столбцы Department строкового типа и PartitionDate типа даты и времени. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод для считывания файлов Parquet.
После создания набора данных следует использовать get_profile, чтобы создать список обнаруженных типов столбцов и сводные статистические данные для каждого столбца.
Возвращенный набор данных не зарегистрирован в рабочей области.
from_sql_query
Создает незарегистрированный набор данных в памяти из SQL-запроса.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать Dataset.Tabular.from_sql_query. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Параметры
Имя | Описание |
---|---|
data_source
Обязательно
|
Сведения о хранилище данных Azure SQL. |
query
Обязательно
|
Запрос, выполняемый для считывания данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Локальный объект набора данных. |
generate_profile
Создает новый профиль для набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Параметры
Имя | Описание |
---|---|
compute_target
Обязательно
|
Необязательный целевой объект вычислений для создания профиля моментальных снимков. Если он опущен, используется локальное вычисление. |
workspace
Обязательно
|
Рабочая область, необходимая для временных (незарегистрированных) наборов данных. |
arguments
Обязательно
|
Аргументы профиля. Допустимые аргументы:
|
Возвращаемое значение
Тип | Описание |
---|---|
Объект выполнения действия набора данных. |
Комментарии
Синхронный вызов, приводящий к блокировке до завершения. Чтобы получить результат действия, вызовите get_result.
get
Получает набор данных, уже существующий в рабочей области, указав его имя или идентификатор.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать get_by_name и get_by_id. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой был создан набор данных. |
name
Обязательно
|
Имя извлекаемого набора данных. |
id
Обязательно
|
Уникальный идентификатор набора данных в рабочей области. |
Возвращаемое значение
Тип | Описание |
---|---|
Набор данных с указанным именем или идентификатором. |
Комментарии
Вы указываете name
либо id
. Исключение выдается, если:
значения
name
иid
указаны, но не совпадают;в рабочей области не удается найти набор данных с указанным значением
name
илиid
.
get_all
Получает все зарегистрированные наборы данных в рабочей области.
get_all()
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой зарегистрирован набор данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Словарь объектов TabularDataset и FileDataset, для которого в качестве ключа применяется имя регистрации. |
get_all_snapshots
Получает все моментальные снимки набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_all_snapshots()
Возвращаемое значение
Тип | Описание |
---|---|
Список моментальных снимков наборов данных. |
get_by_id
Получает набор данных, который сохраняется в рабочей области.
get_by_id(id, **kwargs)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой был сохранен набор данных. |
id
Обязательно
|
Идентификатор набора данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. Если набор данных зарегистрирован, будут также возвращены версия и имя регистрации. |
get_by_name
Получает из рабочей области зарегистрированный набор данных по его имени регистрации.
get_by_name(name, version='latest', **kwargs)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой был зарегистрирован набор данных. |
name
Обязательно
|
Имя регистрации. |
version
Обязательно
|
Версия регистрации. По умолчанию имеет значение latest. |
Возвращаемое значение
Тип | Описание |
---|---|
Зарегистрированный объект набора данных. |
get_definition
Получает конкретное определение набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Параметры
Имя | Описание |
---|---|
version_id
Обязательно
|
Идентификатор версии определения набора данных |
Возвращаемое значение
Тип | Описание |
---|---|
Определение набора данных. |
Комментарии
Если задано значение version_id
, Машинное обучение Azure пытается получить определение, соответствующее этой версии. Если такая версия не существует, создается исключение.
Если значение version_id
не указано, извлекается последняя версия.
get_definitions
Получает все определения набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_definitions()
Возвращаемое значение
Тип | Описание |
---|---|
Словарь определений наборов данных. |
Комментарии
Набор данных, зарегистрированный в рабочей области AzureML, может иметь несколько определений, каждое из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным.
Для незарегистрированных наборов данных существует только одно определение.
get_profile
Получает сводную статистику для набора данных, вычисленного ранее.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Параметры
Имя | Описание |
---|---|
arguments
Обязательно
|
Аргументы профиля. |
generate_if_not_exist
Обязательно
|
Указывает, следует ли создавать профиль, если его не существует. |
workspace
Обязательно
|
Рабочая область, необходимая для временных (незарегистрированных) наборов данных. |
compute_target
Обязательно
|
Целевой объект вычислений для выполнения действия профиля. |
Возвращаемое значение
Тип | Описание |
---|---|
<xref:azureml.dataprep.DataProfile>
|
Профиль данных для набора данных. |
Комментарии
Для набора данных, зарегистрированного в рабочей области Машинного обучения Azure, этот метод извлекает существующий профиль, который был создан ранее, вызывая get_profile
, если он все еще действителен. Профили становятся недействительными, если обнаружены измененные данные в наборе данных или если аргументы get_profile
отличаются от тех, которые использовались при создании профиля. Если профиль отсутствует или становится недействительным, generate_if_not_exist
определяет, будет ли создан новый профиль.
Для набора данных, не зарегистрированного в рабочей области Машинного обучения Azure, этот метод всегда запускает generate_profile и возвращает результат.
get_snapshot
Получает моментальный снимок набора данных по имени.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Параметры
Имя | Описание |
---|---|
snapshot_name
Обязательно
|
Имя моментального снимка. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект моментального снимка набора данных. |
head
Извлекает указанное число записей, указанных для этого набора данных, и возвращение их в виде кадра данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
head(count)
Параметры
Имя | Описание |
---|---|
count
Обязательно
|
Количество получаемых записей. |
Возвращаемое значение
Тип | Описание |
---|---|
Кадр данных Pandas. |
list
Выводит список всех объектов наборов данных в рабочей области, включая объекты со свойством is_visible
, равным False.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать get_all. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
static list(workspace)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Рабочая область, для которой необходимо получить список наборов данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Список объектов наборов данных. |
reactivate
Повторно активирует архивный или нерекомендуемый набор данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
reactivate()
Возвращаемое значение
Тип | Описание |
---|---|
Отсутствует. |
register
Регистрирует набор данных в рабочей области, сделав его доступным для других пользователей рабочей области.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Вместо него рекомендуется использовать register. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Рабочая область AzureML, в которой должен быть зарегистрирован набор данных. |
name
Обязательно
|
Имя набора данных в рабочей области. |
description
Обязательно
|
Описание набора данных. |
tags
Обязательно
|
Теги для связывания с набором данных. |
visible
Обязательно
|
Указывает, виден ли набор данных в пользовательском интерфейсе. Если значение равно False, то набор данных скрыт в пользовательском интерфейсе и доступен через пакет SDK. |
exist_ok
Обязательно
|
Если значение равно True, метод возвращает набор данных, если он уже существует в данной рабочей области, или ошибку, если это не так. |
update_if_exist
Обязательно
|
Если |
Возвращаемое значение
Тип | Описание |
---|---|
Зарегистрированный объект набора данных в рабочей области. |
sample
Создайте новую выборку из исходного набора данных, используя заданную стратегию и параметры выборки.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод take_sample. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Параметры
Имя | Описание |
---|---|
sample_strategy
Обязательно
|
Пример используемой стратегии. Допустимые значения: top_n, simple_random и stratified. |
arguments
Обязательно
|
Словарь с ключами из раздела "Необязательные аргументы" в приведенном выше списке и значениями из столбца "Тип". Можно использовать только аргументы из соответствующего метода выборки. Например, для типа выборки simple_random можно указать только словарь с ключами probability и seed. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных в качестве выборки для исходного набора данных. |
Комментарии
Примеры создаются путем выполнения конвейера преобразования, определенного этим набором данных с последующим применением стратегии выборки и параметров к выходным данным. Каждый метод выборки поддерживает следующие необязательные аргументы:
top_n
Необязательные аргументы
- n, тип integer. Выберите первые N строк в качестве выборки.
simple_random
Необязательные аргументы
probability, тип float. Простая случайная выборка, в которой выбор всех строк равновероятен. Вероятность должна быть числом от 0 до 1.
seed, тип float. Используется генератором случайных чисел. Используется для повторяемости.
stratified
Необязательные аргументы
columns, тип list[str]. Список столбцов strata в данных.
seed, тип float. Используется генератором случайных чисел. Используется для повторяемости.
fractions, тип dict[tuple, float]. Кортеж: значения столбцов, определяющие stratum, должны быть указаны в том же порядке, что и имена столбцов. Число с плавающей точкой: весовой коэффициент, присоединенный к stratum во время выборки.
Следующие фрагменты кода служат примерами конструктивных шаблонов для различных методов выборки.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Создает кадр данных Pandas, выполнив конвейер преобразования, заданный этим определением набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод to_pandas_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Возвращаемое значение
Тип | Описание |
---|---|
Кадр данных Pandas. |
Комментарии
Возвращает полностью материализованный в памяти кадр данных Pandas.
to_spark_dataframe
Создает кадр данных Spark, который может выполнять конвейер преобразования, заданный этим определением набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Создает TabularDataset, вызывая статические методы для Dataset.Tabular и используя метод to_spark_dataframe. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Возвращаемое значение
Тип | Описание |
---|---|
Кадр данных Spark. |
Комментарии
Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как кадры данных Spark оцениваются неактивно.
update
Обновляет изменяемые атрибуты набора данных в рабочей области и возвращает обновленный набор данных из рабочей области.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Параметры
Имя | Описание |
---|---|
name
Обязательно
|
Имя набора данных в рабочей области. |
description
Обязательно
|
Описание данных. |
tags
Обязательно
|
Теги для связывания с набором данных. |
visible
Обязательно
|
Указывает, виден ли набор данных в пользовательском интерфейсе. |
Возвращаемое значение
Тип | Описание |
---|---|
Обновленный объект набора данных из рабочей области. |
update_definition
Обновляет определение набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Параметры
Имя | Описание |
---|---|
definition
Обязательно
|
Новое определение этого набора данных. |
definition_update_message
Обязательно
|
Сообщение об обновлении определения. |
Возвращаемое значение
Тип | Описание |
---|---|
Обновленный объект набора данных из рабочей области. |
Комментарии
Чтобы использовать обновленный набор данных, используйте объект, возвращаемый этим методом.
Атрибуты
definition
Возвращает текущее определение набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
Возвращаемое значение
Тип | Описание |
---|---|
Определение набора данных. |
Комментарии
Определение набора данных — это последовательность шагов, которые определяют способ считывания и преобразования данных.
Набор данных, зарегистрированный в рабочей области AzureML, может иметь несколько определений, каждое из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Наличие нескольких определений позволяет вносить изменения в существующие наборы данных без нарушения работы моделей и конвейеров, зависящих от старого определения.
Для незарегистрированных наборов данных существует только одно определение.
definition_version
Возвращает версию текущего определения набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
Возвращаемое значение
Тип | Описание |
---|---|
Версия определения набора данных. |
Комментарии
Определение набора данных — это последовательность шагов, которые определяют способ считывания и преобразования данных.
Набор данных, зарегистрированный в рабочей области AzureML, может иметь несколько определений, каждое из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение — это последнее созданное определение, идентификатор которого возвращается этим объектом.
Для незарегистрированных наборов данных существует только одно определение.
description
Возвращает описание набора данных.
Возвращаемое значение
Тип | Описание |
---|---|
Описание набора данных. |
Комментарии
Описание данных в наборе данных, позволяет пользователям рабочей области понять, что представляют собой данные, и как они могут их использовать.
id
Если набор данных зарегистрирован в рабочей области, возвращается идентификатор этого набора данных. В противном случае возвращается значение None (Нет).
Возвращаемое значение
Тип | Описание |
---|---|
Идентификатор набора данных. |
is_visible
Управляет видимостью зарегистрированного набора данных в пользовательском интерфейсе рабочей области Azure ML.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
Возвращаемое значение
Тип | Описание |
---|---|
Видимость набора данных. |
Комментарии
Возвращаемые значения:
True: набор данных отображается в пользовательском интерфейсе рабочей области. По умолчанию.
False: набор данных скрыт в пользовательском интерфейсе рабочей области.
Не влияет на незарегистрированные наборы данных.
name
state
Возвращает состояние набора данных.
Примечание
Это устаревший метод, который больше не будет поддерживаться.
Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
Возвращаемое значение
Тип | Описание |
---|---|
Состояние набора данных. |
Комментарии
Ниже приведены значения и воздействия состояний.
Активная. Активные определения (как предполагает само их название) — это такие определения, с которыми могут выполняться любые действия.
Не рекомендуется. Нерекомендуемое определение можно использовать, но при каждом обращении к базовым данным в журналы будет заноситься предупреждение.
Архивировано. Заархивированное определение нельзя использовать для выполнения каких бы то ни было действий. Для выполнения действий с архивным определением его необходимо активировать повторно.
tags
Возвращает теги, связанные с набором данных.
Возвращаемое значение
Тип | Описание |
---|---|
Теги набора данных. |
workspace
Если набор данных зарегистрирован в рабочей области, возвращает ее. В противном случае возвращается значение None (Нет).
Возвращаемое значение
Тип | Описание |
---|---|
Рабочая область. |
Tabular
Фабрика для создания FileDataset
псевдоним TabularDatasetFactory