Распаковка сжатых наборов данных

Распаковать наборы данных из ZIP-пакета в хранилище пользователя

Категория: входные и выходные данные

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль распаковки наборов данных для распаковаться в Машинное обучение Studio (классическая модель) для передачи файлов с данными и файлами скриптов в сжатом формате, а затем распакуйте их для использования в эксперименте.

Цель этого модуля — уменьшить время передачи данных при работе с очень большими наборами, сохранив и отгружая файлы данных в сжатом формате. Обычно сжатые файлы являются хорошим вариантом, если набор данных настолько велик, что вы хотите использовать сжатие для передачи, чтобы сократить время отправки и связанные с ним затраты.

Модуль принимает в качестве входного набора данных в рабочей области. Набор данных должен быть передан в сжатом формате. Затем модуль распаковывает набор данных и добавляет данные в рабочую область.

Использование распаковки сжатых наборов данных

в этом разделе описывается подготовка данных и последующее их распаковка в Машинное обучение Studio (классическая модель).

Шаг 1. Подготовка файлов

перед отправкой файла убедитесь, что данные в файле можно использовать в Машинное обучение:

  • Убедитесь, что данные в файле используют кодировку UTF-8.

    если файл достаточно мал, его можно открыть в Блокнот, а затем сохранить файл в нужной кодировке. Многие другие текстовые редакторы имеют аналогичные функции. для CSV-файлов можно использовать команды Excel сохранить как или экспортировать , чтобы указать формат файла и кодировку.

  • Убедитесь, что в файлах данных используется поддерживаемый Формат, например CSV, TSV, ARFF или SVMLight.

  • Сжимать данные путем добавления файла данных в .ZIP или. GZ формат файла архива. Другие типы архивов не поддерживаются.

  • Снимите защиту паролем. Если какой-либо из файлов или самой сжатой папки зашифрован или защищен паролем, необходимо разблокировать или расшифровать файл перед его отправкой. Модуль не может определить зашифрованные типы данных и не поддерживает диалоговые окна для ввода пароля с произвольных клиентов.

Шаг 2. Upload набора данных в рабочую область

Затем отправьте архивный набор данных в рабочую область эксперимента.

  1. Щелкните создать, выберите набор данныхи выберите из локального файла.

  2. Выделите сжатый ZIP-файл для отправки. При выборе файла тип должен автоматически задаваться в ZIP-файл (.zip).

Шаг 3. Добавить сжатый набор данных в эксперимент

После полной отправки набора данных добавьте его в свой эксперимент в формате ZIP.

  1. в области навигации слева в Машинное обучение Studio (классическая модель) выберите сохраненные наборы данных, а затем разверните мои наборы данных.

  2. Выберите только что отправленный сжатый набор данных и перетащите его на холст эксперимента.

Шаг 4. Распаковать набор данных

Последним шагом является распаковать набор данных.

  1. Подключение архивный набор данных в качестве входного модуля для распаковки упакованных наборов данных.

  2. В поле набор данных для распаковкивведите имя одного набора данных для распаковки.

    • если лист с именем Sheet1 сохранен в виде Excel CSV-файла с именем Test.csv, то имя набора данных будет Test.csv, а не лист1.

    • Имя, введенное в текстовом поле набор данных для распаковки , должно совпадать с именем исходного файла перед его сжатием, включая расширение имени файла. Например, если требуется распаковать набор данных на основе текстового файла Users.txt, введите Users.txt, а не пользователей.

    • Если несколько файлов помещаются в одну сжатую папку, необходимо распаковать один набор данных за раз.

    Совет

    Если оставить свойство пустым, модуль получает имя файла из ZIP-файла, предполагая, что сжатый файл архива содержит только один исходный файл. Если сжатый архив содержит несколько файлов, возникает ошибка времени выполнения.

  3. Для параметра Формат файла набора данныхукажите исходный формат набора данных, то есть формат до его архивирования.

    Вы можете отправлять и распаковать наборы данных, созданные с помощью любого из следующих форматов: CSV, ARFF, TSV, SvmLight.

    Если это свойство оставлено пустым, модуль идентифицирует набор данных, используя имя исходного файла.

  4. Выберите параметр файл содержит строку заголовка, если исходный набор данных имел строку заголовка. В противном случае в качестве заголовка используется первая строка данных. Если это не то, что нужно, добавьте заголовок перед входом.

    Этот параметр применяется только к .CSV и. TSV файлов.

    Примечание

    При изменении формата файла этот параметр сбрасывается.

  5. Если файл сжат, используйте параметр Формат файла сжатия , чтобы указать алгоритм, который использовался для сжатия или расширения файла.

    В настоящее время поддерживаются форматы .ZIP и GZ (или gzip).

  6. Запустите эксперимент.

Результаты

  • Чтобы убедиться, что данные импортированы правильно, щелкните правой кнопкой мыши Распакованный модуль наборов данных и выберите команду визуализировать .

  • Чтобы изменить имя набора данных, щелкните правой кнопкой мыши неупакованный модуль ZIP-наборов данных и выберите Сохранить как набор данных. На этом этапе можно ввести другое имя.

    Этот параметр удобен при распаковке нескольких наборов данных из одного ZIP-файла.

Примеры

Чтобы продемонстрировать работу этого модуля, мы создали пример файла .ZIP, содержащий четыре разных CSV-файла. Все файлы сохранены из Excel.

Имя файла Описание
names-uni.csv Файл Юникода с заголовками столбцов
names-utf.csv Файл UTF-8 с заголовками столбцов
nonames-uni.csv Файл Юникода без заголовков столбцов
nonames-utf8.csv Файл UTF-8 без заголовков столбцов

Был отправлен весь сжатый ZIP-файл, а затем модуль распаковки упакованных наборов данных был запущен четыре раза, чтобы извлечь каждый из четырех файлов, используя следующие параметры:

  1. Набор данных для распаковки = names-uni.csv, файл содержит строку заголовка = true
  2. Набор данных для распаковки = names-utf8.csv, файл содержит строку заголовка = true
  3. Набор данных для распаковки = nonames-uni.csv, файл содержит строку заголовка = false
  4. Набор данных для распаковки = nonames-utf8.csv, файл содержит строку заголовка = false

Результаты были должным образом:

Имя файла результат Upload
names-uni.csv Ошибка 0049: ошибка при синтаксическом анализе файла. Файл не в Юникоде (UTF-8) в кодировке
names-utf8.csv Успешно. Использует исходные имена столбцов из исходного файла.
nonames-uni.csv Ошибка 0049: ошибка при синтаксическом анализе файла. Файл не в Юникоде (UTF-8) в кодировке
nonames-utf8.csv Успешно. Имена столбцов col1, col2,... столбецn автоматически добавляется в набор данных.

Примечание

Если используется параметр, файл имеет строку заголовка = true, а исходный файл фактически не содержит заголовок столбца, первая строка данных используется в качестве заголовка столбца.

Технические примечания

Этот модуль нельзя использовать для распаковки сжатых пакетов R в рабочую область. Пакеты R должны быть загружены и использованы как ZIP-файлы.

Дополнительные сведения о работе с ZIP-пакетами R см. в разделе выполнение скриптаr.

Примечание

Не путать с разностью между UTF-8 и Юникодом? См. эту статью в Википедии: что такое UTF-8

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Формат файла сжатия Почтовый индекс

GZip
правило сжатия Почтовый индекс Алгоритм сжатия, используемый для сжатия или расширения файла.
Набор данных для распаковки Любой Строка нет имя набора данных, регистрируемого в Azure ML Studio (классическая модель). Если имя набора данных не указано, оно получается из имени файла в ZIP-файле.
Формат файла набора данных CSV

TSV

ARFF

SVMLIGHT
Формат файла CSV Формат файла набора данных в ZIP-файле
Файл содержит строку заголовков True или false Логическое значение Неверно Задайте значение true , только если файл CSV/TSV содержит строку заголовка

Ожидаемые входные данные

Имя Тип Описание
Dataset Почтовый индекс ZIP-файл, содержащий наборы данных

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Выходной набор данных

См. также раздел

Входные и выходные данные