Преобразование в CSV-файл

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Преобразует входные данных в формат с разделителями-запятыми.

Категория: преобразования формата данных

Примечание

Область применения: только Машинное обучение Studio (классическая версия)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

В этой статье описывается, как с помощью модуля Convert to CSV в Машинное обучение Studio (классическая модель) преобразовать набор данных из Azure ML в формат CSV, который можно скачать, экспортировать или предоставить к ним доступ с помощью модулей скриптов R или Python.

Дополнительные сведения о формате CSV

Формат CSV, который означает "значения с разделителями-запятыми", — это формат файлов, используемый многими внешними инструментами машинного обучения. Хотя собственный формат набора данных, используемый Машинное обучение, основан на таблицы данных .NET и, следовательно, может быть считывается библиотеками .NET, CSV — это общий формат обмена при работе с языками с открытым кодом, такими как R или Python.

Даже если вы выполняете большую часть работы в Машинное обучение Studio (классическая модель), иногда бывает удобно преобразовать набор данных в CSV для использования во внешних средствах. Пример:

  • Скачайте CSV-файл, чтобы открыть его в Excel, или импортируйте его в реляционную базу данных.
  • Сохраните CSV-файл в облачном хранилище и подключитесь к нему из Power BI, чтобы создать визуализации.
  • Используйте формат CSV для подготовки данных для использования в R и Python. Просто щелкните правой кнопкой мыши выходные данные модуля, чтобы создать код, необходимый для доступа к данным непосредственно из Python или записной книжки Jupyter.

При преобразовании набора данных в CSV-файл сохраняется в рабочей области Azure ML. Вы можете использовать служебную программу хранилища Azure для открытия и использования файла напрямую или щелкнуть правой кнопкой мыши выходные данные модуля и скачать CSV-файл на компьютер или использовать его в коде R или Python.

Настройка модуля Преобразование в CSV

  1. Добавьте модуль Convert to CSV в эксперимент. Этот модуль можно найти в группе преобразования формата данных в Студии (классическая модель).

  2. Подключите его к любому модулю, который выводит набор данных.

  3. Запустите эксперимент или нажмите кнопку "Преобразовать в CSV-модуль" и нажмите кнопку "Выполнить".

Результаты

Дважды щелкните выходные данные преобразования в CSV и выберите один из этих параметров.

  • Скачать: сразу же откроется копия данных в формате CSV, которую можно сохранить в локальной папке. Если папка не указана, применяется имя файла по умолчанию, а CSV-файл сохраняется в локальной библиотеке загрузок .

    Если выбран параметр "Скачать набор данных", необходимо указать, следует ли открыть набор данных или сохранить его в локальном файле.

    Если нажать кнопку "Открыть", набор данных загружается с помощью приложения, связанного по умолчанию с .CSV файлами: например, Microsoft Excel.

    Если выбрать "Скачать набор данных", по умолчанию файл сохраняется с именем модуля и идентификатором GUID, представляющим идентификатор рабочей области. Однако вы можете выбрать параметр "Сохранить как " во время скачивания и изменить имя или расположение файла.

  • Сохранить как набор данных: сохраняет CSV-файл обратно в рабочую область Azure ML в виде отдельного набора данных.

  • Создание кода доступа к данным: Azure ML создает два набора кода для доступа к данным с помощью Python или R. Чтобы получить доступ к данным, скопируйте фрагмент кода в приложение.

  • Откройте в новой записной книжке: для вас создается новая записная книжка Jupyter и вставляется код для чтения данных из рабочей области с помощью выбранного языка: Python 2, Python 3 или R с Microsoft R Open.

    Например, при выборе параметра R предоставляется пример кода R, который загружает CSV-файл в кадр данных и отображает первые несколько строк с помощью head функции.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Требования к формату CSV

Формат CSV-файла — это популярный формат, поддерживаемый многими платформами машинного обучения. Формат называется "значениями, разделенными запятыми" или "значениями, разделенными символами".

В CSV-файле обычные текстовые данные хранятся в виде таблицы (числа и текст). CSV-файл состоит из произвольного числа записей, разделенных какими-либо разрывами строки. Каждая запись состоит из полей, разделенных запятой. В некоторых регионах разделитель может быть точкой с запятой.

Как правило, все записи имеют одинаковое количество полей, а отсутствующие значения представляются как значения NULL или пустые строки.

Совет

Вы можете легко экспортировать данные из Excel, Access или реляционной базы данных в CSV-файлы для использования в Машинное обучение. Хотя имена файлов обычно имеют расширение .CSV, Машинное обучение не требует наличия этого расширения, если вы хотите импортировать данные в формате CSV. В формате CSV можно импортировать XLSX, TXT и другие файлы. Однако поля в файле должны быть отформатированы, как описано в предыдущем разделе, и файл должен использовать кодировку UTF-8.

Распространенные вопросы и проблемы

В этом разделе описываются некоторые известные проблемы, распространенные вопросы и обходные решения, относящиеся к модулю Convert to CSV .

Заголовки должны быть одними строками

Формат CSV-файла, используемый в Машинное обучение поддерживает одну строку заголовка. Вставлять заголовки с несколькими строками нельзя.

Настраиваемые разделители, поддерживаемые при импорте, но не экспорт

Модуль Convert to CSV не поддерживает создание альтернативных разделителей столбцов, таких как точка с запятой (;), которая часто используется в Европе.

Однако при импорте данных из CSV-файлов во внешнее хранилище можно указать альтернативные разделители. В модуле импорта данных выберите CSV с параметром кодирования и выберите поддерживаемую кодировку.

Неточное разделение столбцов для строковых данных, содержащих запятые

Это распространенная проблема при обработке текста, которая может быть указана как разделитель столбцов (табуляции, пробелы, запятые и т. д.) также можно найти случайным образом в текстовых полях. Импорт текста из CSV всегда требует осторожности, чтобы избежать разделения текста на ненужные новые столбцы.

При попытке экспортировать столбец строковых данных, содержащих запятые, также могут возникнуть проблемы. Машинное обучение не поддерживает специальную обработку или специальный перевод таких данных, например заключать строки в кавычки. Кроме того, нельзя использовать escape-символы перед запятой, чтобы убедиться, что запятые обрабатываются как литеральные символы.

Таким образом, новые поля создаются в выходном файле для каждой запятой, обнаруженной в строковом поле. Чтобы избежать этой проблемы, существует несколько обходных решений.

Требуется кодировка UTF-8

В модуле Преобразование в CSV поддерживается только кодировка UTF-8. Если необходимо экспортировать данные с помощью другой кодировки, можно попробовать использовать модули «Выполнение скрипта R » или «Выполнение скрипта Python » для создания пользовательских выходных данных.

Набор данных не содержит имен столбцов

Если набор данных, экспортируемый в CSV-файл, не содержит имен столбцов, рекомендуется использовать изменение метаданных для добавления имен столбцов перед его преобразованием. Имена столбцов нельзя добавлять в процессе преобразования или экспорта.

SYLK: недопустимый формат файла

Если первый столбец набора данных, который вы преобразуете в CSV, имеет идентификатор имени, при попытке открыть файл в Excel может возникнуть следующая ошибка:

"SYLK: недопустимый формат файла".

Чтобы избежать этой ошибки, необходимо переименовать столбец.

Мне нужна помощь при импорте из CSV-файла

Для импорта не используйте модуль export to CSV . Вместо этого используйте модуль импорта данных .

Общие сведения об импорте из CSV-файла см. в следующих ресурсах:

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Выходные данные

Имя Тип Описание
Набор данных результатов GenericCsv Выходной набор данных

См. также раздел

Преобразование формата данных
Список модулей в алфавитном порядке