Импорт данных

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Загружает данные из внешних источников в Интернете; из различных форм облачного хранилища в Azure, таких как таблицы, большие двоичные объекты и базы данных SQL; а также из локальных SQL Server баз данных

Категория: входные и выходные данные

Примечание

Область применения: только Машинное обучение Studio (классическая версия)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

В этой статье описывается использование модуля импорта данных в Машинное обучение Studio (классическая модель) для загрузки данных в эксперимент машинного обучения из существующих облачных служб данных.

Теперь модуль содержит мастер, который поможет выбрать вариант хранения и выбрать один из существующих подписок и учетных записей, чтобы быстро настроить все параметры. Нужно изменить существующее подключение к данным? Нет проблем; Мастер загружает все предыдущие сведения о конфигурации, чтобы вам не нужно было начинать заново с нуля.

Определив нужные данные и подключившись к источнику, импорт данных определяет тип данных каждого столбца на основе значений, которые он содержит, и загружает данные в рабочую область Машинное обучение Studio (классическая модель). Выходные данные импорта данных — это набор данных, который можно использовать с любым экспериментом.

Важно!

В настоящее время существуют ограничения на типы поддерживаемых учетных записей хранения. Дополнительные сведения см. в технических заметках.

Если исходные данные изменяются, можно обновить набор данных и добавить новые данные, повторно запустив импорт данных. Однако если вы не хотите повторно считывать данные из источника при каждом запуске эксперимента, выберите параметр Use cached results (Использовать кэшированные результаты ) значение TRUE. При выборе этого параметра модуль проверяет, выполнялся ли эксперимент ранее с использованием одного источника и одинаковых входных параметров. При обнаружении предыдущего запуска данные в кэше используются вместо повторной загрузки данных из источника.

Примечание

Этот модуль ранее назывался Читателем. Если модуль чтения ранее использовался в эксперименте, он переименован в импорт данных при обновлении эксперимента.

Источники данных

Модуль импорта данных поддерживает следующие источники данных. Щелкните ссылки для получения подробных инструкций и примеров использования каждого источника данных.

Если вы не знаете, как или где следует хранить данные, ознакомьтесь с этим руководством по общим сценариям обработки данных в процессе обработки и анализа данных: сценарии расширенной аналитики в Машинное обучение.

Источник данных	Используется с
URL-адрес с использованием протокола HTTP	Получение данных, размещенных в веб-URL-адресе, использующем HTTP и предоставленных в форматах CSV, TSV, ARFF или SvmLight.
Запрос Hive	Получение данных из распределенного хранилища в Hadoop. Вы указываете нужные данные с помощью языка HiveQL.
База данных SQL Azure	Получение данных из База данных SQL Azure или из Azure SQL Data Warehouse
API таблиц Azure	Получение данных, хранящихся в службе таблиц Azure
Импорт из Хранилища BLOB-объектов Azure	Получение данных, хранящихся в службе BLOB-объектов Azure
Поставщики веб-каналов данных	Получение данных, предоставляемых в виде веб-канала в формате OData
Импорт из локальной базы данных SQL Server	Получение данных из локальной базы данных SQL Server с помощью шлюза Microsoft Управление данными
Azure Cosmos DB	Получение данных, хранящихся в формате JSON в Azure Cosmos DB.

Совет

Требуется импортировать данные в формате JSON? R и Python поддерживают ИНТЕРФЕЙСы REST API, поэтому используйте модули «Выполнение Python скрипта» или «Выполнение скрипта R» для анализа данных и сохранения их в виде набора данных ML Azure.

Или используйте API SQL DB для CosmosDB, который поддерживает несколько хранилищ JSON, включая MongoDB, для чтения данных с помощью параметра "Импорт из Azure Cosmos DB". Дополнительные сведения см. в статье "Импорт из Azure Cosmos DB".

Использование импорта данных

Добавьте модуль импорта данных в эксперимент. Этот модуль можно найти в категории "Входные и выходные данные " в Студии (классическая модель).
Нажмите кнопку "Запустить мастер импорта данных ", чтобы настроить источник данных с помощью мастера.

Мастер получает имя и учетные данные учетной записи, а также помогает настроить другие параметры. При редактировании существующей конфигурации сначала загружаются текущие значения.
Если вы не хотите использовать мастер, щелкните источник данных и выберите тип облачного хранилища, из которого вы читаете данные.

Дополнительные параметры зависят от выбранного типа хранилища, а также от того, защищено ли хранилище. Возможно, потребуется указать имя учетной записи, тип файла или учетные данные. Некоторые источники не требуют проверки подлинности; для других пользователей может потребоваться знать имя учетной записи, ключ или имя контейнера.

Дополнительные сведения см. в списке источников данных.
Выберите параметр "Использовать кэшированные результаты ", если вы хотите кэшировать набор данных для повторного использования при последующих запусках.

Если другие изменения параметров модуля не были изменены, эксперимент загружает данные только при первом запуске модуля, а затем использует кэшированную версию набора данных.

Отмените выбор этого параметра, если необходимо перезагрузить данные при каждом запуске эксперимента.
Запустите эксперимент.

При импорте данных загружает данные в Студию (классическая модель), он определяет тип данных каждого столбца на основе значений, содержащихся в нем, числовых или категориальных.
- Если заголовок присутствует, то он используется для именования столбцов результирующего набора данных.
- Если в данных не указаны заголовки столбцов, им присваиваются вновь созданные имена в формате col1, col2, … ,coln.

Результаты

После завершения импорта щелкните выходной набор данных и выберите "Визуализировать ", чтобы узнать, успешно ли импортированы данные.

Если вы хотите сохранить данные для повторного использования, а не импортировать новый набор данных при каждом запуске эксперимента, щелкните правой кнопкой мыши выходные данные и выберите команду "Сохранить как набор данных". Выберите имя для набора данных. Сохраненный набор данных сохраняет данные во время сохранения, а данные не обновляются при повторном запуске эксперимента, даже если набор данных в эксперименте изменяется. Это удобно для создания моментальных снимков данных.

После импорта данных может потребоваться некоторая дополнительная подготовка к моделированию и анализу:

Создайте статистические сводки данных с помощью суммирования данных или простой статистики вычислений.
Модуль Изменение метаданных позволяет изменить имена столбцов, применить к столбцу другой тип данных или указать, что некоторые столбцы являются метками или признаками.
Модуль Выбор столбцов в наборе данных позволяет выбрать подмножество столбцов для преобразования или использования в моделировании. Преобразованные или удаленные столбцы можно легко повторно присоединить к исходному набору данных с помощью модуля "Добавление столбцов " или модуля "Соединение данных ".
Модуль Секционирование и выборка для разделения набора данных, получения выборки или первых n строк.
Используйте преобразование "Применить SQL" для агрегирования данных, фильтрации или преобразования с помощью инструкций SQL.
Используйте эти модули для очистки текстовых столбцов и создания новых функций текста:
- Предварительная обработка текста
- Извлечение N-грамм из текста
- Распознавание именованных сущностей
- Выполните скрипт Python, чтобы реализовать пользовательскую NLP на основе nltk.

Технические примечания

В этом разделе приведен список известных проблем с модулем импорта данных , а также некоторые общие сведения об устранении неполадок, не относящиеся к типу источника.

Поддерживаемые типы учетных записей

Часто Azure выпускает новые службы или новые типы хранилищ; однако обычно существует задержка при реализации поддержки новых типов учетных записей в Машинное обучение Studio (классическая модель).

В настоящее время Машинное обучение поддерживает все учетные записи хранения общего назначения, за исключением тех, которые используют хранилище, избыточное между зонами (ZRS).
Поддерживаются локально избыточное хранилище (LRS) и геоизбыточное хранилище.
Блочные BLOB-объекты поддерживаются, но добавочные BLOB-объекты не поддерживаются.

Распространенные вопросы и проблемы

В этом разделе описываются некоторые известные проблемы, распространенные вопросы и обходные пути.

Заголовки должны быть отдельными строками

При импорте из CSV-файлов имейте в виду, что Машинное обучение разрешает одну строку заголовка. Вставка многостроковых заголовков невозможна.

Настраиваемые разделители, поддерживаемые при импорте, но не экспорт

Модуль импорта данных поддерживает импорт данных, использующих альтернативные разделители столбцов, такие как точка с запятой (;), которая часто используется в Европе. При импорте данных из CSV-файлов во внешнее хранилище выберите CSV-файл с параметром кодирования и выберите поддерживаемую кодировку.

Однако при подготовке данных к экспорту с помощью модуля Convert to CSV невозможно создать альтернативные разделители.

Плохое разделение столбцов для строковых данных, содержащих запятые

Практически каждый символ, который можно указать как разделитель столбцов (табуляции, пробелы, запятые и т. д.), также можно найти случайным образом в текстовых полях. Для импорта текста из CSV всегда необходимо соблюдать осторожность, чтобы избежать разделения текста на ненужные новые столбцы. Это распространенная проблема при обработке текста, которую вы, вероятно, столкнулись и обрабатываются разными способами.

Проблемы также могут возникать при попытке экспорта столбца строковых данных, содержащих запятые. Машинное обучение не поддерживает специальную обработку или специальный перевод таких данных, например заключать строки в кавычки. Кроме того, перед запятой нельзя использовать escape-символы, чтобы гарантировать, что запятые обрабатываются как литеральный символ. Как следствие, новые поля создаются в выходном файле для каждой запятой, обнаруженной в строковом поле.

Чтобы избежать проблем при экспорте, используйте модуль предварительной обработки текста , чтобы удалить знаки препинания из строковых полей.

Вы также можете использовать пользовательский скрипт R или Python для обработки сложного текста и обеспечения правильности импорта или экспорта данных.

Требуется кодировка UTF-8

Машинное обучение требуется кодировка UTF-8. Если импортируемые данные используют другую кодировку или экспортированы из источника данных, использующего другую кодировку по умолчанию, в тексте могут возникнуть различные проблемы.

Например, на следующем рисунке содержится один и тот же многоязычный набор данных, экспортированный из Excel, а затем импортированный в Машинное обучение под четырьмя различными сочетаниями типов файлов и кодировки.

Visualization of import encoding

Третий пример представляет данные, которые были потеряны во время сохранения из Excel в формате CSV, так как в то время правильная кодировка не была указана. Поэтому при возникновении проблем обязательно проверьте не только импортируемый файл, но и правильность экспорта файла из источника.

Набор данных не содержит имен столбцов

Если импортируемый набор данных не содержит имен столбцов, обязательно укажите один из параметров "без заголовка". При этом импорт данных добавляет имена столбцов по умолчанию с использованием формата Col1, Col2 и т. д. Позже используйте команду "Изменить метаданные ", чтобы исправить имена столбцов.

При экспорте набора данных в CSV-файл используйте команду "Изменить метаданные ", чтобы добавить имена столбцов перед преобразованием или экспортом.

Обходные пути для неподдерживаемых источников данных

Если вам нужно получить данные из источника, который отсутствует в списке, можно воспользоваться различными обходными решениями.

Чтобы передать данные из файла на компьютере, нажмите кнопку "Создать в Студии" (классическая модель), выберите набор данных и выберите "Из локального файла". Найдите файл и укажите формат (TSV, CSV и т. д.). Дополнительные сведения см. в разделе "Импорт обучающих данных в Студию (классическая модель)".
Используйте R или Python. Модуль «Выполнение скрипта R » можно использовать с соответствующим пакетом R для получения данных из других облачных баз данных.

Модуль «Выполнение Python скрипта» также позволяет считывать и преобразовывать данные из различных источников. Ознакомьтесь с этими примерами специалистов по обработке и анализу данных Майкрософт в коллекции аналитики Кортана:

Преобразование PDF в текст

Загрузка нетекстового файла из хранилища BLOB-объектов Azure
Получение данных из кластеров AWS. Запрос к универсальному кластеру Hive можно выполнить с включенным WebHCat или конечной точкой HCatalog. Или опубликуйте ее как страницу и прочитайте из URL-адреса веб-сайта.
Получение данных из MongoDB. Служебная программа переноса данных для Azure Cosmos DB поддерживает широкий спектр источников и форматов. Дополнительные сведения и примеры см. в статье azure Cosmos DB: средство миграции данных

Дополнительные идеи и обходные пути см. на форуме Машинное обучение или в коллекции ИИ Azure.

Параметры модуля

Каждый источник данных должен быть настроен с помощью различных параметров. В этой таблице перечислены только те параметры, которые являются общими для всех источников данных.

Имя	Диапазон	Тип	По умолчанию	Описание
Источник данных	Список	Источник данных или приемник	Служба BLOB-объектов в службе хранилища Azure	Источником данных может быть HTTP, анонимный HTTPS, файл в службе BLOB-объектов или службе таблиц, база данных SQL в Azure, Azure SQL Data Warehouse, таблица Hive или конечная точка OData.
Использование кэшированных результатов	True или false	Логическое	FALSE	Если задано значение TRUE, модуль проверит, был ли эксперимент запущен ранее с использованием одного источника и одинаковых входных параметров, и при обнаружении предыдущего запуска используются данные в кэше. При обнаружении значений FALSE или при обнаружении изменений данные будут перезагружены из источника.

Выходные данные

Имя	Тип	Описание
Набор данных результатов	Таблица данных	Набор данных с загруженными данными

Исключения

Исключение	Описание
Ошибка 0027	Исключение возникает, если два объекта должны быть одинакового размера, но это не так.
Ошибка 0003	Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0029	Исключение возникает при передаче недопустимого универсального кода ресурса.
Ошибка 0030	Исключение возникает, когда не удается скачать файл.
Ошибка 0002	Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип.
Ошибка 0009	Исключение возникает, если имя учетной записи хранилища Azure или имя контейнера указаны неверно.
Ошибка 0048	Исключение возникает, когда не удается открыть файл.
Ошибка 0015	Исключение возникает, если произошел сбой подключения к базе данных.
Ошибка 0046	Исключение возникает, если не удается создать каталог по указанному пути.
Ошибка 0049	Исключение возникает, когда не удается проанализировать файл.

Список ошибок, относящихся к модулям Студии (классическая модель), см. в разделе Машинное обучение коды ошибок.

Список исключений API см. в разделе Машинное обучение коды ошибок REST API.

См. также раздел

Входные и выходные данные
Преобразование формата данных
Экспорт данных
Список модулей в алфавитном порядке