Импорт данных обучения в Студию машинного обучения (классическая) из различных источников данных

ПРИМЕНИМО К:Machine Learning Studio (классическая версия) Не применяется к: Azure Machine Learning

Внимание

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классической) можно будет использовать до 31 августа 2024 г.

См. сведения о переносе проектов машинного обучения из Студии машинного обучения (классическая версия) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Прекращается поддержка документации по Студии машинного обучения (классической). В будущем она может не обновляться.

Чтобы использовать свои собственные данные в Студии машинного обучения (классической) для разработки и обучения решения для прогнозной аналитики, вы можете использовать данные из:

локальный файл, заранее отправляйте данные из жесткого диска, чтобы создать модуль набора данных в рабочей области;
источники данных в Интернете, с помощью модуля Импорт данных получайте данные из одного или нескольких подключенных источников в ходе эксперимента;
Студия машинного обучения (классический) эксперимент - используйте данные, которые были сохранены как набор данных в Студии машинного обучения (классический)
База данных SQL Server - используйте данные из базы данных SQL Server без необходимости копировать данные вручную

Примечание.

В Студии машинного обучения (классической) доступен ряд образцов наборов данных, которые можно использовать для данных обучения. Дополнительные сведения об этом см. в статье Использование образцов наборов данных в Студии машинного обучения (классическая).

Подготовка данных

Студия машинного обучения (классическая) предназначена для работы с прямоугольными или табличными данными, такими как текстовые данные с разделителями или структурированные данные из базы данных, хотя в некоторых случаях могут использоваться непрямоугольные данные.

Лучше всего, если ваши данные будут относительно чистыми, прежде чем импортировать их в Studio (классический вариант). Например, вам следует заботиться о таких проблемах, как строки без кавычек.

Однако в Studio (классической) доступны модули, при помощи которых можно манипулировать данными в эксперименте после импорта данных. В зависимости от алгоритмов машинного обучения, которые вы будете использовать, необходимо решить, как будут обрабатываться структурные трудности в данных, например отсутствующие значения и разреженные данные, и существуют ли модули, которые могут здесь помочь. В разделе Преобразование данных палитры модулей найдите модули, которые выполняют такие функции.

В любой точке вашего эксперимента можно просмотреть или скачать данные, созданные модулем, щелкнув правой кнопкой мыши порт вывода. В зависимости от модуля могут быть доступны разные варианты загрузки, или вы можете визуализировать данные в своем веб-браузере в Studio (классический вариант).

Поддерживаемые форматы и типы данных

В свой эксперимент можно импортировать значительное количество типов данных, в зависимости от того, какая система используется для импорта данных и каков источник этих данных:

Обычный текст (.txt)
Значения, разделённые запятыми (CSV) с заголовком (.csv) или без заголовка (.nh.csv)
Значения, разделенные табуляцией, с заголовком (.tsv) или без заголовка (.nh.tsv)
Файл Excel
Таблица Azure
Таблица Hive
Таблицы базы данных SQL
Значения OData
данные SVMLight (.svmlight) (см. определение SVMLight для получения информации о формате)
Формат данных Attribute Relation File Format (ARFF) (.arff) (подробнее о формате см. в «определении ARFF»);
ZIP-файл (ZIP)
Файл объекта или рабочей области R (RData)

Если вы импортируете данные в таком формате, как ARFF, который включает метаданные, Studio (классическая) использует эти метаданные для определения заголовка и типа данных каждого столбца.

В случае импорта данных в формате TSV или CSV, которые не включают эти метаданные, Studio (классическая) определяет тип данных для каждого столбца путем выборки данных. Если данные также не имеют заголовков столбцов, Studio (классический) предоставляет имена по умолчанию.

Вы можете явно указать или изменить заголовки и типы данных для столбцов с помощью модуля Изменить метаданные.

Studio (классическая) распознает следующие типы данных:

Строка
Целое число
Двойной
Логический
Дата/время
Промежуток времени

Для передачи данных между модулями Студия использует внутренний тип данных, который называется Таблица данных. Данные можно явно преобразовать в формат таблицы данных с использованием модуля преобразования в набор данных.

Любой модуль, который принимает форматы, отличные от таблицы данных, перед передачей данных в следующий модуль преобразует данные в формат таблицы данных без вмешательства пользователя.

При необходимости можете преобразовать формат таблицы данных обратно в формат CSV, TSV, ARFF или SVMLight, используя другие модули преобразования. Ищите модули, выполняющие эти функции, в разделе Преобразование форматов данных палитры модулей.

Емкости данных

Модули в Студии машинного обучения (классической) поддерживают наборы данных объемом до 10 ГБ плотных числовых данных для распространенных случаев использования. Если модуль принимает несколько видов входных данных, то их общий объем должен составлять 10 ГБ. Вы можете создать выборку больших наборов данных с помощью запросов Hive или базы данных SQL Azure, или использовать предварительную обработку "Обучение на основе счетчиков" перед импортом данных.

Следующие типы данных могут увеличиваться до больших наборов данных при нормализации признаков и ограничены менее чем 10 ГБ.

Разреженный
Категориальный
Строки
Двоичные данные

В следующих модулях можно использовать наборы данных объемом менее 10 ГБ:

рекомендательные модули
модуль метода увеличения выборки миноритарного класса с помощью синтетических объектов (SMOTE)
модули написания сценариев: R, Python, SQL;
модули, в которых объем выходных данных может превышать объем входных данных, такие как "Слияние" или "Хэширование признаков";
"Перекрестная проверка", "Настройка гиперпараметров модели", "Порядковая регрессия" и "Многоклассовая классификация «один против всех»", когда число итераций очень велико.

Для наборов данных объемом больше, чем несколько гигабайт, требуется передать данные в службу хранилища Azure или Базу данных SQL Azure либо использовать HDInsight, а не отправлять данные прямо из локального файла.

Вы можете найти сведения о данных изображений в ссылке на модуль Импорт образов.

Импорт из локального файла

Вы можете загрузить файл данных со своего жесткого диска, чтобы использовать его в качестве обучающих данных в Studio (классической). При импорте файла данных вы создаёте модуль набора данных, готовый для использования в экспериментах в вашем рабочем пространстве.

Чтобы импортировать данные из локального жесткого диска, выполните следующие действия:

Нажмите +NEW в нижней части окна Studio (классической).
Выберите Набор данных и From local file (Из локального файла).
В диалоговом окне Upload a new dataset (Отправить новый набор данных) перейдите к файлу, который необходимо отправить.
Введите имя, укажите тип данных и, при необходимости, введите описание. Рекомендуем ввести описание — оно позволяет записать все характеристики данных, которые необходимо помнить при использовании данных в будущем.
Флажок Это новая версия существующего набора данных позволяет обновить существующий набор данных новыми данными. Чтобы выполнить это, установите флажок, а затем введите имя существующего набора данных.

Передача нового набора данных

Время передачи зависит от объема данных и скорости подключения к службе. Если вы знаете, что файл займет много времени, в ходе ожидания вы можете выполнять другие задачи в Studio (классическая). Тем не менее закрытие браузера до завершения загрузки данных приведет к ошибке передачи данных.

После загрузки данные сохраняются в модуле набора данных и доступны для любого эксперимента в рабочей области.

При редактировании эксперимента вы можете найти ранее отправленные наборы данных в списке My Datasets (Мои наборы данных), который входит в список Saved Datasets (Сохраненные наборы данных), в палитре модулей. Перетащите набор данных на холст эксперимента, где нужно использовать эти данные для последующего анализа и машинного обучения.

Импорт из сетевых источников данных

Используя модуль Импорт данных, ваш эксперимент может импортировать данные из различных подключенных источников данных во время проведения эксперимента.

Примечание.

Эта статья содержит общие сведения о модуле Импорт данных. Дополнительные сведения о типах данных, к которым можно получить доступ, форматах, параметрах, а также ответы на часто задаваемые вопросы см. в разделе справки по модулю Импорт данных.

Вы можете получить доступ к данным из одного из нескольких подключенных источников данных во время запуска эксперимента с помощью модуля Импорт данных.

URL-адрес с использованием HTTP;
Hadoop с использованием HiveQL
Хранилище BLOB-объектов Azure
Таблица Azure
База данных SQL Azure. Управляемый экземпляр SQL или SQL Server
поставщик канала данных OData в настоящее время
Azure Cosmos DB

Так как доступ к этим данным для обучения осуществляется во время эксперимента, они доступны только в рамках этого эксперимента. Для сравнения: данные, хранящиеся в модуле набора данных, доступны для любого эксперимента в рабочей области.

Чтобы получить доступ к источникам данных в Интернете в эксперименте Studio (классической), добавьте в эксперимент модуль Импорт данных. Затем выберите Запустить мастер импорта данных в разделе Свойства, чтобы получить пошаговые инструкции по выбору и настройке источника данных. Кроме того, вы можете вручную выбрать Источник данных в разделе Свойства и указать параметры, необходимые для доступа к данным.

Поддерживаемые сетевые источники данных описаны в таблице ниже. Кроме того, в этой таблице перечислены поддерживаемые форматы файлов и параметры, используемые для доступа к данным.

Внимание

В настоящее время модули Импорт данных и Экспорт данных могут читать и записывать только данные в службе хранилища Azure, созданной с помощью классической модели развертывания. Другими словами, новый тип учетной записи хранилища Blob-объектов Azure, предоставляющий "горячий" или "холодный" уровень доступа к хранилищу, еще не поддерживается.

Как правило, учетные записи хранения Azure, которые могли быть созданы до того, как эта опция услуги стала доступна, не должны быть затронуты. Если необходимо создать учетную запись, выберите классическую модель развертывания или используйте Resource Manager и в качестве типа учетной записи выберите Общее назначение, а не Хранилище BLOB-объектов.

Дополнительные сведения см. в разделе Хранилище BLOB-объектов Azure: "горячий" и "холодный" уровни хранилища.

Поддерживаемые сетевые источники данных

Модуль Импорт данных Студии машинного обучения (классическая) поддерживает следующие источники данных:

Источник данных	Описание	Параметры
URL-адрес с использованием протокола HTTP	Считывает данные в формате значений, разделенных запятыми (CSV), значений, разделенных табуляциями (TSV), формате файлов атрибутов-отношений (ARFF) и формате машин поддержки (SVM-light) из любого веб-адреса, использующего протокол HTTP.	URL-адрес. Задает полное имя файла, включая URL-адрес сайта и имя файла с любым расширением. Формат данных. Задает один из поддерживаемых форматов данных: CSV, TSV, ARFF или SVM-light. Если данные содержат строку заголовков, она используется для назначения имен столбцов.
Hadoop/HDFS	Считывает данные из распределенного хранилища в Hadoop. Необходимые вам данные можно указать с помощью HiveQL, языка запросов на основе SQL. HiveQL также можно использовать для агрегирования данных и выполнения фильтрации данных перед добавлением данных в Studio (классическую).	Hive database query (Запрос к базе данных Hive). Указывает запрос Hive, используемый для создания данных. HCatalog server URI (URI сервера HCatalog). Задает имя кластера в формате <имя_кластера>.azurehdinsight.net. Hadoop user account name (Имя учетной записи пользователя Hadoop). Задает имя учетной записи пользователя Hadoop для подготовки кластера. Hadoop user account password (Пароль учетной записи пользователя Hadoop). Задает учетные данные, используемые при подготовке кластера. Дополнительные сведения см. в статье Создание кластеров Hadoop в HDInsight. Location of output data (Расположение выходных данных). Указывает, где хранятся данные: в распределенной файловой системе Hadoop (HDFS) или в Azure. Если выходные данные хранятся в HDFS, укажите универсальный код ресурса (URI) сервера HDFS. (не забудьте указать имя кластера HDInsight без префикса HTTPS://). Если выходные данные хранятся в Azure, необходимо указать имя учетной записи хранения Azure, ключ доступа к хранилищу и имя контейнера хранилища.
База данных SQL	Считывает данные, которые хранятся в базе данных SQL Azure, управляемом экземпляре SQL или в базе данных SQL Server, работающей на виртуальной машине Azure.	Имя сервера базы данных. Указывает имя сервера, на котором запущена база данных. Если используется база данных SQL Azure, введите создаваемое имя сервера. Обычно оно указывается в таком формате: <созданный_идентификатор>.database.windows.net. Если сервер SQL размещен на виртуальной машине Azure, введите tcp:< DNS-имя виртуальной машины>, 1433 Имя базы данных. Задает имя базы данных на сервере. Server user account name (Имя учетной записи пользователя сервера). Задает имя пользователя учетной записи с разрешением на доступ к базе данных. Server user account password (Пароль учетной записи пользователя сервера). Задает пароль для учетной записи указанного пользователя. Запрос к базе данных. Введите инструкцию SQL, описывающую данные, которые необходимо получить.
Локальная база данных SQL	Осуществляет чтение данных, хранящихся в базе данных SQL.	Шлюз данных. Задает имя шлюза управления данными, установленного на компьютере, имеющем доступ к базе данных SQL Server. Дополнительные сведения о настройке шлюза см. в статье Выполнение расширенной аналитики с помощью Студии машинного обучения (классическая) с использованием данных с сервера SQL. Имя сервера базы данных. Указывает имя сервера, на котором запущена база данных. Имя базы данных. Задает имя базы данных на сервере. Server user account name (Имя учетной записи пользователя сервера). Задает имя пользователя учетной записи с разрешением на доступ к базе данных. Имя пользователя и пароль. Чтобы ввести учетные данные базы данных, щелкните Введите значения. Вы можете воспользоваться функцией встроенной проверки подлинности Windows или проверку подлинности SQL Server в зависимости от того, как настроен ваш SQL Server. Запрос к базе данных. Введите инструкцию SQL, описывающую данные, которые необходимо получить.
Таблица Azure	Считывает данные из службы таблиц в хранилище Azure. Если вам нечасто требуется считывание больших объемов данных, используйте службу таблиц Azure. Это недорогое и гибкое нереляционное (NoSQL) решение хранилища с высокой степенью масштабируемости и доступности.	Изменение параметров в модуле Импорт данных зависит от того, обращаетесь ли вы к общедоступной информации или к частной учетной записи хранения, для входа в которую нужны учетные данные. Это определяется параметром Тип проверки подлинности, который может иметь значение PublicOrSAS или Account. Каждое из этих значений имеет собственный набор параметров. URI общедоступной или общей подписи доступа (SAS): Используются следующие параметры. Table URI: Задает общедоступный или подписанный URL-адрес (SAS) для таблицы. Specifies the rows to scan for property names (Указывает строки для поиска имен свойств). Значение TopN позволяет проверить указанное число строк, а значение ScanAll — получить все строки в таблице. Если данные однородные и прогнозируемые, рекомендуется выбрать TopN и ввести значение N. Для больших таблиц это может сократить время чтения. Если данные структурированы и имеют наборы свойств, которые различаются в зависимости от уровня вложенности и позиции таблицы, выберите опцию ScanAll, чтобы просканировать все строки. Это гарантирует целостность полученного свойства и преобразования метаданных. Частная учетная запись хранилища: Параметры: Имя учетной записи. Указывает имя учетной записи, содержащей таблицу, выбранную для чтения. Ключ учетной записи. Указывает ключ к хранилищу данных, связанный с этой учетной записью. Имя таблицы. Указывает имя таблицы, содержащей данные для чтения. Rows to scan for property names (Строки для поиска имен свойств). Значение TopN позволяет проверить указанное число строк, а значение ScanAll — получить все строки в таблице. Если данные однородные и прогнозируемые, то рекомендуется выбрать TopN и ввести значение N. Для больших таблиц это может сократить время чтения. Если данные структурированы и имеют наборы свойств, которые различаются в зависимости от уровня вложенности и позиции таблицы, выберите опцию ScanAll, чтобы просканировать все строки. Это гарантирует целостность полученного свойства и преобразования метаданных.
Хранилище Blob-объектов Azure	Считывает данные, хранящиеся в службе хранилища BLOB в Azure, включая изображения, неструктурированные текстовые и двоичные данные. Службу хранилища блобов можно использовать для публичного доступа к данным или для частного хранения данных приложений. Доступ к данным можно получить из любого места, подключившись через протокол HTTP или HTTPS.	Изменение параметров в модуле Импорт данных зависит от того, обращаетесь ли вы к общедоступной информации или к частной учетной записи хранения, для входа в которую нужны учетные данные. Это определяется параметром Тип проверки подлинности, который может иметь значение PublicOrSAS или Account. Public or Shared Access Signature (SAS) URI: Параметры следующие: Универсальный код ресурса (URI): Указывает общедоступный или доступ SAS URL-адрес для блоба хранилища. Формат файла: Задает формат данных в службе Blob. Поддерживаемые форматы: CSV, TSV и ARFF. Частная учетная запись хранилища: Параметры: Имя учетной записи: Указывает имя учетной записи, содержащей большой двоичный объект, который вы хотите прочитать. Ключ учетной записи. Указывает ключ к хранилищу данных, связанный с этой учетной записью. Path to container, directory, or blob (Путь к контейнеру, каталогу или большому двоичному объекту). Задает имя большого двоичного объекта, содержащего данные для чтения. Формат файла объекта Blob: Задает формат данных в службе Blob. Поддерживаемые форматы данных: CSV, TSV, ARFF, CSV с заданной кодировкой и Excel. Если используется формат CSV или TSV, обязательно укажите, содержит ли файл строку заголовка. Для чтения данных из файлов Excel можно использовать опцию Excel. В параметре Формат данных Excel укажите, где находятся данные: в диапазоне листа Excel или в таблице Excel. В параметре Excel sheet or embedded table (Лист или внедренная таблица Excel) укажите имя листа или таблицы для считывания данных.
Поставщик фида данных	Считывает данные, получаемые от поддерживаемого поставщика потока данных. В настоящее время поддерживается только формат Open Data Protocol (OData).	Data content type (Тип содержимого данных). Задает формат OData. Исходный URL-адрес. Указывает полный URL-адрес веб-канала данных. Например, этот URL-адрес позволяет считывать данные из эталонной базы данных Northwind: https://services.odata.org/northwind/northwind.svc/.

Импорт из другого эксперимента

Иногда понадобится получить в эксперименте промежуточный результат, который будет использоваться в другом эксперименте. Для этого сохраните модуль как набор данных, выполнив указанные ниже действия.

Щелкните выходные данные модуля, которые требуется сохранить в виде набора данных.
Щелкните Сохранить как набор данных.
При появлении запроса введите имя и описание, которое позволит легко идентифицировать набор данных.
Установите флажок ОК .

После завершения сохранения набор данных будет доступен для использования в любом эксперименте в рабочей области. Его можно найти в списке Сохраненные наборы данных в палитре модулей.

Следующие шаги

Развертывание веб-служб Студии машинного обучения (классическая), использующих модули импорта и экспорта данных

Last updated on 2019-02-01