Импорт данных обучения в Студию машинного обучения (классическая) из различных источников данных

ОБЛАСТЬ ПРИМЕНЕНИЯ:Применимо к продукту.Студия машинного обучения (классическая) Неприменимо к продукту.Машинное обучение Azure

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Прекращается поддержка документации по Студии машинного обучения (классическая версия). В будущем она может не обновляться.

Чтобы использовать свои собственные данные в Студии машинного обучения (классической) для разработки и обучения решения для прогнозной аналитики, вы можете использовать данные из:

  • локальный файл, заранее отправляйте данные из жесткого диска, чтобы создать модуль набора данных в рабочей области;
  • источники данных в Интернете, чтобы получать данные в ходе эксперимента с помощью модуля Импорт данных;
  • Студия машинного обучения (классический) эксперимент - используйте данные, которые были сохранены как набор данных в Студии машинного обучения (классический)
  • База данных SQL Server - используйте данные из базы данных SQL Server без необходимости копировать данные вручную

Примечание

В Студии машинного обучения (классической) доступен ряд образцов наборов данных, которые можно использовать для данных обучения. Дополнительные сведения об этом см. в статье Использование образцов наборов данных в Студии машинного обучения (классическая).

Подготовка данных

Студия машинного обучения (классическая) предназначена для работы с прямоугольными или табличными данными, такими как текстовые данные с разделителями или структурированные данные из базы данных, хотя в некоторых случаях могут использоваться непрямоугольные данные.

Лучше всего, если ваши данные будут относительно чистыми, прежде чем импортировать их в Studio (классический вариант). Например, обратите внимание на строки без кавычек.

Однако в Studio (классической) доступны модули, при помощи которых можно манипулировать данными в эксперименте после импорта данных. В зависимости от алгоритмов машинного обучения, которые вы будете использовать, необходимо решить, как будут обрабатываться структурные трудности в данных, например отсутствующие значения и разреженные данные, и существуют ли модули, которые могут здесь помочь. В разделе Преобразование данных палитры модулей найдите модули, которые выполняют такие функции.

В любой точке вашего эксперимента можно просмотреть или скачать данные, созданные модулем, щелкнув правой кнопкой мыши порт вывода. В зависимости от модуля могут быть доступны разные варианты загрузки, или вы можете визуализировать данные в своем веб-браузере в Studio (классический вариант).

Поддерживаемые форматы и типы данных

В свой эксперимент можно импортировать значительное количество типов данных, в зависимости от того, какая система используется для импорта данных и каков источник этих данных:

  • Обычный текст (TXT)
  • Текст с разделителями-запятыми с заголовком (CSV) или без заголовка (NH.CSV)
  • Текст с разделителями-табуляциями с заголовком (TSV) или без заголовка (NH.TSV)
  • Файл Excel
  • Таблица Azure
  • Таблица Hive
  • Таблицы базы данных SQL
  • Значения OData
  • данные SVMLight (SVMLIGHT) (подробнее о формате см. в определении SVMLight);
  • данные в формате ARFF (подробнее о формате см. в определении ARFF);
  • ZIP-файл (ZIP)
  • Файл объекта или рабочей области R (RData)

Если вы импортируете данные в таком формате, как ARFF, который включает метаданные, Studio (классическая) использует эти метаданные для определения заголовка и типа данных каждого столбца.

В случае импорта данных в формате TSV или CSV, которые не включают эти метаданные, Studio (классическая) определяет тип данных для каждого столбца путем выборки данных. Если данные также не имеют заголовков столбцов, Studio (классическая) предоставляет имена по умолчанию.

Вы можете явно указать или изменить заголовки и типы данных для столбцов с помощью модуля Изменить метаданные.

Studio (классическая) распознает следующие типы данных:

  • Строка
  • Целое число
  • Double
  • Логический
  • DateTime
  • TimeSpan

Для передачи данных между модулями Студия использует внутренний тип данных, который называется Таблица данных. Данные можно явно преобразовать в формат таблицы данных с использованием модуля преобразования в набор данных.

Любой модуль, который принимает форматы, отличные от таблицы данных, перед передачей данных в следующий модуль преобразует данные в формат таблицы данных без вмешательства пользователя.

При необходимости можете преобразовать формат таблицы данных обратно в формат CSV, TSV, ARFF или SVMLight, используя другие модули преобразования. Узнать о модулях, которые выполняют эти функции, можно узнать в разделе Преобразование форматов данных палитры модулей.

Емкости данных

Модули в Студии машинного обучения (классической) поддерживают наборы данных объемом до 10 ГБ плотных числовых данных для распространенных случаев использования. Если модуль принимает несколько видов входных данных, то их общий объем должен составлять 10 ГБ. Вы можете создать выборку больших наборов данных с помощью запросов Hive или Базы данных SQL Azure или предварительной обработки модуля "Обучение на основе счетчиков" перед импортом данных.

Следующие типы данных можно развернуть в большие наборы данных при нормализации признаков. Максимальный объем этих данных — менее 10 ГБ:

  • разреженные;
  • категориальные;
  • Строки
  • Двоичные данные

В следующих модулях можно использовать наборы данных объемом менее 10 ГБ:

  • модули системы рекомендаций;
  • модуль метода увеличения числа примеров миноритарного класса с помощью синтетических объектов (SMOTE);
  • модули написания сценариев: R, Python, SQL;
  • модули, в которых объем выходных данных может превышать объем входных данных, такие как "Слияние" или "Хэширование признаков";
  • "Перекрестная проверка", "Гиперпараметры модели настройки", "Порядковая регрессия" и "Многоклассовая классификация «один — все»", когда число итераций очень велико.

Для наборов данных объемом больше, чем несколько гигабайт, требуется передать данные в службу хранилища Azure или Базу данных SQL Azure либо использовать HDInsight, а не отправлять данные прямо из локального файла.

Вы можете найти сведения о данных изображений в ссылке на модуль Импорт образов.

Импорт из локального файла

Вы можете загрузить файл данных со своего жесткого диска, чтобы использовать его в качестве обучающих данных в Studio (классической). При импорте файла данных, можете создать модуль набора данных, который готов для использования в экспериментах рабочей области.

Чтобы импортировать данные из локального жесткого диска, выполните следующие действия:

  1. Нажмите +NEW в нижней части окна Studio (классической).
  2. Выберите Набор данных и From local file (Из локального файла).
  3. В диалоговом окне Upload a new dataset (Отправить новый набор данных) перейдите к файлу, который необходимо отправить.
  4. Введите имя, укажите тип данных и, при необходимости, введите описание. Рекомендуем ввести описание — оно позволяет записать все характеристики данных, которые необходимо помнить при использовании данных в будущем.
  5. Флажок Это новая версия существующего набора данных позволяет обновить существующий набор данных новыми данными. Чтобы выполнить это, установите флажок, а затем введите имя существующего набора данных.

Передача нового набора данных

Время передачи зависит от объема данных и скорости подключения к службе. Если вы знаете, что файл займет много времени, в ходе ожидания вы можете выполнять другие задачи в Studio (классическая). Тем не менее закрытие браузера до завершения загрузки данных приведет к ошибке передачи данных.

После загрузки данные сохраняются в модуле набора данных и доступны для любого эксперимента в рабочей области.

При редактировании эксперимента вы можете найти ранее отправленные наборы данных в списке My Datasets (Мои наборы данных), который входит в список Saved Datasets (Сохраненные наборы данных), в палитре модулей. Перетащите набор данных на холст эксперимента, где нужно использовать эти данные для последующего анализа и машинного обучения.

Импорт из сетевых источников данных

Используя модуль Импорт данных, ваш эксперимент может импортировать данные из различных подключенных источников данных во время проведения эксперимента.

Примечание

Эта статья содержит общие сведения о модуле Импорт данных. Дополнительные сведения о типах данных, к которым можно получить доступ, форматах, параметрах, а также ответы на часто задаваемые вопросы см. в разделе справки по модулю Импорт данных.

Вы можете получить доступ к данным из одного из нескольких подключенных источников данных во время запуска эксперимента с помощью модуля Импорт данных.

  • URL-адрес с использованием HTTP;
  • Hadoop с использованием HiveQL
  • хранилище BLOB-объектов Azure.
  • Таблица Azure
  • База данных SQL Azure. Управляемый экземпляр SQL или SQL Server
  • поставщик веб-канала данных (в настоящее время OData).
  • Azure Cosmos DB

Так как доступ к этим данным для обучения осуществляется во время эксперимента, они доступны только в рамках этого эксперимента. Для сравнения: данные, хранящиеся в модуле набора данных, доступны для любого эксперимента в рабочей области.

Чтобы получить доступ к источникам данных в Интернете в эксперименте Studio (классической), добавьте в эксперимент модуль Импорт данных. Затем выберите Запустить мастер импорта данных в разделе Свойства, чтобы получить пошаговые инструкции по выбору и настройке источника данных. Кроме того, вы можете вручную выбрать Источник данных в разделе Свойства и указать параметры, необходимые для доступа к данным.

Поддерживаемые сетевые источники данных описаны в таблице ниже. Кроме того, в этой таблице перечислены поддерживаемые форматы файлов и параметры, используемые для доступа к данным.

Важно!

В настоящее время модули Импорт данных и Экспорт данных могут читать и записывать только данные в службе хранилища Azure, созданной с помощью классической модели развертывания. Другими словами, новый тип учетной записи хранилища BLOB-объектов Azure, предоставляющий "горячий" или "холодный" уровень доступа к хранилищу, не еще поддерживается.

Как правило, это не повлияет на учетные записи хранения Azure, созданные до появления данного уровня служб. Если необходимо создать учетную запись, выберите классическую модель развертывания или используйте Resource Manager и в качестве типа учетной записи выберите Общее назначение, а не Хранилище BLOB-объектов.

Дополнительные сведения см. в разделе Хранилище BLOB-объектов Azure: "горячий" и "холодный" уровни хранилища.

Поддерживаемые сетевые источники данных

Модуль Импорт данных Студии машинного обучения (классическая) поддерживает следующие источники данных:

Источник данных Описание Параметры
URL-адрес с использованием протокола HTTP Считывает данные в файлах с разделителями-запятыми (CSV), файлах с разделителями-табуляциями (TSV), а также в файлах в формате ARFF и SVM-light из любого URL-адреса, использующего протокол HTTP. URL-адрес. Задает полное имя файла, включая URL-адрес сайта и имя файла с любым расширением.

Формат данных. Задает один из поддерживаемых форматов данных: CSV, TSV, ARFF или SVM-light. Если данные содержат строку заголовков, она используется для назначения имен столбцов.
Hadoop/HDFS Считывает данные из распределенного хранилища в Hadoop. Необходимые вам данные можно указать с помощью HiveQL, языка запросов на основе SQL. HiveQL также можно использовать для агрегирования данных и выполнения фильтрации данных перед добавлением данных в Studio (классическую). Hive database query (Запрос к базе данных Hive). Указывает запрос Hive, используемый для создания данных.

HCatalog server URI (URI сервера HCatalog). Задает имя кластера в формате <имя_кластера>.azurehdinsight.net.

Hadoop user account name (Имя учетной записи пользователя Hadoop). Задает имя учетной записи пользователя Hadoop для подготовки кластера.

Hadoop user account password (Пароль учетной записи пользователя Hadoop). Задает учетные данные, используемые при подготовке кластера. Дополнительные сведения см. в статье Создание кластеров Hadoop в HDInsight.

Location of output data (Расположение выходных данных). Указывает, где хранятся данные: в распределенной файловой системе Hadoop (HDFS) или в Azure.
    Если выходные данные хранятся в HDFS, укажите универсальный код ресурса (URI) сервера HDFS. (не забудьте указать имя кластера HDInsight без префикса HTTPS://).

    Если выходные данные хранятся в Azure, необходимо указать имя учетной записи хранения Azure, ключ доступа к хранилищу и имя контейнера хранилища.
База данных SQL Считывает данные, которые хранятся в базе данных SQL Azure, управляемом экземпляре SQL или в базе данных SQL Server, работающей на виртуальной машине Azure. Имя сервера базы данных. Указывает имя сервера, на котором запущена база данных.
    Если используется база данных SQL Azure, введите создаваемое имя сервера. Обычно оно указывается в таком формате: <созданный_идентификатор>.database.windows.net.

    Если сервер SQL размещен на виртуальной машине Azure, введите tcp:< DNS-имя виртуальной машины>, 1433

Имя базы данных. Задает имя базы данных на сервере.

Server user account name (Имя учетной записи пользователя сервера). Задает имя пользователя учетной записи с разрешением на доступ к базе данных.

Server user account password (Пароль учетной записи пользователя сервера). Задает пароль для учетной записи указанного пользователя.

Запрос к базе данных. Введите инструкцию SQL, описывающую данные, которые необходимо получить.
Локальная база данных SQL Осуществляет чтение данных, хранящихся в базе данных SQL. Шлюз данных. Задает имя шлюза управления данными, установленного на компьютере, имеющем доступ к базе данных SQL Server. Дополнительные сведения о настройке шлюза см. в статье Выполнение расширенной аналитики с помощью Студии машинного обучения (классическая) с использованием данных с сервера SQL.

Имя сервера базы данных. Указывает имя сервера, на котором запущена база данных.

Имя базы данных. Задает имя базы данных на сервере.

Server user account name (Имя учетной записи пользователя сервера). Задает имя пользователя учетной записи с разрешением на доступ к базе данных.

Имя пользователя и пароль. Чтобы ввести учетные данные базы данных, щелкните Введите значения. Вы можете воспользоваться функцией встроенной проверки подлинности Windows или проверку подлинности SQL Server в зависимости от того, как настроен ваш SQL Server.

Запрос к базе данных. Введите инструкцию SQL, описывающую данные, которые необходимо получить.
таблице Azure Считывает данные из службы таблиц в хранилище Azure.

Если вам нечасто требуется считывание больших объемов данных, используйте службу таблиц Azure. Это недорогое и гибкое нереляционное (NoSQL) решение хранилища с высокой степенью масштабируемости и доступности.
Изменение параметров в модуле Импорт данных зависит от того, обращаетесь ли вы к общедоступной информации или к частной учетной записи хранения, для входа в которую нужны учетные данные. Это определяется параметром Тип проверки подлинности, который может иметь значение PublicOrSAS или Account. Каждое из этих значений имеет собственный набор параметров.

Public or Shared Access Signature (SAS) URI (URI общедоступного или подписанного URL-адреса (SAS)). Используются следующие параметры.

    Table URI (URI таблицы). Задает общедоступный или подписанный URL-адрес (SAS) таблицы.

    Specifies the rows to scan for property names (Указывает строки для поиска имен свойств). Значение TopN позволяет проверить указанное число строк, а значение ScanAll — получить все строки в таблице.

    Если данные однородные и прогнозируемые, рекомендуется выбрать TopN и ввести значение N. Для больших таблиц это может сократить время чтения.

    Если данные структурированы с использованием наборов свойств, которые различаются в зависимости от глубины и положения таблицы, выберите параметр ScanAll для сканирования всех строк. Это гарантирует целостность полученного свойства и преобразования метаданных.

Private Storage Account (Частная учетная запись хранения). Параметры:

    Имя учетной записи. Указывает имя учетной записи, содержащей таблицу, выбранную для чтения.

    Ключ учетной записи. Указывает ключ к хранилищу данных, связанный с этой учетной записью.

    Имя таблицы. Указывает имя таблицы, содержащей данные для чтения.

    Rows to scan for property names (Строки для поиска имен свойств). Значение TopN позволяет проверить указанное число строк, а значение ScanAll — получить все строки в таблице.

    Если данные однородные и прогнозируемые, то рекомендуется выбрать TopN и ввести значение N. Для больших таблиц это может сократить время чтения.

    Если данные структурированы с использованием наборов свойств, которые различаются в зависимости от глубины и положения таблицы, выберите параметр ScanAll для сканирования всех строк. Это гарантирует целостность полученного свойства и преобразования метаданных.

хранилище BLOB-объектов Azure Считывает данные, хранящиеся в службе больших двоичных объектов в хранилище Azure, включая изображения, неструктурированные текстовые данные и двоичные данные.

Службу BLOB-объектов можно использовать для предоставления общего доступа к данным или для закрытого хранения данных приложения. Доступ к данным можно получить из любого места, подключившись через протокол HTTP или HTTPS.
Изменение параметров в модуле Импорт данных зависит от того, обращаетесь ли вы к общедоступной информации или к частной учетной записи хранения, для входа в которую нужны учетные данные. Это определяется параметром Тип проверки подлинности, который может иметь значение PublicOrSAS или Account.

Public or Shared Access Signature (SAS) URI (URI общедоступного или подписанного URL-адреса (SAS)). Используются следующие параметры.

    Универсальный код ресурса (URI). Задает общедоступный или подписанный URL-адрес (SAS) большого двоичного объекта службы хранилища.

    Формат файла. Задает формат данных в службе BLOB-объектов. Поддерживаемые форматы: CSV, TSV и ARFF.

Private Storage Account (Частная учетная запись хранения). Параметры:

    Имя учетной записи. Указывает имя учетной записи, содержащей большой двоичный объект, выбранный для чтения.

    Ключ учетной записи. Указывает ключ к хранилищу данных, связанный с этой учетной записью.

    Path to container, directory, or blob (Путь к контейнеру, каталогу или большому двоичному объекту). Задает имя большого двоичного объекта, содержащего данные для чтения.

    Формат файла BLOB-объекта. Задает формат данных в службе BLOB-объектов. Поддерживаемые форматы данных: CSV, TSV, ARFF, CSV с заданной кодировкой и Excel.

      Если используется формат CSV или TSV, обязательно укажите, содержит ли файл строку заголовка.

      Для чтения данных из книги Excel можно использовать параметр Excel. Для параметра Формат данных Excel укажите расположение данных: в диапазоне листа Excel или в таблице Excel. В параметре Excel sheet or embedded table (Лист или внедренная таблица Excel) укажите имя листа или таблицы для считывания данных.

Поставщик веб-канала данных Считывает данные, получаемые от поддерживаемого поставщика веб-канала. В настоящее время поддерживается только формат Open Data Protocol (OData). Data content type (Тип содержимого данных). Задает формат OData.

Исходный URL-адрес. Указывает полный URL-адрес веб-канала данных.
Например, этот URL-адрес позволяет считывать данные из примера базы данных Northwind: https://services.odata.org/northwind/northwind.svc/.

Импорт из другого эксперимента

Иногда понадобится получить в эксперименте промежуточный результат, который будет использоваться в другом эксперименте. Для этого сохраните модуль как набор данных, выполнив указанные ниже действия.

  1. Щелкните выходные данные модуля, которые требуется сохранить в виде набора данных.
  2. Щелкните Сохранить как набор данных.
  3. При появлении запроса введите имя и описание, которое позволит легко идентифицировать набор данных.
  4. Установите флажок ОК .

После завершения сохранения набор данных будет доступен для использования в любом эксперименте в рабочей области. Его можно найти в списке Сохраненные наборы данных в палитре модулей.

Дальнейшие действия

Развертывание веб-служб Студии машинного обучения (классическая), использующих модули импорта и экспорта данных