Поделиться через


Импорт из таблицы Azure

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описывается, как использовать модуль import Data (импорт данных ) в Машинное обучение Studio (классическая модель) для импорта структурированных или частично структурированных данных из таблиц Azure в эксперимент машинного обучения.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Служба таблиц Azure — это служба управления данными в Azure, которая может хранить большие объемы структурированных нереляционных данных. Это хранилище данных NoSQL, которое принимает вызовы с проверкой подлинности внутри и за пределами Azure.

Для импорта из хранилища таблиц Azure необходимо выбрать один из двух типов учетных записей: учетную запись хранения, доступ к которой можно получить с помощью URL-адреса SAS или частной учетной записи хранения, для которой требуются учетные данные для входа.

Импорт данных из таблиц Azure

Использование мастера импорта данных

Модуль содержит новый мастер, помогающий выбрать вариант хранения, выбрать один из существующих подписок и учетных записей и быстро настроить все параметры.

  1. Добавьте модуль Импорт данных в эксперимент. Модуль можно найти в разделе входные и выходные данные.

  2. Щелкните запустить мастер импорта данных и следуйте инструкциям.

  3. После завершения настройки, чтобы фактически скопировать данные в эксперимент, щелкните модуль правой кнопкой мыши и выберите команду Выполнить выбранное.

Если необходимо изменить существующее подключение к данным, мастер загрузит все предыдущие сведения о конфигурации, чтобы не приступить к повторному запуску с нуля.

Установка свойств вручную в модуле "Импорт данных"

Следующие шаги описывают настройку источника импорта вручную.

  1. Добавьте модуль Импорт данных в эксперимент. этот модуль можно найти в группе входные и выходные данные в списке элементы эксперимента в Машинное обучение Studio (классическая модель).

  2. В качестве источника данныхвыберите Таблица Azure.

  3. В поле Тип проверки подлинностивыберите общедоступный (URL-адрес SAS) , если известно, что сведения предоставлены в качестве общедоступного источника данных. URL-адрес SAS — это URL-адрес для доступа с ограниченным временем, который можно создать с помощью служебной программы хранилища Azure.

    В противном случае выберите учетная запись.

  4. Если данные находятся в общедоступном большом двоичном объекте, доступ к которому можно получить с помощью URL-адреса SAS, дополнительные учетные данные не требуются, так как строка URL-адреса содержит все сведения, необходимые для загрузки и проверки подлинности.

    В поле URI-адрес SAS таблицы введите или вставьте полный URI, определяющий учетную запись и общедоступный большой двоичный объект.

    Примечание

    На странице, доступной через URL-адрес SAS, данные могут храниться только в следующих форматах: CSV, TSV и ARFF.

  5. Если данные находятся в частной учетной записи, необходимо указать учетные данные, включая имя учетной записи и ключ.

    • В поле имя учетной записи таблицывведите или вставьте имя учетной записи, содержащей большой двоичный объект, к которому требуется получить доступ.

      Например, если полный URL-адрес учетной записи хранения — https://myshared.table.core.windows.net , введите myshared .

    • В поле ключ учетной записи таблицывставьте ключ доступа, связанный с учетной записью хранения.

      если вы не знакомы с ключом доступа, см. раздел "просмотр, копирование и повторное создание ключей доступа к хранилищу" в этой статье: сведения об учетных записях служба хранилища Azure.

    • В поле имя таблицывведите имя конкретной таблицы, которую требуется считать.

  6. Выберите параметр, указывающий, сколько строк должны проверять данные импорта . Функция Импорт данных использует проверку для получения списка столбцов в данных и для определения типов данных столбцов.

    • TopN: сканирование только указанного числа строк начиная с верхней части набора данных.

      По умолчанию сканируется 10 строк, но можно увеличить или уменьшить это значение с помощью параметра количество строк для TopN .

      Если данные являются однородными и прогнозируемыми, выберите TopN и введите число N. Для больших таблиц это может привести к более быстрому чтению времени.

    • Значение scanall —: сканирование всех строк в таблице.

      Если данные структурированы с использованием наборов свойств, которые различаются в зависимости от глубины и положения таблицы, выберите параметр ScanAll для сканирования всех строк. Это гарантирует целостность полученного свойства и преобразования метаданных.

  7. Укажите, следует ли обновлять данные при каждом запуске эксперимента. Если выбран параметр использовать кэшированные результаты (по умолчанию), модуль Импорт данных будет считывать данные из указанного источника при первом запуске эксперимента, а затем кэшировать результаты. Если в параметрах модуля Импорт данных есть изменения, данные будут загружены повторно.

    Если отменить выбор этого параметра, данные будут считываться из источника каждый раз при выполнении эксперимента независимо от того, совпадают ли данные.

Примеры

Примеры использования модуля Export Data см. в Коллекция решений ии Azure.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Часто задаваемые вопросы

Как избежать повторной загрузки одних и тех же данных?

При изменении исходных данных можно обновить набор данных и добавить новые данные путем повторного выполнения импорта данных. Однако если вы не хотите повторно считывать из источника при каждом запуске эксперимента, установите для параметра использовать кэшированные результаты значение true. Если этот параметр имеет значение TRUE, модуль проверяет, выполнялся ли в эксперименте ранее тот же источник и те же параметры ввода, и если предыдущий запуск найден, то вместо повторной загрузки данных из источника используются данные в кэше.

Можно ли фильтровать данные по мере их считывания из источника?

Модуль импорта данных не поддерживает фильтрацию по мере считывания данных. Исключение считывается из каналов данных, что иногда позволяет указать условие фильтра в качестве части URL-адреса канала.

однако вы можете изменить или отфильтровать данные после их чтения в Машинное обучение Studio (классическая модель):

  • Используйте пользовательский скрипт R для изменения или фильтрации данных.
  • Используйте модуль Split Data (разделение данных ) с относительным выражением или регулярным выражением, чтобы изолировать нужные данные, а затем сохраните их как набор данных.

Примечание

Если вы загрузили больше данных, чем требуется, вы можете перезаписать кэшированный набор данных. Для этого необходимо считать новый набор данных и сохранить его под именем, идентичным имени большего, ранее записанного набора данных.

Как Импорт данных обрабатывает данные, загруженные из разных географических регионов?

Если учетная запись хранения большого двоичного объекта или таблицы находится в другом регионе, отличном от используемого для эксперимента машинного обучения, доступ к данным может быть медленнее. Кроме того, вы платите за входящий и исходящий данные подписки.

Почему некоторые символы в таблице отображаются неправильно?

Машинное обучение поддерживает кодировку UTF-8. Если в таблице используется другая кодировка, символы могут быть неправильно импортированы.

Существуют ли недопустимые символы или символы, измененные во время импорта?

Если данные атрибутов содержат кавычки или escape-последовательности символов, они будут обработаны с помощью правил для таких символов в Microsoft Excel. Все остальные символы обрабатываются с использованием следующих спецификаций в качестве рекомендации: RFC 4180.

Параметры модуля

Имя Диапазон Тип По умолчанию Значение по умолчанию
Источник данных Список Источник данных или приемник хранилище BLOB-объектов Azure источником данных может быть HTTP, FTP, anonymous HTTPS или FTPS, файл в хранилище BLOB-объектов azure, таблица Azure, База данных SQL Azure, локальная SQL Server база данных, таблица Hive или конечная точка OData.
Authentication type (Тип проверки подлинности) PublicOrSas

Учетная запись
таблеаустипе Учетная запись Укажите, находятся ли данные в общедоступном контейнере, доступном через URL-адрес SAS, или в частной учетной записи хранения, которая требует проверки подлинности для доступа.

Общедоступные или SAS-общедоступные варианты хранения

Имя Диапазон Тип По умолчанию Описание
URI таблицы any Строка
Строки для поиска имен свойств через SAS Целое число
Число строк для TopN через SAS

Учетная запись — параметры частного хранилища

Имя Диапазон Тип По умолчанию Описание
Имя учетной записи таблицы
Ключ учетной записи таблицы any SecureString
Имя таблицы any
Строки для поиска имен свойств TopN

Значение scanall —
Число строк для TopN any Целое число

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Набор данных с загруженными данными

Исключения

Исключение Описание
Ошибка 0027 Исключение возникает, если два объекта должны быть одинакового размера, но это не так.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0029 Исключение возникает при передаче недопустимого универсального кода ресурса.
Ошибка 0030 Исключение возникает, когда не удается скачать файл.
Ошибка 0002 Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип.
Ошибка 0009 Исключение возникает, если имя учетной записи хранилища Azure или имя контейнера указаны неверно.
Ошибка 0048 Исключение возникает, когда не удается открыть файл.
Ошибка 0046 Исключение возникает, если не удается создать каталог по указанному пути.
Ошибка 0049 Исключение возникает, когда не удается проанализировать файл.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Импорт данных
Экспорт данных
Импорт с URL-адреса в Интернете с использованием HTTP
Импорт из запроса Hive
Импорт из Базы данных SQL Azure
Импорт из Хранилища BLOB-объектов Azure
Импорт из поставщиков веб-каналов данных
Импорт из локальной базы данных SQL Server