Экспорт в таблицу Azure

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описывается, как использовать параметр экспорт в Azure в модуле экспорт данных в Машинное обучение Studio (классическая модель).

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Этот параметр полезен, если вы хотите экспортировать результаты или промежуточные данные из эксперимента машинного обучения в таблицу Azure. Служба таблиц Azure — это служба управления данными в Azure, которая может хранить большие объемы структурированных нереляционных данных. Это хранилище данных NoSQL, которое принимает вызовы с проверкой подлинности внутри и за пределами Azure.

Экспорт данных в таблицу Azure

  1. Добавьте модуль Export Data (экспорт данных ) в свой эксперимент. Этот модуль можно найти в категории Ввод и вывод данных в студии (классическая модель).

  2. Подключение его в модуль, который создает данные, которые необходимо экспортировать в хранилище таблиц Azure.

  3. Укажите, следует ли экспортировать данные в общедоступный общий ресурс или в закрытую учетную запись хранения, для которой требуются учетные данные для входа, задав параметр типа проверки подлинности .

    • Общедоступный (URL-адрес SAS). Выберите этот параметр, если учетная запись поддерживает доступ через URL-адрес SAS. В поле URI-адрес SAS таблицы введите или вставьте полный URI, определяющий учетную запись и общедоступный большой двоичный объект.

      URL-адрес SAS — это URL-адрес для доступа с ограниченным временем, который можно создать с помощью служебной программы хранилища Azure. На странице, доступной через URL-адрес SAS, данные могут храниться только в следующих форматах: CSV, TSV и ARFF.

    • Учетная запись. Выберите этот параметр, если данные находятся в частной учетной записи. Также необходимо указать учетные данные, включая имя учетной записи и ключ.

  4. Если вы хотите экспортировать данные в защищенное, закрытое хранилище, укажите учетные данные, необходимые для доступа к учетной записи:

    • Имя учетной записи таблицы: введите или вставьте имя учетной записи, содержащей большой двоичный объект, к которому требуется получить доступ. Например, если полный URL-адрес учетной записи хранения — https://myshared.table.core.windows.net , введите myshared .

    • Ключ учетной записи таблицы: Вставьте ключ доступа, связанный с учетной записью хранения.

    • Имя таблицы: введите имя конкретной таблицы, которую требуется считать.

  5. Укажите, какие столбцы следует сохранять в хранилище таблиц, и какие столбцы следует использовать при определении схемы таблицы с помощью свойств столбца.

    • ключ раздела: выберите столбец, который будет использоваться для секционирования сохраненного набора данных для таблицы в служба хранилища Azure. Таблицы в Azure разбиваются на разделы для поддержки балансировки нагрузки между узлами хранилища. Все табличные сущности упорядочены по секциям. Поэтому свойство PartitionKey является обязательным для всех операций с таблицами.

    • Ключ строки таблицы Azure: выберите столбец, который должен использоваться для свойства RowKey . Свойство RowKey является системным свойством, которое требуется для каждой сущности в таблице. Вместе со свойством PartitionKey он формирует уникальный индекс для каждой строки в таблице.

    Примечание

    Для RowKey и PartitionKeyнеобходимо использовать разные столбцы. Убедитесь, что любой столбец, выбранный для RowKey или PartitionKey, также включен в список целевых столбцов или возникает ошибка.

    • Исходные столбцы в таблице Azure: выберите дополнительные столбцы из набора данных, который необходимо сохранить в таблице Azure. Необходимо также включить столбцы, выбранные для PartitionKey и RowKey.

    дополнительные сведения о таблицах в служба хранилища Azure см. в разделе основные сведения о модели данных службы таблиц.

  6. Укажите имена столбцов, которые должны быть записаны в таблицу.

    Важно!

    Необходимо указать имя столбца для каждого столбца, который вы выводите в таблицу, включая RowKey, PartitionKeyи все исходные столбцы.

    Если число введенных столбцов не соответствует числу выходных столбцов, возникает ошибка.

    При вводе новых имен столбцов они должны быть указаны в порядке индексов столбцов исходных столбцов.

  7. Режим записи в таблицу Azure: укажите, как следует вести себя при экспорте данных , если данные уже существуют в таблице Azure.

    • INSERT: Insert Entity Операция вставляет новую сущность с уникальным первичным ключом, которая формируется из комбинации свойств PartitionKey и RowKey .

    • Слияние. Merge Entity операция обновляет существующую сущность, обновляя ее свойства. Эта операция не заменяет существующую сущность.

    • Replace: Update Entity операция заменяет содержимое заданной сущности в таблице.

    • InsertOrReplace: InsertOrReplace Entity Операция вставляет сущность, если сущность не существует. Если она существует, заменяется существующая сущность.

    • InsertOrMerge: InsertOrMerge Entity Операция вставляет сущность, если сущность не существует. Если сущность существует, предоставленные свойства сущности объединяются с уже существующими.

  8. Использовать кэшированные результаты: укажите, следует ли обновлять данные при каждом запуске эксперимента.

    Если выбран этот параметр, то модуль Export Data (экспорт данных ) сохраняет данные в указанную таблицу при первом запуске эксперимента, а затем не выполняет операции записи, если не были внесены изменения в поток.

    Если отменить выбор этого параметра, данные будут записываться в назначение каждый раз при выполнении эксперимента независимо от того, совпадают ли данные.

  9. Запустите эксперимент.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Часто задаваемые вопросы

Почему при записи в существующую таблицу возникает ошибка

Проверьте схему таблицы, чтобы убедиться, что имена столбцов и типы данных совпадают. Например, в хранилище таблиц Azure столбец ИДЕНТИФИКАТОРов должен быть строкой.

Если возникает ошибка, Ошибка 0027: размер переданных объектов не согласуется, убедитесь, что таблица существует в указанном контейнере. в настоящее время Azure ML может выполнять запись только в существующие таблицы.

Почему возникает ошибка, не удается найти существующий столбец

Если вы не выполняли эксперимент, то при экспорте данныхне обнаруживаются вышестоящее столбцы. При внесении в эксперимент любых вышестоящего изменения может потребоваться удалить модуль Экспорт данных , а затем добавить и перенастроить его.

Как избежать повторной записи одних и тех же данных

Если данные в эксперименте изменяются по какой бы то ни было причине, модуль Экспорт данных всегда будет записывать новые данные.

Однако если эксперимент выполняется с другим изменением, которое не влияет на результаты, установите для параметра использовать кэшированные результаты значение true. Модуль проверит, выполнялся ли этот эксперимент ранее с теми же параметрами, и если предыдущий результат найден, данные не будут записаны в таблицу Azure.

Можно ли экспортировать данные в другой географический регион

Да. Тем не менее, если учетная запись хранения находится в другом регионе на кластерном узле, используемом для эксперимента машинного обучения, доступ к данным может быть медленнее. Кроме того, вы платите за входящий и исходящий данные подписки.

Примеры

Примеры использования этих модулей машинного обучения см. в Коллекция решений ии Azure.

Параметры модуля

Общедоступные или SAS-открытые варианты

Имя Диапазон Тип По умолчанию Описание
URI SAS таблицы any Строка

Учетная запись — параметры частной учетной записи

Имя Диапазон Тип По умолчанию Описание
Имя учетной записи таблицы
Ключ учетной записи таблицы any SecureString

Варианты хранилищ

Имя Диапазон Тип По умолчанию Описание
Имя таблицы Строка нет
Ключ раздела any SecureString нет Выберите столбец, который будет использоваться в качестве ключа при секционировании таблицы. Если столбец не выбран, имя столбца в качестве ключа секции для всех записей
Ключ строки таблицы Azure any колумнпиккер нет Выберите столбец, содержащий уникальный идентификатор для строк таблицы. По умолчанию используется ключ строки на основе идентификатора GUID
Исходные столбцы таблицы Azure any колумнпиккер нет Укажите, какие столбцы включать в таблицу: по имени или по индексу столбца
Целевые столбцы таблицы Azure any Строка нет Введите имена столбцов для использования в целевой таблице
Режим записи таблицы Azure List: INSERT, MERGE, Replace, InsertOrReplace, InsertOrMerge Перечисление нет
Использование кэшированных результатов True или false Логическое FALSE Модуль выполняется только в том случае, если не существует допустимого кэша. в противном случае используйте кэшированные данные из предыдущих выполнений.

Исключения

Исключение Описание
Ошибка 0027 Исключение возникает, если два объекта должны быть одинакового размера, но это не так.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0029 Исключение возникает при передаче недопустимого универсального кода ресурса.
Ошибка 0030 Исключение возникает, когда не удается скачать файл.
Ошибка 0002 Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип.
Ошибка 0009 Исключение возникает, если имя учетной записи хранилища Azure или имя контейнера указаны неверно.
Ошибка 0048 Исключение возникает, когда не удается открыть файл.
Ошибка 0046 Исключение возникает, если не удается создать каталог по указанному пути.
Ошибка 0049 Исключение возникает, когда не удается проанализировать файл.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Импорт данных
Экспорт данных
Экспорт Базу данных SQL Azure
Экспорт данных в хранилище BLOB-объектов Azure
Экспорт в запрос Hive