Импорт таблицы счетчиков

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Импортирует ранее созданную таблицу счетчиков

категория: Обучение с количеством

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается использование модуля таблицы счетчика импорта в Машинное обучение Studio (классическая модель).

назначение модуля таблица импорта позволяет клиентам, создавшим таблицу статистики на основе подсчетов, использовать более раннюю версию Машинное обучение для обновления эксперимента. Этот модуль объединяет существующие таблицы счетчиков с новыми данными.

общие сведения о таблицах счетчиков и их использовании для создания функций см. в разделе Обучение с подсчетами.

Важно!

Этот модуль предоставляется исключительно для обеспечения обратной совместимости с экспериментами, в которых используется устаревшая таблица счетчиков сборок и нерекомендуемые модули Count Характеризатора. Рекомендуется обновить свой эксперимент, чтобы использовать новые модули, чтобы воспользоваться преимуществами новых функций.

Для всех новых экспериментов рекомендуется использовать следующие модули:

Настройка таблицы счетчика импорта

  1. в Машинное обучение Studio (классическая модель) откройте эксперимент, содержащий таблицу счетчиков, созданную с помощью модуля таблица нерекомендуемых сборок счетчика.

  2. Добавьте в эксперимент модуль таблицы счетчика импорта .

  3. Подключение два выхода из модуля таблицы счетчиков сборок (не рекомендуется) в соответствующие входные порты таблицы счетчика импорта.

    Если имеется еще один набор данных счетчиков, который необходимо объединить с импортированной таблицей счетчиков, подключите его к крайнему правому входному модулю для модуля Таблица счетчиков импорта .

  4. Используйте параметр тип инвентаризации , чтобы указать, где и как будет храниться таблица счетчиков.

    • набор данных. данные, используемые для создания счетчиков, сохраняются в виде набора данных в Машинное обучение Studio (классическая модель).

    • Blob: данные, используемые для создания счетчиков, хранятся в виде блочного Blob-объекта в Windows хранилище Azure.

    • MapReduce. данные, используемые для создания счетчиков, хранятся в виде большого двоичного объекта в Windows хранилище Azure.

      Этот параметр обычно является предпочтительным для очень больших наборов данных. Чтобы получить доступ к счетчикам, необходимо активировать кластер HDInsight. для выполнения инвентаризации запускается задание MapReduce. Оба эти действия могут повлечь за собой затраты на хранение и вычисление.

      Дополнительные сведения см. в статье HDInsight в Azure.

    После указания режима хранения данных может потребоваться предоставить дополнительные сведения о соединении для данных, даже если ранее в эксперименте для доступа к данным использовался модуль Import Data (импорт данных ). Это обусловлено тем, что модуль Count Характеризатора (нерекомендуемый) обращается к хранилищу данных отдельно, чтобы считать данные и собрать необходимые таблицы.

  5. Используйте параметр тип таблицы Count , чтобы указать формат и режим хранения таблицы, используемой для хранения счетчиков.

    • Dictionary: использует таблицу счетчиков словарей.

      Все значения в выбранных столбцах рассматриваются как строки и хэшируются с помощью битового массива размером до 31 бита. Поэтому все значения столбцов представляются в виде неотрицательных 32-битных целых чисел.

    • Кмскетч: использует таблицу, сохраненную в таблице минимальное количество эскизов.

      В этом формате несколько независимых хэш-функций с меньшим диапазоном используются для повышения эффективности памяти и снижения вероятности конфликтов хэша.

    В общем случае следует использовать параметр Dictionary для небольших наборов данных ( < 1 ГБ) и использовать параметр кмскетч для больших наборов DataSet.

  6. Запустите эксперимент.

  7. По завершении щелкните правой кнопкой мыши выходные данные модуля Импорт таблицы счетчика , выберите команду Сохранить как преобразованиеи введите имя преобразования. При этом Объединенные таблицы счетчиков и все параметры Добавление признаков, которые вы могли применить, сохраняются в формате, который можно применить к новому набору данных.

Примеры

Изучите примеры Добавление признаков на основе количества, используя эти примеры экспериментов в Коллекция решений ии Azure:

Примечание

эти эксперименты с галереей были созданы с использованием более ранней версии и теперь не являются устаревшими, версия Обучение с модулями подсчета . При открытии эксперимента в студии (классическая модель) эксперимент автоматически обновляется для использования новых модулей.

Ожидаемые входные данные

Имя Тип Описание
Метаданные счетчиков Таблица данных Метаданные счетчиков
Таблица счетчиков Таблица данных Таблица счетчиков
Набор данных инвентаризации Таблица данных Набор данных, используемый для подсчета

Параметры модуля

Имя Type Диапазон Необязательно Значение по умолчанию Описание
Тип инвентаризации CountingType Обязательно Тип инвентаризации

Выходные данные

Имя Тип Описание
Преобразование подсчета Интерфейс ITransform Преобразование подсчета

Исключения

Исключение Описание
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0018 Исключение возникает, если входной набор данных не является допустимым.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Обучение с учетом количества