Предварительная обработка данных и настройка признаков

Завершено

Прежде чем запустить эксперимент автоматизированного машинного обучения (AutoML), необходимо подготовить данные. Если вы хотите обучить модель классификации, вам потребуется предоставить только обучающие данные.

После сбора данных необходимо создать ресурс данных в Машинное обучение Azure. Чтобы autoML понимал, как считывать данные, необходимо создать ресурс данных MLTable , содержащий схему данных.

Вы можете создать ресурс данных MLTable, если данные хранятся в папке вместе с файлом MLTable. При создании ресурса данных его можно указать в качестве входных данных с помощью следующего кода:

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

После создания ресурса данных можно настроить эксперимент AutoML. Прежде чем AutoML обучает модель классификации, препроцессирование преобразований можно применить к данным.

Общие сведения о масштабировании и нормализации

AutoML применяет масштабирование и нормализацию к числовым данным автоматически, что помогает предотвратить использование крупномасштабных функций для обучения. Во время эксперимента AutoML будут применяться несколько методов масштабирования или нормализации.

Настройка необязательных признаков

Вы можете применить преобразования предварительной обработки autoML, например:

  • Добавление отсутствующих значений для устранения значений NULL в наборе данных для обучения.
  • Кодирование по категориям для преобразования признаков категорий в числовые индикаторы.
  • Удаление признаков с высоким уровнем кардинальности элементов, например идентификаторов записей.
  • Проектирование признаков (например, получение отдельных частей даты из признаков DateTime)

По умолчанию AutoML будет выполнять признаки данных. Вы можете отключить его, если вы не хотите преобразовать данные.

Если вы хотите использовать встроенную функцию признаков, ее можно настроить. Например, можно указать, какой метод импутации следует использовать для определенной функции.

После завершения эксперимента AutoML вы сможете просмотреть, какие методы масштабирования и нормализации были применены. Вы также получите уведомление, если AutoML обнаружил какие-либо проблемы с данными, например, отсутствуют ли значения или дисбаланс класса.