Поделиться через


AutoMLConfig Класс

Представляет конфигурацию для отправки автоматизированного эксперимента машинного обучения в Машинном обучении Azure.

Этот объект конфигурации содержит и сохраняет параметры для настройки выполнения эксперимента, а также обучающих данных, которые будут использоваться во время выполнения. Инструкции по выбору параметров см. в статье https://aka.ms/AutoMLConfig.

Создайте AutoMLConfig.

Конструктор

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Параметры

Имя Описание
task
Обязательно
str или Tasks

Тип выполняемой задачи. Значения могут быть "классификация", "регрессия" или "прогнозирование" в зависимости от типа задачи автоматизированного машинного обучения для решения.

path
Обязательно
str

Полный путь к папке проекта Машинного обучения Azure. Если не указано, по умолчанию используется текущий каталог или ".".

iterations
Обязательно
int

Общее количество различных сочетаний алгоритмов и параметров для тестирования во время автоматизированного эксперимента машинного обучения. Если значение не указано, значение по умолчанию равно 1000 итераций.

primary_metric
Обязательно
str или Metric

Метрика, которую автоматизированное машинное обучение оптимизирует для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизироваться. Вы можете получить get_primary_metrics список допустимых метрик для данной задачи. Дополнительные сведения о том, как вычисляются метрики, см. в разделе https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Если значение не указано, точность используется для задач классификации, нормализованный средний квадрат используется для задач прогнозирования и регрессии, точность используется для классификации изображений и классификации многометок изображений, а средняя средняя точность используется для обнаружения объектов изображения.

positive_label
Обязательно
Any

Положительная метка класса, используемая автоматизированным машинным обучением для вычисления двоичных метрик. Двоичные метрики вычисляются в двух условиях для задач классификации:

  1. Столбец меток состоит из двух классов, указывающих на задачу двоичной классификации AutoML будет использовать указанный положительный класс при передаче positive_label , в противном случае AutoML выберет положительный класс на основе закодированного значения метки.
  2. Задача классификации нескольких классов с указанными positive_label

Дополнительные сведения о классификации см. в метриках получения сведений о сценариях классификации.

compute_target
Обязательно

Целевой объект вычислений Машинного обучения Azure для запуска эксперимента автоматизированного машинного обучения. Дополнительные сведения о целевых объектах вычислений см. в статье https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote .

spark_context
Обязательно
<xref:SparkContext>

Контекст Spark. Применимо только при использовании в среде Azure Databricks/Spark.

X
Обязательно
DataFrame или ndarray или Dataset или TabularDataset

Функции обучения, используемые при установке конвейеров во время эксперимента. Этот параметр устарел. Вместо этого используйте training_data и label_column_name.

y
Обязательно
DataFrame или ndarray или Dataset или TabularDataset

Метки обучения, используемые при установке конвейеров во время эксперимента. Это значение, которое будет прогнозировать модель. Этот параметр устарел. Вместо этого используйте training_data и label_column_name.

sample_weight
Обязательно

Вес для каждого примера обучения при выполнении конвейеров установки, каждая строка должна соответствовать строке в данных X и y.

Укажите этот параметр при указании X. Этот параметр устарел. Вместо этого используйте training_data и weight_column_name.

X_valid
Обязательно
DataFrame или ndarray или Dataset или TabularDataset

Функции проверки, используемые при установке конвейеров во время эксперимента.

Если задано, y_valid то или sample_weight_valid необходимо также указать. Этот параметр устарел. Вместо этого используйте validation_data и label_column_name.

y_valid
Обязательно
DataFrame или ndarray или Dataset или TabularDataset

Метки проверки, используемые при установке конвейеров во время эксперимента.

Оба X_valid и y_valid должны быть указаны вместе. Этот параметр устарел. Вместо этого используйте validation_data и label_column_name.

sample_weight_valid
Обязательно

Вес для каждого примера проверки при выполнении конвейеров оценки каждая строка должна соответствовать строке в данных X и y.

Укажите этот параметр при указании X_valid. Этот параметр устарел. Вместо этого используйте validation_data и weight_column_name.

cv_splits_indices
Обязательно

Индексы, где разделить данные обучения для перекрестной проверки. Каждая строка представляет собой отдельный перекрестный сверток и в каждой перекрестной папке, предоставляя 2 массива числовых элементов, первый с индексами для выборок, используемых для обучения данных, а второй — с индексами, используемыми для проверки данных. т.е., [[t1, v1], [t2, v2], ...] где t1 — это индексы обучения для первого перекрестного свертывания и v1 — это индексы проверки для первого перекрестного свертывания.

Чтобы указать существующие данные в качестве данных проверки, используйте validation_data. Чтобы разрешить AutoML извлекать данные проверки из обучающих данных, укажите или n_cross_validationsvalidation_size. Используйте cv_split_column_names , если у вас есть столбцы training_dataперекрестной проверки.

validation_size
Обязательно

Какая доля данных для проверки не указана. Это должно быть от 0,0 до 1.0, не включаемых.

Укажите validation_data , чтобы предоставить данные проверки, в противном случае задайте n_cross_validations или validation_size извлеките данные проверки из указанных обучающих данных. Для пользовательского свертывания перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

n_cross_validations
Обязательно
int

Сколько перекрестных проверок выполняется, когда данные проверки пользователей не указаны.

Укажите validation_data , чтобы предоставить данные проверки, в противном случае задайте n_cross_validations или validation_size извлеките данные проверки из указанных обучающих данных. Для пользовательского свертывания перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

y_min
Обязательно

Минимальное значение y для эксперимента регрессии. Сочетание y_min и y_max используется для нормализации метрик набора тестов на основе диапазона входных данных. Этот параметр устарел. Вместо этого это значение будет вычисляться из данных.

y_max
Обязательно

Максимальное значение y для эксперимента регрессии. Сочетание y_min и y_max используется для нормализации метрик набора тестов на основе диапазона входных данных. Этот параметр устарел. Вместо этого это значение будет вычисляться из данных.

num_classes
Обязательно
int

Количество классов в данных меток для эксперимента классификации. Этот параметр устарел. Вместо этого это значение будет вычисляться из данных.

featurization
Обязательно

"auto" /off/ FeaturizationConfig Индикатор того, следует ли выполнять шаг признаков автоматически или нет, или следует ли использовать настраиваемые признаки. Примечание. Если входные данные являются разреженными, включить конструирование признаков невозможно.

Тип столбца автоматически обнаруживается. На основе обнаруженного типа столбца предварительной обработки или признаков выполняется следующим образом:

  • Категориальный: целевая кодировка, одна горячая кодировка, удаление категорий высокой кратности, вменяющая отсутствующие значения.

  • Числовое значение: олицетворение отсутствующих значений, расстояния кластера, вес доказательств.

  • DateTime: несколько функций, таких как день, секунды, минуты, часы и т. д.

  • Текст: мешок слов, предварительно обученное внедрение Word, кодировка текстового целевого объекта.

Дополнительные сведения см. в статье "Настройка автоматизированных экспериментов машинного обучения" в Python.

Чтобы настроить шаг инициализации, укажите объект FeaturizationConfig. В настоящее время настраиваемая инициализация поддерживает блокировку набора преобразователей, обновление назначения столбцов, редактирование параметров преобразователя и удаление столбцов. Дополнительные сведения см. в разделе "Настройка инженерии функций".

Примечание. Функции Timeseries обрабатываются отдельно, если для типа задачи задано прогнозирование независимо от этого параметра.

max_cores_per_iteration
Обязательно
int

Максимальное количество потоков, используемых для заданной итерации обучения. Допустимые значения:

  • Больше 1 и меньше или равно максимальному количеству ядер в целевом объекте вычислений.

  • Равно -1, что означает использование всех возможных ядер на итерацию для каждого дочернего запуска.

  • Значение по умолчанию равно 1.

max_concurrent_iterations
Обязательно
int

Представляет максимальное количество итераций, которые будут выполняться параллельно. Значение по умолчанию — 1.

  • Кластеры AmlCompute поддерживают одно взаимодействие, выполняемое на каждом узле. Для нескольких родительских запусков эксперимента AutoML, выполняемых параллельно в одном кластере AmlCompute, сумма max_concurrent_iterations значений для всех экспериментов должна быть меньше или равно максимальному количеству узлов. В противном случае запуски будут помещены в очередь до тех пор, пока узлы не будут доступны.

  • DSVM поддерживает несколько итераций на узел. max_concurrent_iterations должно быть меньше или равно числу ядер в DSVM. При параллельном выполнении нескольких экспериментов на одном dsVM сумма max_concurrent_iterations значений для всех экспериментов должна быть меньше или равна максимальному количеству узлов.

  • Databricks — max_concurrent_iterations должно быть меньше или равно количеству рабочих узлов в Databricks.

max_concurrent_iterations не применяется к локальным запускам. Ранее этот параметр был назван concurrent_iterations.

iteration_timeout_minutes
Обязательно
int

Максимальное время в минутах, для которых каждая итерация может выполняться до завершения. Если не указано, используется значение 1 месяца или 43200 минут.

mem_in_mb
Обязательно
int

Максимальное использование памяти, для выполнения каждой итерации перед завершением работы. Если не указано, используется значение 1 ТС или 1073741824 МБ.

enforce_time_on_windows
Обязательно

Следует ли применять ограничение времени на обучение модели при каждой итерации в Windows. Значение по умолчанию — True. Если выполняется из файла скрипта Python (.py), ознакомьтесь с документацией по разрешенным ограничениям ресурсов в Windows.

experiment_timeout_hours
Обязательно

Максимальное количество времени в часах, в течение которого могут быть пройдены все итерации до завершения эксперимента. Может быть десятичным значением, например 0,25, представляющее 15 минут. Если это не указано, время ожидания эксперимента по умолчанию — 6 дней. Чтобы указать время ожидания меньше или равно 1 часу, убедитесь, что размер набора данных не превышает 10 000 000 (столбец времени строк) или результаты ошибки.

experiment_exit_score
Обязательно

Целевая оценка для эксперимента. Эксперимент завершается после достижения этой оценки. Если не указано (без условий), эксперимент выполняется до тех пор, пока не будет выполнен дальнейший ход выполнения на первичной метрии. Дополнительные сведения о критериях выхода см. в этой статье.

enable_early_stopping
Обязательно

Следует ли включить досрочное завершение, если оценка не улучшается в краткосрочной перспективе. Значение по умолчанию — True.

Логика раннего остановки:

  • Нет ранней остановки для первых 20 итераций (ориентиров).

  • Начальная остановка окна начинается на 21-й итерации и ищет early_stopping_n_iters итерации

    (в настоящее время установлено значение 10). Это означает, что первая итерация, в которой может произойти остановка, — это 31-е.

  • AutoML по-прежнему планирует 2 ансамбля итерации ПОСЛЕ ранней остановки, что может привести к

    более высокие оценки.

  • Ранние остановки активируются, если абсолютное значение лучшей оценки вычисляется одинаково для прошлого

    early_stopping_n_iters итерации, то есть, если нет улучшения оценки early_stopping_n_iters итерации.

blocked_models
Обязательно
list(str) или list(Classification) <xref:for classification task> или list(Regression) <xref:for regression task> или list(Forecasting) <xref:for forecasting task>

Список алгоритмов, которые следует игнорировать для эксперимента. Если enable_tf имеет значение False, модели TensorFlow включаются в blocked_modelsнего.

blacklist_models
Обязательно
list(str) или list(Classification) <xref:for classification task> или list(Regression) <xref:for regression task> или list(Forecasting) <xref:for forecasting task>

Нерекомендуемый параметр используйте вместо этого blocked_models.

exclude_nan_labels
Обязательно

Следует ли исключить строки со значениями NaN в метке. Значение по умолчанию — True.

verbosity
Обязательно
int

Уровень детализации для записи в файл журнала. Значение по умолчанию — INFO или 20. Допустимые значения определяются в библиотеке ведения журналов Python.

enable_tf
Обязательно

Устаревший параметр для включения или отключения алгоритмов Tensorflow. Значение по умолчанию — False.

model_explainability
Обязательно

Следует ли включить объяснение лучшей модели AutoML в конце всех итерации обучения AutoML. Значение по умолчанию — True. Дополнительные сведения см. в статье "Интерпретация: объяснения модели в автоматизированном машинном обучении".

allowed_models
Обязательно
list(str) или list(Classification) <xref:for classification task> или list(Regression) <xref:for regression task> или list(Forecasting) <xref:for forecasting task>

Список имен моделей для поиска эксперимента. Если это не указано, все модели, поддерживаемые для задачи, используются минус все указанные в blocked_models моделях TensorFlow или нерекомендуемые модели TensorFlow. Поддерживаемые модели для каждого типа задачи описаны в SupportedModels классе.

whitelist_models
Обязательно
list(str) или list(Classification) <xref:for classification task> или list(Regression) <xref:for regression task> или list(Forecasting) <xref:for forecasting task>

Нерекомендуемый параметр используйте вместо этого allowed_models.

enable_onnx_compatible_models
Обязательно

Включение или отключение принудительного применения моделей, совместимых с ONNX. Значение по умолчанию — False. Дополнительные сведения о Open Neural Network Exchange (ONNX) и Машинном обучении Azure см. в этой статье.

forecasting_parameters
Обязательно

Объект ForecastingParameters для хранения всех определенных параметров прогнозирования.

time_column_name
Обязательно
str

Имя столбца времени. Этот параметр требуется при прогнозировании для указания столбца datetime в входных данных, используемых для создания временных рядов и вывода его частоты. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

max_horizon
Обязательно
int

Требуемый максимальный горизонт прогнозирования в единицах частоты временных рядов. Значение по умолчанию — 1.

Единицы основаны на интервале времени обучающих данных, например ежемесячно, еженедельно, что прогнозировщик должен прогнозировать. При прогнозировании типа задачи этот параметр является обязательным. Дополнительные сведения о настройке параметров прогнозирования см. в статье "Автоматическое обучение модели прогнозирования временных рядов". Этот параметр устарел. Вместо этого используйте forecasting_parameters.

grain_column_names
Обязательно
str или list(str)

Имена столбцов, используемых для группировки таймерий. Его можно использовать для создания нескольких рядов. Если набор данных не определен, предполагается, что набор данных является одним временным рядом. Этот параметр используется с прогнозированием типа задачи. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

target_lags
Обязательно
int или list(int)

Число прошлых периодов задержки от целевого столбца. Значение по умолчанию — 1. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

При прогнозировании этот параметр представляет количество строк для задержки целевых значений на основе частоты данных. Это представляется как список или одно целое число. Задержка должна использоваться, если связь между независимыми переменными и зависимой переменной не совпадает или не сопоставляется по умолчанию. Например, при попытке прогнозировать спрос на продукт, спрос в любом месяце может зависеть от цены конкретных товаров за 3 месяца до этого. В этом примере может потребоваться отстать от целевого объекта (спроса) отрицательно на 3 месяца, чтобы модель обучала правильную связь. Дополнительные сведения см. в статье "Автоматическое обучение модели прогнозирования временных рядов".

feature_lags
Обязательно
str

Флаг для создания задержек для числовых функций. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

target_rolling_window_size
Обязательно
int

Количество прошлых периодов, используемых для создания скользящего среднего окна целевого столбца. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

При прогнозировании этот параметр представляет n исторических периодов, используемых для создания прогнозируемых значений, <= размера обучающего набора. Если опущено, n — это полный размер набора обучения. Этот параметр следует задавать в том случае, если при обучении модели нужно учитывать только определенный объем данных за предыдущие периоды.

country_or_region
Обязательно
str

Страна или регион, используемый для создания функций праздников. Это должен быть код страны или региона ISO 3166, например "US" или "GB". Этот параметр устарел. Вместо этого используйте forecasting_parameters.

use_stl
Обязательно
str

Настройте декомпозицию STL целевого столбца временных рядов. use_stl может принимать три значения: None (по умолчанию) - нет разкомпозиции stl, "season" - только генерировать компонент сезона и season_trend - создавать как сезон, так и компоненты тренда. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

seasonality
Обязательно
int или str

Задайте сезонность временных рядов. Если для сезонности задано значение auto, он будет выводиться. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

short_series_handling_configuration
Обязательно
str

Параметр, определяющий, как autoML должен обрабатывать короткие временные ряды.

Возможные значения: "auto" (по умолчанию), "pad", "drop" и None.

  • Автоматическая короткая серия будет заполнена, если нет длинных рядов, в противном случае короткие ряды будут удалены.
  • закладка всех коротких рядов будет заполнена.
  • удалить все короткие ряды будут удалены".
  • Ни один короткий ряд не будет изменен. Если задано значение "pad", таблица будет заполнена нулями и пустыми значениями для регрессоров и случайных значений для целевого объекта со средним значением медиана целевого значения для заданного идентификатора временных рядов. Если медиана больше или равно нулю, минимальное заполненное значение будет обрезано нулем: входные данные:

Дата

numeric_value

струна

целевой объект

01.01.2020

двадцать три

зелёный

55

Выходные данные, предполагая минимальное количество значений, равное четырем:

Дата

numeric_value

струна

целевой объект

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

01.01.2020

двадцать три

зелёный

55

Заметка: У нас есть два параметра short_series_handling_configuration и устаревшие short_series_handling. Если оба параметра заданы, мы синхронизируем их, как показано в таблице ниже (short_series_handling_configuration и short_series_handling для краткости помечаются как handling_configuration и обрабатываются соответственно).

обработка

handling_configuration

результирующая обработка

результирующий handling_configuration

Верно

авто

Верно

авто

Верно

подушечка

Верно

авто

Верно

капля

Верно

авто

Верно

Отсутствует

Неправда

Отсутствует

Неправда

авто

Неправда

Отсутствует

Неправда

подушечка

Неправда

Отсутствует

Неправда

капля

Неправда

Отсутствует

Неправда

Отсутствует

Неправда

Отсутствует

freq
Обязательно
str или None

Частота прогнозирования.

При прогнозировании этот параметр представляет период, с которым нужно, например ежедневно, еженедельно, ежегодно и т. д. Частота прогноза — это частота набора данных по умолчанию. При необходимости можно задать значение больше (но не меньше), чем частота набора данных. Мы объединим данные и создадим результаты на частоте прогнозирования. Например, для ежедневных данных можно задать частоту ежедневно, еженедельно или ежемесячно, но не почасовой. Частота должна быть псевдонимом смещения pandas. Дополнительные сведения см. в документации по pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
Обязательно
str или None

Функция, используемая для агрегирования целевого столбца временных рядов для соответствия заданной пользователем частоте. Если задана target_aggregation_function, но параметр freq не задан, возникает ошибка. Возможные функции агрегирования целевых значений: sum, max, min и среднее.

Частота

target_aggregation_function

Механизм исправления регулярности данных

Нет (по умолчанию)

Нет (по умолчанию)

Агрегирование не применяется. Если допустимая частота не может быть определена, возникает ошибка.

Некоторые значения

Нет (по умолчанию)

Агрегирование не применяется. Если число точек данных, соответствующих заданной сетке частоты, меньше 90%these точек будет удалено, в противном случае возникает ошибка.

Нет (по умолчанию)

Статистическая функция

Возникла ошибка о отсутствующих параметрах частоты.

Некоторые значения

Статистическая функция

Агрегирование на частоту с помощью функции предоставления агрегирования.

enable_voting_ensemble
Обязательно

Включение и отключение итерации VotingEnsemble. Значение по умолчанию — True. Дополнительные сведения об ансамблях см. в разделе "Конфигурация ансамбля".

enable_stack_ensemble
Обязательно

Включение и отключение итерации StackEnsemble. Значение по умолчанию — None. Если установлен флаг enable_onnx_compatible_models , то итерация StackEnsemble будет отключена. Аналогичным образом, для задач Timeseries итерация StackEnsemble будет отключена по умолчанию, чтобы избежать рисков переподбора из-за небольшого набора обучения, используемого в настройке метаобученного. Дополнительные сведения об ансамблях см. в разделе "Конфигурация ансамбля".

debug_log
Обязательно
str

Файл журнала для записи сведений отладки в. Если значение не указано, используется automl.log.

training_data
Обязательно

Обучающие данные, используемые в эксперименте. Он должен содержать как функции обучения, так и столбец меток (необязательно, пример столбца весовых значений). Если training_data задано, label_column_name необходимо также указать параметр.

training_data представлен в версии 1.0.81.

validation_data
Обязательно

Данные проверки, используемые в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки). Если указан validation_data, необходимо указать параметры training_data и label_column_name.

validation_data представлен в версии 1.0.81. Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

test_data
Обязательно

Функция тестирования модели с помощью тестовых наборов данных или разделения тестовых данных является функцией в состоянии предварительной версии и может изменяться в любое время. Тестовые данные, которые будут использоваться для тестового запуска, который будет автоматически запущен после завершения обучения модели. Тестовый запуск получит прогнозы с помощью оптимальной модели и вычислит метрики с учетом этих прогнозов.

Если этот параметр или test_size параметр не указан, выполнение тестового запуска не будет выполняться автоматически после завершения обучения модели. Тестовые данные должны содержать как компоненты, так и столбец меток. Если test_data задано label_column_name , необходимо указать параметр.

test_size
Обязательно

Функция тестирования модели с помощью тестовых наборов данных или разделения тестовых данных является функцией в состоянии предварительной версии и может изменяться в любое время. Какая доля обучающих данных для хранения тестовых данных для тестового запуска, который будет автоматически запущен после завершения обучения модели. Тестовый запуск получит прогнозы с помощью оптимальной модели и вычислит метрики с учетом этих прогнозов.

Это должно быть от 0,0 до 1.0, не включаемых. Если test_size задано validation_sizeодновременно, то тестовые данные разделяются до training_data разделения данных проверки. Например, если validation_size=0.1test_size=0.1 исходные данные обучения имеют 1000 строк, то тестовые данные будут иметь 100 строк, данные проверки будут содержать 90 строк, а обучающие данные будут иметь 810 строк.

Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. Прогнозирование в настоящее время не поддерживает указание тестового набора данных с помощью разделения обучения и тестирования.

Если этот параметр или test_data параметр не указан, выполнение тестового запуска не будет выполняться автоматически после завершения обучения модели.

label_column_name
Обязательно

Имя столбца метки. Если входные данные являются из панды. Кадр данных, у которого нет имен столбцов, вместо этого можно использовать индексы столбцов, выраженные как целые числа.

Этот параметр применим к training_dataпараметру validation_data и test_data параметрам. label_column_name представлен в версии 1.0.81.

weight_column_name
Обязательно

Имя столбца веса образца. Автоматизированное машинное обучение поддерживает взвешанный столбец в качестве входных данных, что приводит к тому, что строки в данных будут взвешированы вверх или вниз. Если входные данные являются из панды. Кадр данных, у которого нет имен столбцов, вместо этого можно использовать индексы столбцов, выраженные как целые числа.

Этот параметр применим к training_data параметрам и validation_data параметрам. weight_column_names представлен в версии 1.0.81.

cv_split_column_names
Обязательно

Список имен столбцов, содержащих настраиваемую перекрестную проверку. Каждый из разделенных столбцов CV представляет один раздел cv, где каждая строка помечена как 1 для обучения, так и 0 для проверки.

Этот параметр применим к параметру training_data для пользовательских целей перекрестной проверки. cv_split_column_names появилась в версии 1.6.0

Используйте либо cv_split_column_names, либо cv_splits_indices.

Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

enable_local_managed
Обязательно

Отключенный параметр. Локальные управляемые запуски нельзя включить в настоящее время.

enable_dnn
Обязательно

Следует ли включать модели на основе DNN во время выбора модели. Значение по умолчанию в инициализации — None. Однако значение по умолчанию — True для задач NLP DNN, а для всех других задач AutoML — false.

task
Обязательно
str или Tasks

Тип выполняемой задачи. Значения могут быть "классификация", "регрессия" или "прогнозирование" в зависимости от типа задачи автоматизированного машинного обучения для решения.

path
Обязательно
str

Полный путь к папке проекта Машинного обучения Azure. Если не указано, по умолчанию используется текущий каталог или ".".

iterations
Обязательно
int

Общее количество различных сочетаний алгоритмов и параметров для тестирования во время автоматизированного эксперимента машинного обучения. Если значение не указано, значение по умолчанию равно 1000 итераций.

primary_metric
Обязательно
str или Metric

Метрика, которую автоматизированное машинное обучение оптимизирует для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизироваться. Вы можете получить get_primary_metrics список допустимых метрик для данной задачи. Дополнительные сведения о том, как вычисляются метрики, см. в разделе https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Если значение не указано, точность используется для задач классификации, нормализованный средний квадрат используется для задач прогнозирования и регрессии, точность используется для классификации изображений и классификации многометок изображений, а средняя средняя точность используется для обнаружения объектов изображения.

positive_label
Обязательно
Any

Положительная метка класса, используемая автоматизированным машинным обучением для вычисления двоичных метрик. Двоичные метрики вычисляются в двух условиях для задач классификации:

  1. Столбец меток состоит из двух классов, указывающих на задачу двоичной классификации AutoML будет использовать указанный положительный класс при передаче positive_label , в противном случае AutoML выберет положительный класс на основе закодированного значения метки.
  2. Задача классификации нескольких классов с указанными positive_label

Дополнительные сведения о классификации см. в метриках получения сведений о сценариях классификации.

compute_target
Обязательно

Целевой объект вычислений Машинного обучения Azure для запуска эксперимента автоматизированного машинного обучения. Дополнительные сведения о целевых объектах вычислений см. в статье https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote .

spark_context
Обязательно
<xref:SparkContext>

Контекст Spark. Применимо только при использовании в среде Azure Databricks/Spark.

X
Обязательно

Функции обучения, используемые при установке конвейеров во время эксперимента. Этот параметр устарел. Вместо этого используйте training_data и label_column_name.

y
Обязательно

Метки обучения, используемые при установке конвейеров во время эксперимента. Это значение, которое будет прогнозировать модель. Этот параметр устарел. Вместо этого используйте training_data и label_column_name.

sample_weight
Обязательно

Вес для каждого примера обучения при выполнении конвейеров установки, каждая строка должна соответствовать строке в данных X и y.

Укажите этот параметр при указании X. Этот параметр устарел. Вместо этого используйте training_data и weight_column_name.

X_valid
Обязательно

Функции проверки, используемые при установке конвейеров во время эксперимента.

Если задано, y_valid то или sample_weight_valid необходимо также указать. Этот параметр устарел. Вместо этого используйте validation_data и label_column_name.

y_valid
Обязательно

Метки проверки, используемые при установке конвейеров во время эксперимента.

Оба X_valid и y_valid должны быть указаны вместе. Этот параметр устарел. Вместо этого используйте validation_data и label_column_name.

sample_weight_valid
Обязательно

Вес для каждого примера проверки при выполнении конвейеров оценки каждая строка должна соответствовать строке в данных X и y.

Укажите этот параметр при указании X_valid. Этот параметр устарел. Вместо этого используйте validation_data и weight_column_name.

cv_splits_indices
Обязательно

Индексы, где разделить данные обучения для перекрестной проверки. Каждая строка представляет собой отдельный перекрестный сверток и в каждой перекрестной папке, предоставляя 2 массива числовых элементов, первый с индексами для выборок, используемых для обучения данных, а второй — с индексами, используемыми для проверки данных. т.е., [[t1, v1], [t2, v2], ...] где t1 — это индексы обучения для первого перекрестного свертывания и v1 — это индексы проверки для первого перекрестного свертывания. Этот параметр поддерживается при передаче данных в виде отдельного набора данных компонентов и столбца Label.

Чтобы указать существующие данные в качестве данных проверки, используйте validation_data. Чтобы разрешить AutoML извлекать данные проверки из обучающих данных, укажите или n_cross_validationsvalidation_size. Используйте cv_split_column_names , если у вас есть столбцы training_dataперекрестной проверки.

validation_size
Обязательно

Какая доля данных для проверки не указана. Это должно быть от 0,0 до 1.0, не включаемых.

Укажите validation_data , чтобы предоставить данные проверки, в противном случае задайте n_cross_validations или validation_size извлеките данные проверки из указанных обучающих данных. Для пользовательского свертывания перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

n_cross_validations
Обязательно
int или str

Сколько перекрестных проверок выполняется, когда данные проверки пользователей не указаны.

Укажите validation_data , чтобы предоставить данные проверки, в противном случае задайте n_cross_validations или validation_size извлеките данные проверки из указанных обучающих данных. Для пользовательского свертывания перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

y_min
Обязательно

Минимальное значение y для эксперимента регрессии. Сочетание y_min и y_max используется для нормализации метрик набора тестов на основе диапазона входных данных. Этот параметр устарел. Вместо этого это значение будет вычисляться из данных.

y_max
Обязательно

Максимальное значение y для эксперимента регрессии. Сочетание y_min и y_max используется для нормализации метрик набора тестов на основе диапазона входных данных. Этот параметр устарел. Вместо этого это значение будет вычисляться из данных.

num_classes
Обязательно
int

Количество классов в данных меток для эксперимента классификации. Этот параметр устарел. Вместо этого это значение будет вычисляться из данных.

featurization
Обязательно

"auto" /off/ FeaturizationConfig Индикатор того, следует ли выполнять шаг признаков автоматически или нет, или следует ли использовать настраиваемые признаки. Примечание. Если входные данные являются разреженными, включить конструирование признаков невозможно.

Тип столбца автоматически обнаруживается. На основе обнаруженного типа столбца предварительной обработки или признаков выполняется следующим образом:

  • Категориальный: целевая кодировка, одна горячая кодировка, удаление категорий высокой кратности, вменяющая отсутствующие значения.

  • Числовое значение: олицетворение отсутствующих значений, расстояния кластера, вес доказательств.

  • DateTime: несколько функций, таких как день, секунды, минуты, часы и т. д.

  • Текст: мешок слов, предварительно обученное внедрение Word, кодировка текстового целевого объекта.

Дополнительные сведения см. в статье "Настройка автоматизированных экспериментов машинного обучения" в Python.

Чтобы настроить шаг инициализации, укажите объект FeaturizationConfig. В настоящее время настраиваемая инициализация поддерживает блокировку набора преобразователей, обновление назначения столбцов, редактирование параметров преобразователя и удаление столбцов. Дополнительные сведения см. в разделе "Настройка инженерии функций".

Примечание. Функции Timeseries обрабатываются отдельно, если для типа задачи задано прогнозирование независимо от этого параметра.

max_cores_per_iteration
Обязательно
int

Максимальное количество потоков, используемых для заданной итерации обучения. Допустимые значения:

  • Больше 1 и меньше или равно максимальному количеству ядер в целевом объекте вычислений.

  • Равно -1, что означает использование всех возможных ядер на итерацию для каждого дочернего запуска.

  • Равно 1, значение по умолчанию.

max_concurrent_iterations
Обязательно
int

Представляет максимальное количество итераций, которые будут выполняться параллельно. Значение по умолчанию — 1.

  • Кластеры AmlCompute поддерживают одно взаимодействие, выполняемое на каждом узле. При параллельном выполнении нескольких экспериментов в одном кластере AmlCompute сумма max_concurrent_iterations значений для всех экспериментов должна быть меньше или равна максимальному количеству узлов.

  • DSVM поддерживает несколько итераций на узел. max_concurrent_iterations должно быть меньше или равно числу ядер в DSVM. При параллельном выполнении нескольких экспериментов на одном dsVM сумма max_concurrent_iterations значений для всех экспериментов должна быть меньше или равна максимальному количеству узлов.

  • Databricks — max_concurrent_iterations должно быть меньше или равно количеству рабочих узлов в Databricks.

max_concurrent_iterations не применяется к локальным запускам. Ранее этот параметр был назван concurrent_iterations.

iteration_timeout_minutes
Обязательно
int

Максимальное время в минутах, для которых каждая итерация может выполняться до завершения. Если не указано, используется значение 1 месяца или 43200 минут.

mem_in_mb
Обязательно
int

Максимальное использование памяти, для выполнения каждой итерации перед завершением работы. Если не указано, используется значение 1 ТС или 1073741824 МБ.

enforce_time_on_windows
Обязательно

Следует ли применять ограничение времени на обучение модели при каждой итерации в Windows. Значение по умолчанию — True. Если выполняется из файла скрипта Python (.py), ознакомьтесь с документацией по разрешенным ограничениям ресурсов в Windows.

experiment_timeout_hours
Обязательно

Максимальное количество времени в часах, в течение которого могут быть пройдены все итерации до завершения эксперимента. Может быть десятичным значением, например 0,25, представляющее 15 минут. Если это не указано, время ожидания эксперимента по умолчанию — 6 дней. Чтобы указать время ожидания меньше или равно 1 часу, убедитесь, что размер набора данных не превышает 10 000 000 (столбец времени строк) или результаты ошибки.

experiment_exit_score
Обязательно

Целевая оценка для эксперимента. Эксперимент завершается после достижения этой оценки. Если не указано (без условий), эксперимент выполняется до тех пор, пока не будет выполнен дальнейший ход выполнения на первичной метрии. Дополнительные сведения о критериях выхода см. в этом разделе >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria"_".<<

enable_early_stopping
Обязательно

Следует ли включить досрочное завершение, если оценка не улучшается в краткосрочной перспективе. Значение по умолчанию — True.

Логика раннего остановки:

  • Нет ранней остановки для первых 20 итераций (ориентиров).

  • Окно ранней остановки начинается с 21-й итерации и ищет early_stopping_n_iters итерации (в настоящее время установлено значение 10). Это означает, что первая итерация, в которой может произойти остановка, — это 31-е.

  • AutoML по-прежнему планирует 2 итерации ансамбля ПОСЛЕ ранней остановки, что может привести к более высоким оценкам.

  • Ранние остановки активируются, если абсолютное значение лучшей оценки совпадает с прошлыми итерациями early_stopping_n_iters, то есть если нет улучшения оценки для early_stopping_n_iters итерации.

blocked_models
Обязательно
list(str) или list(Classification) <xref:for classification task> или list(Regression) <xref:for regression task> или list(Forecasting) <xref:for forecasting task>

Список алгоритмов, которые следует игнорировать для эксперимента. Если enable_tf имеет значение False, модели TensorFlow включаются в blocked_modelsнего.

blacklist_models
Обязательно
list(str) или list(Classification) <xref:for classification task> или list(Regression) <xref:for regression task> или list(Forecasting) <xref:for forecasting task>

Нерекомендуемый параметр используйте вместо этого blocked_models.

exclude_nan_labels
Обязательно

Следует ли исключить строки со значениями NaN в метке. Значение по умолчанию — True.

verbosity
Обязательно
int

Уровень детализации для записи в файл журнала. Значение по умолчанию — INFO или 20. Допустимые значения определяются в библиотеке ведения журналов Python.

enable_tf
Обязательно

Следует ли включить или отключить алгоритмы TensorFlow. Значение по умолчанию — False.

model_explainability
Обязательно

Следует ли включить объяснение лучшей модели AutoML в конце всех итерации обучения AutoML. Значение по умолчанию — True. Дополнительные сведения см. в статье "Интерпретация: объяснения модели в автоматизированном машинном обучении".

allowed_models
Обязательно
list(str) или list(Classification) <xref:for classification task> или list(Regression) <xref:for regression task> или list(Forecasting) <xref:for forecasting task>

Список имен моделей для поиска эксперимента. Если это не указано, все модели, поддерживаемые для задачи, используются минус все указанные в blocked_models моделях TensorFlow или нерекомендуемые модели TensorFlow. Поддерживаемые модели для каждого типа задачи описаны в SupportedModels классе.

allowed_models
Обязательно

Список имен моделей для поиска эксперимента. Если это не указано, все модели, поддерживаемые для задачи, используются минус все указанные в blocked_models моделях TensorFlow или нерекомендуемые модели TensorFlow. Поддерживаемые модели для каждого типа задачи описаны в SupportedModels классе.

whitelist_models
Обязательно

Нерекомендуемый параметр используйте вместо этого allowed_models.

enable_onnx_compatible_models
Обязательно

Включение или отключение принудительного применения моделей, совместимых с ONNX. Значение по умолчанию — False. Дополнительные сведения о Open Neural Network Exchange (ONNX) и Машинном обучении Azure см. в этой статье.

forecasting_parameters
Обязательно

Объект для хранения всех определенных параметров прогнозирования.

time_column_name
Обязательно
str

Имя столбца времени. Этот параметр требуется при прогнозировании для указания столбца datetime в входных данных, используемых для создания временных рядов и вывода его частоты. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

max_horizon
Обязательно
int

Требуемый максимальный горизонт прогнозирования в единицах частоты временных рядов. Значение по умолчанию — 1. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

Единицы основаны на интервале времени обучающих данных, например ежемесячно, еженедельно, что прогнозировщик должен прогнозировать. При прогнозировании типа задачи этот параметр является обязательным. Дополнительные сведения о настройке параметров прогнозирования см. в статье "Автоматическое обучение модели прогнозирования временных рядов".

grain_column_names
Обязательно
str или list(str)

Имена столбцов, используемых для группировки таймерий. Его можно использовать для создания нескольких рядов. Если набор данных не определен, предполагается, что набор данных является одним временным рядом. Этот параметр используется с прогнозированием типа задачи. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

target_lags
Обязательно
int или list(int)

Число прошлых периодов задержки от целевого столбца. Значение по умолчанию — 1. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

При прогнозировании этот параметр представляет количество строк для задержки целевых значений на основе частоты данных. Это представляется как список или одно целое число. Задержка должна использоваться, если связь между независимыми переменными и зависимой переменной не совпадает или не сопоставляется по умолчанию. Например, при попытке прогнозировать спрос на продукт, спрос в любом месяце может зависеть от цены конкретных товаров за 3 месяца до этого. В этом примере может потребоваться отстать от целевого объекта (спроса) отрицательно на 3 месяца, чтобы модель обучала правильную связь. Дополнительные сведения см. в статье "Автоматическое обучение модели прогнозирования временных рядов".

feature_lags
Обязательно
str

Флаг для создания задержек для числовых функций. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

target_rolling_window_size
Обязательно
int

Количество прошлых периодов, используемых для создания скользящего среднего окна целевого столбца. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

При прогнозировании этот параметр представляет n исторических периодов, используемых для создания прогнозируемых значений, <= размера обучающего набора. Если опущено, n — это полный размер набора обучения. Этот параметр следует задавать в том случае, если при обучении модели нужно учитывать только определенный объем данных за предыдущие периоды.

country_or_region
Обязательно
str

Страна или регион, используемый для создания функций праздников. Это должны быть коды стран и регионов ISO 3166, например "US" или "GB". Этот параметр устарел. Вместо этого используйте forecasting_parameters.

use_stl
Обязательно
str

Настройте декомпозицию STL целевого столбца временных рядов. use_stl может принимать три значения: None (по умолчанию) - нет разкомпозиции stl, "season" - только генерировать компонент сезона и season_trend - создавать как сезон, так и компоненты тренда. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

seasonality
Обязательно
int

Задайте сезонность временных рядов. Если для сезонности задано значение -1, он будет выводиться. Если use_stl не задано, этот параметр не будет использоваться. Этот параметр устарел. Вместо этого используйте forecasting_parameters.

short_series_handling_configuration
Обязательно
str

Параметр, определяющий, как autoML должен обрабатывать короткие временные ряды.

Возможные значения: "auto" (по умолчанию), "pad", "drop" и None.

  • Автоматическая короткая серия будет заполнена, если нет длинных рядов, в противном случае короткие ряды будут удалены.
  • закладка всех коротких рядов будет заполнена.
  • удалить все короткие ряды будут удалены".
  • Ни один короткий ряд не будет изменен. Если задано значение "pad", таблица будет заполнена нулями и пустыми значениями для регрессоров и случайных значений для целевого объекта со средним значением медиана целевого значения для заданного идентификатора временных рядов. Если медиана больше или равно нулю, минимальное заполненное значение будет обрезано нулем: входные данные:

Дата

numeric_value

струна

целевой объект

01.01.2020

двадцать три

зелёный

55

Выходные данные при условии, что минимальное число значений равно четырем: +————+—————+———-+--–+| Дата | numeric_value | string | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | зеленый | 55 | +————+—————+———-+——–+

Заметка: У нас есть два параметра short_series_handling_configuration и устаревшие short_series_handling. Если оба параметра заданы, мы синхронизируем их, как показано в таблице ниже (short_series_handling_configuration и short_series_handling для краткости помечаются как handling_configuration и обрабатываются соответственно).

обработка

handling_configuration

результирующая обработка

результирующий handling_configuration

Верно

авто

Верно

авто

Верно

подушечка

Верно

авто

Верно

капля

Верно

авто

Верно

Отсутствует

Неправда

Отсутствует

Неправда

авто

Неправда

Отсутствует

Неправда

подушечка

Неправда

Отсутствует

Неправда

капля

Неправда

Отсутствует

Неправда

Отсутствует

Неправда

Отсутствует

freq
Обязательно
str или None

Частота прогнозирования.

При прогнозировании этот параметр представляет период, с которым нужно, например ежедневно, еженедельно, ежегодно и т. д. Частота прогноза — это частота набора данных по умолчанию. При необходимости можно задать значение больше (но не меньше), чем частота набора данных. Мы объединим данные и создадим результаты на частоте прогнозирования. Например, для ежедневных данных можно задать частоту ежедневно, еженедельно или ежемесячно, но не почасовой. Частота должна быть псевдонимом смещения pandas. Дополнительные сведения см. в документации по pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
Обязательно
str или None

Функция, используемая для агрегирования целевого столбца временных рядов для соответствия заданной пользователем частоте. Если задана target_aggregation_function, но параметр freq не задан, возникает ошибка. Возможные функции агрегирования целевых значений: sum, max, min и среднее.

Частота

target_aggregation_function

Механизм исправления регулярности данных

Нет (по умолчанию)

Нет (по умолчанию)

Агрегирование не применяется. Если допустимая частота не может быть определена, возникает ошибка.

Некоторые значения

Нет (по умолчанию)

Агрегирование не применяется. Если число точек данных, соответствующих заданной сетке частоты, меньше 90%these точек будет удалено, в противном случае возникает ошибка.

Нет (по умолчанию)

Статистическая функция

Возникла ошибка о отсутствующих параметрах частоты.

Некоторые значения

Статистическая функция

Агрегирование на частоту с помощью функции предоставления агрегирования.

enable_voting_ensemble
Обязательно

Включение и отключение итерации VotingEnsemble. Значение по умолчанию — True. Дополнительные сведения об ансамблях см. в разделе "Конфигурация ансамбля".

enable_stack_ensemble
Обязательно

Включение и отключение итерации StackEnsemble. Значение по умолчанию — None. Если установлен флаг enable_onnx_compatible_models , то итерация StackEnsemble будет отключена. Аналогичным образом, для задач Timeseries итерация StackEnsemble будет отключена по умолчанию, чтобы избежать рисков переподбора из-за небольшого набора обучения, используемого в настройке метаобученного. Дополнительные сведения об ансамблях см. в разделе "Конфигурация ансамбля".

debug_log
Обязательно
str

Файл журнала для записи сведений отладки в. Если значение не указано, используется automl.log.

training_data
Обязательно

Обучающие данные, используемые в эксперименте. Он должен содержать как функции обучения, так и столбец меток (необязательно, пример столбца весовых значений). Если training_data задано, label_column_name необходимо также указать параметр.

training_data представлен в версии 1.0.81.

validation_data
Обязательно

Данные проверки, используемые в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки). Если указан validation_data, необходимо указать параметры training_data и label_column_name.

validation_data представлен в версии 1.0.81. Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

test_data
Обязательно

Функция тестирования модели с помощью тестовых наборов данных или разделения тестовых данных является функцией в состоянии предварительной версии и может изменяться в любое время. Тестовые данные, которые будут использоваться для тестового запуска, который будет автоматически запущен после завершения обучения модели. Тестовый запуск получит прогнозы с помощью оптимальной модели и вычислит метрики с учетом этих прогнозов.

Если этот параметр или test_size параметр не указан, выполнение тестового запуска не будет выполняться автоматически после завершения обучения модели. Тестовые данные должны содержать как компоненты, так и столбец меток. Если test_data задано label_column_name , необходимо указать параметр.

test_size
Обязательно

Функция тестирования модели с помощью тестовых наборов данных или разделения тестовых данных является функцией в состоянии предварительной версии и может изменяться в любое время. Какая доля обучающих данных для хранения тестовых данных для тестового запуска, который будет автоматически запущен после завершения обучения модели. Тестовый запуск получит прогнозы с помощью оптимальной модели и вычислит метрики с учетом этих прогнозов.

Это должно быть от 0,0 до 1.0, не включаемых. Если test_size задано validation_sizeодновременно, то тестовые данные разделяются до training_data разделения данных проверки. Например, если validation_size=0.1test_size=0.1 исходные данные обучения имеют 1000 строк, то тестовые данные будут иметь 100 строк, данные проверки будут содержать 90 строк, а обучающие данные будут иметь 810 строк.

Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. Прогнозирование в настоящее время не поддерживает указание тестового набора данных с помощью разделения обучения и тестирования.

Если этот параметр или test_data параметр не указан, выполнение тестового запуска не будет выполняться автоматически после завершения обучения модели.

label_column_name
Обязательно

Имя столбца метки. Если входные данные являются из панды. Кадр данных, у которого нет имен столбцов, вместо этого можно использовать индексы столбцов, выраженные как целые числа.

Этот параметр применим к training_dataпараметру validation_data и test_data параметрам. label_column_name представлен в версии 1.0.81.

weight_column_name
Обязательно

Имя столбца веса образца. Автоматизированное машинное обучение поддерживает взвешанный столбец в качестве входных данных, что приводит к тому, что строки в данных будут взвешированы вверх или вниз. Если входные данные являются из панды. Кадр данных, у которого нет имен столбцов, вместо этого можно использовать индексы столбцов, выраженные как целые числа.

Этот параметр применим к training_data параметрам и validation_data параметрам. weight_column_names представлен в версии 1.0.81.

cv_split_column_names
Обязательно

Список имен столбцов, содержащих настраиваемую перекрестную проверку. Каждый из разделенных столбцов CV представляет один раздел cv, где каждая строка помечена как 1 для обучения, так и 0 для проверки.

Этот параметр применим к параметру training_data для пользовательских целей перекрестной проверки. cv_split_column_names появилась в версии 1.6.0

Используйте либо cv_split_column_names, либо cv_splits_indices.

Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

enable_local_managed
Обязательно

Отключенный параметр. Локальные управляемые запуски нельзя включить в настоящее время.

enable_dnn
Обязательно

Следует ли включать модели на основе DNN во время выбора модели. Значение по умолчанию в инициализации — None. Однако значение по умолчанию — True для задач NLP DNN, а для всех других задач AutoML — false.

Комментарии

В следующем коде показан базовый пример создания объекта AutoMLConfig и отправки эксперимента для регрессии:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Полный пример доступен по регрессии

Примеры использования AutoMLConfig для прогнозирования приведены в следующих записных книжках:

Примеры использования AutoMLConfig для всех типов задач можно найти в этих автоматических записных книжках машинного обучения.

Дополнительные сведения об автоматизированном машинном обучении см. в статьях:

Дополнительные сведения о различных вариантах настройки разделения и перекрестной проверки данных обучения и перекрестной проверки для автоматизированного машинного обучения, AutoML, экспериментов см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".

Методы

as_serializable_dict

Преобразуйте объект в словарь.

get_supported_dataset_languages

Получите поддерживаемые языки и соответствующие коды языка в ISO 639-3.

as_serializable_dict

Преобразуйте объект в словарь.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Получите поддерживаемые языки и соответствующие коды языка в ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Параметры

Имя Описание
cls
Обязательно

Объект AutoMLConfigкласса .

use_gpu
Обязательно

логическое значение, указывающее, используются ли вычислительные ресурсы GPU.

Возвращаемое значение

Тип Описание

словарь формата {<языковой код>: <имя> языка}. Языковой код соответствует стандарту ISO 639-3, см. в статье https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes