AutoMLConfig Класс
Представляет конфигурацию для отправки автоматизированного эксперимента машинного обучения в Машинном обучении Azure.
Этот объект конфигурации содержит и сохраняет параметры для настройки выполнения эксперимента, а также обучающих данных, которые будут использоваться во время выполнения. Инструкции по выбору параметров см. в статье https://aka.ms/AutoMLConfig.
Создайте AutoMLConfig.
Конструктор
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
Параметры
| Имя | Описание |
|---|---|
|
task
Обязательно
|
Тип выполняемой задачи. Значения могут быть "классификация", "регрессия" или "прогнозирование" в зависимости от типа задачи автоматизированного машинного обучения для решения. |
|
path
Обязательно
|
Полный путь к папке проекта Машинного обучения Azure. Если не указано, по умолчанию используется текущий каталог или ".". |
|
iterations
Обязательно
|
Общее количество различных сочетаний алгоритмов и параметров для тестирования во время автоматизированного эксперимента машинного обучения. Если значение не указано, значение по умолчанию равно 1000 итераций. |
|
primary_metric
Обязательно
|
Метрика, которую автоматизированное машинное обучение оптимизирует для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизироваться. Вы можете получить get_primary_metrics список допустимых метрик для данной задачи. Дополнительные сведения о том, как вычисляются метрики, см. в разделе https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Если значение не указано, точность используется для задач классификации, нормализованный средний квадрат используется для задач прогнозирования и регрессии, точность используется для классификации изображений и классификации многометок изображений, а средняя средняя точность используется для обнаружения объектов изображения. |
|
positive_label
Обязательно
|
Положительная метка класса, используемая автоматизированным машинным обучением для вычисления двоичных метрик. Двоичные метрики вычисляются в двух условиях для задач классификации:
Дополнительные сведения о классификации см. в метриках получения сведений о сценариях классификации. |
|
compute_target
Обязательно
|
Целевой объект вычислений Машинного обучения Azure для запуска эксперимента автоматизированного машинного обучения. Дополнительные сведения о целевых объектах вычислений см. в статье https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote . |
|
spark_context
Обязательно
|
<xref:SparkContext>
Контекст Spark. Применимо только при использовании в среде Azure Databricks/Spark. |
|
X
Обязательно
|
Функции обучения, используемые при установке конвейеров во время эксперимента. Этот параметр устарел. Вместо этого используйте training_data и label_column_name. |
|
y
Обязательно
|
Метки обучения, используемые при установке конвейеров во время эксперимента. Это значение, которое будет прогнозировать модель. Этот параметр устарел. Вместо этого используйте training_data и label_column_name. |
|
sample_weight
Обязательно
|
Вес для каждого примера обучения при выполнении конвейеров установки, каждая строка должна соответствовать строке в данных X и y. Укажите этот параметр при указании |
|
X_valid
Обязательно
|
Функции проверки, используемые при установке конвейеров во время эксперимента. Если задано, |
|
y_valid
Обязательно
|
Метки проверки, используемые при установке конвейеров во время эксперимента. Оба |
|
sample_weight_valid
Обязательно
|
Вес для каждого примера проверки при выполнении конвейеров оценки каждая строка должна соответствовать строке в данных X и y. Укажите этот параметр при указании |
|
cv_splits_indices
Обязательно
|
Индексы, где разделить данные обучения для перекрестной проверки. Каждая строка представляет собой отдельный перекрестный сверток и в каждой перекрестной папке, предоставляя 2 массива числовых элементов, первый с индексами для выборок, используемых для обучения данных, а второй — с индексами, используемыми для проверки данных. т.е., [[t1, v1], [t2, v2], ...] где t1 — это индексы обучения для первого перекрестного свертывания и v1 — это индексы проверки для первого перекрестного свертывания. Чтобы указать существующие данные в качестве данных проверки, используйте |
|
validation_size
Обязательно
|
Какая доля данных для проверки не указана. Это должно быть от 0,0 до 1.0, не включаемых. Укажите Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении". |
|
n_cross_validations
Обязательно
|
Сколько перекрестных проверок выполняется, когда данные проверки пользователей не указаны. Укажите Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении". |
|
y_min
Обязательно
|
Минимальное значение y для эксперимента регрессии. Сочетание |
|
y_max
Обязательно
|
Максимальное значение y для эксперимента регрессии. Сочетание |
|
num_classes
Обязательно
|
Количество классов в данных меток для эксперимента классификации. Этот параметр устарел. Вместо этого это значение будет вычисляться из данных. |
|
featurization
Обязательно
|
"auto" /off/ FeaturizationConfig Индикатор того, следует ли выполнять шаг признаков автоматически или нет, или следует ли использовать настраиваемые признаки. Примечание. Если входные данные являются разреженными, включить конструирование признаков невозможно. Тип столбца автоматически обнаруживается. На основе обнаруженного типа столбца предварительной обработки или признаков выполняется следующим образом:
Дополнительные сведения см. в статье "Настройка автоматизированных экспериментов машинного обучения" в Python. Чтобы настроить шаг инициализации, укажите объект FeaturizationConfig. В настоящее время настраиваемая инициализация поддерживает блокировку набора преобразователей, обновление назначения столбцов, редактирование параметров преобразователя и удаление столбцов. Дополнительные сведения см. в разделе "Настройка инженерии функций". Примечание. Функции Timeseries обрабатываются отдельно, если для типа задачи задано прогнозирование независимо от этого параметра. |
|
max_cores_per_iteration
Обязательно
|
Максимальное количество потоков, используемых для заданной итерации обучения. Допустимые значения:
|
|
max_concurrent_iterations
Обязательно
|
Представляет максимальное количество итераций, которые будут выполняться параллельно. Значение по умолчанию — 1.
|
|
iteration_timeout_minutes
Обязательно
|
Максимальное время в минутах, для которых каждая итерация может выполняться до завершения. Если не указано, используется значение 1 месяца или 43200 минут. |
|
mem_in_mb
Обязательно
|
Максимальное использование памяти, для выполнения каждой итерации перед завершением работы. Если не указано, используется значение 1 ТС или 1073741824 МБ. |
|
enforce_time_on_windows
Обязательно
|
Следует ли применять ограничение времени на обучение модели при каждой итерации в Windows. Значение по умолчанию — True. Если выполняется из файла скрипта Python (.py), ознакомьтесь с документацией по разрешенным ограничениям ресурсов в Windows. |
|
experiment_timeout_hours
Обязательно
|
Максимальное количество времени в часах, в течение которого могут быть пройдены все итерации до завершения эксперимента. Может быть десятичным значением, например 0,25, представляющее 15 минут. Если это не указано, время ожидания эксперимента по умолчанию — 6 дней. Чтобы указать время ожидания меньше или равно 1 часу, убедитесь, что размер набора данных не превышает 10 000 000 (столбец времени строк) или результаты ошибки. |
|
experiment_exit_score
Обязательно
|
Целевая оценка для эксперимента. Эксперимент завершается после достижения этой оценки. Если не указано (без условий), эксперимент выполняется до тех пор, пока не будет выполнен дальнейший ход выполнения на первичной метрии. Дополнительные сведения о критериях выхода см. в этой статье. |
|
enable_early_stopping
Обязательно
|
Следует ли включить досрочное завершение, если оценка не улучшается в краткосрочной перспективе. Значение по умолчанию — True. Логика раннего остановки:
|
|
blocked_models
Обязательно
|
list(str) или
list(Classification) <xref:for classification task> или
list(Regression) <xref:for regression task> или
list(Forecasting) <xref:for forecasting task>
Список алгоритмов, которые следует игнорировать для эксперимента. Если |
|
blacklist_models
Обязательно
|
list(str) или
list(Classification) <xref:for classification task> или
list(Regression) <xref:for regression task> или
list(Forecasting) <xref:for forecasting task>
Нерекомендуемый параметр используйте вместо этого blocked_models. |
|
exclude_nan_labels
Обязательно
|
Следует ли исключить строки со значениями NaN в метке. Значение по умолчанию — True. |
|
verbosity
Обязательно
|
Уровень детализации для записи в файл журнала. Значение по умолчанию — INFO или 20. Допустимые значения определяются в библиотеке ведения журналов Python. |
|
enable_tf
Обязательно
|
Устаревший параметр для включения или отключения алгоритмов Tensorflow. Значение по умолчанию — False. |
|
model_explainability
Обязательно
|
Следует ли включить объяснение лучшей модели AutoML в конце всех итерации обучения AutoML. Значение по умолчанию — True. Дополнительные сведения см. в статье "Интерпретация: объяснения модели в автоматизированном машинном обучении". |
|
allowed_models
Обязательно
|
list(str) или
list(Classification) <xref:for classification task> или
list(Regression) <xref:for regression task> или
list(Forecasting) <xref:for forecasting task>
Список имен моделей для поиска эксперимента. Если это не указано, все модели, поддерживаемые для задачи, используются минус все указанные в |
|
whitelist_models
Обязательно
|
list(str) или
list(Classification) <xref:for classification task> или
list(Regression) <xref:for regression task> или
list(Forecasting) <xref:for forecasting task>
Нерекомендуемый параметр используйте вместо этого allowed_models. |
|
enable_onnx_compatible_models
Обязательно
|
Включение или отключение принудительного применения моделей, совместимых с ONNX. Значение по умолчанию — False. Дополнительные сведения о Open Neural Network Exchange (ONNX) и Машинном обучении Azure см. в этой статье. |
|
forecasting_parameters
Обязательно
|
Объект ForecastingParameters для хранения всех определенных параметров прогнозирования. |
|
time_column_name
Обязательно
|
Имя столбца времени. Этот параметр требуется при прогнозировании для указания столбца datetime в входных данных, используемых для создания временных рядов и вывода его частоты. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
max_horizon
Обязательно
|
Требуемый максимальный горизонт прогнозирования в единицах частоты временных рядов. Значение по умолчанию — 1. Единицы основаны на интервале времени обучающих данных, например ежемесячно, еженедельно, что прогнозировщик должен прогнозировать. При прогнозировании типа задачи этот параметр является обязательным. Дополнительные сведения о настройке параметров прогнозирования см. в статье "Автоматическое обучение модели прогнозирования временных рядов". Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
grain_column_names
Обязательно
|
Имена столбцов, используемых для группировки таймерий. Его можно использовать для создания нескольких рядов. Если набор данных не определен, предполагается, что набор данных является одним временным рядом. Этот параметр используется с прогнозированием типа задачи. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
target_lags
Обязательно
|
Число прошлых периодов задержки от целевого столбца. Значение по умолчанию — 1. Этот параметр устарел. Вместо этого используйте forecasting_parameters. При прогнозировании этот параметр представляет количество строк для задержки целевых значений на основе частоты данных. Это представляется как список или одно целое число. Задержка должна использоваться, если связь между независимыми переменными и зависимой переменной не совпадает или не сопоставляется по умолчанию. Например, при попытке прогнозировать спрос на продукт, спрос в любом месяце может зависеть от цены конкретных товаров за 3 месяца до этого. В этом примере может потребоваться отстать от целевого объекта (спроса) отрицательно на 3 месяца, чтобы модель обучала правильную связь. Дополнительные сведения см. в статье "Автоматическое обучение модели прогнозирования временных рядов". |
|
feature_lags
Обязательно
|
Флаг для создания задержек для числовых функций. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
target_rolling_window_size
Обязательно
|
Количество прошлых периодов, используемых для создания скользящего среднего окна целевого столбца. Этот параметр устарел. Вместо этого используйте forecasting_parameters. При прогнозировании этот параметр представляет n исторических периодов, используемых для создания прогнозируемых значений, <= размера обучающего набора. Если опущено, n — это полный размер набора обучения. Этот параметр следует задавать в том случае, если при обучении модели нужно учитывать только определенный объем данных за предыдущие периоды. |
|
country_or_region
Обязательно
|
Страна или регион, используемый для создания функций праздников. Это должен быть код страны или региона ISO 3166, например "US" или "GB". Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
use_stl
Обязательно
|
Настройте декомпозицию STL целевого столбца временных рядов. use_stl может принимать три значения: None (по умолчанию) - нет разкомпозиции stl, "season" - только генерировать компонент сезона и season_trend - создавать как сезон, так и компоненты тренда. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
seasonality
Обязательно
|
Задайте сезонность временных рядов. Если для сезонности задано значение auto, он будет выводиться. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
short_series_handling_configuration
Обязательно
|
Параметр, определяющий, как autoML должен обрабатывать короткие временные ряды. Возможные значения: "auto" (по умолчанию), "pad", "drop" и None.
Дата numeric_value струна целевой объект 01.01.2020 двадцать три зелёный 55 Выходные данные, предполагая минимальное количество значений, равное четырем: Дата numeric_value струна целевой объект 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 01.01.2020 двадцать три зелёный 55 Заметка: У нас есть два параметра short_series_handling_configuration и устаревшие short_series_handling. Если оба параметра заданы, мы синхронизируем их, как показано в таблице ниже (short_series_handling_configuration и short_series_handling для краткости помечаются как handling_configuration и обрабатываются соответственно). обработка handling_configuration результирующая обработка результирующий handling_configuration Верно авто Верно авто Верно подушечка Верно авто Верно капля Верно авто Верно Отсутствует Неправда Отсутствует Неправда авто Неправда Отсутствует Неправда подушечка Неправда Отсутствует Неправда капля Неправда Отсутствует Неправда Отсутствует Неправда Отсутствует |
|
freq
Обязательно
|
Частота прогнозирования. При прогнозировании этот параметр представляет период, с которым нужно, например ежедневно, еженедельно, ежегодно и т. д. Частота прогноза — это частота набора данных по умолчанию. При необходимости можно задать значение больше (но не меньше), чем частота набора данных. Мы объединим данные и создадим результаты на частоте прогнозирования. Например, для ежедневных данных можно задать частоту ежедневно, еженедельно или ежемесячно, но не почасовой. Частота должна быть псевдонимом смещения pandas. Дополнительные сведения см. в документации по pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
|
target_aggregation_function
Обязательно
|
Функция, используемая для агрегирования целевого столбца временных рядов для соответствия заданной пользователем частоте. Если задана target_aggregation_function, но параметр freq не задан, возникает ошибка. Возможные функции агрегирования целевых значений: sum, max, min и среднее. Частота target_aggregation_function Механизм исправления регулярности данных Нет (по умолчанию) Нет (по умолчанию) Агрегирование не применяется. Если допустимая частота не может быть определена, возникает ошибка. Некоторые значения Нет (по умолчанию) Агрегирование не применяется. Если число точек данных, соответствующих заданной сетке частоты, меньше 90%these точек будет удалено, в противном случае возникает ошибка. Нет (по умолчанию) Статистическая функция Возникла ошибка о отсутствующих параметрах частоты. Некоторые значения Статистическая функция Агрегирование на частоту с помощью функции предоставления агрегирования. |
|
enable_voting_ensemble
Обязательно
|
Включение и отключение итерации VotingEnsemble. Значение по умолчанию — True. Дополнительные сведения об ансамблях см. в разделе "Конфигурация ансамбля". |
|
enable_stack_ensemble
Обязательно
|
Включение и отключение итерации StackEnsemble. Значение по умолчанию — None. Если установлен флаг enable_onnx_compatible_models , то итерация StackEnsemble будет отключена. Аналогичным образом, для задач Timeseries итерация StackEnsemble будет отключена по умолчанию, чтобы избежать рисков переподбора из-за небольшого набора обучения, используемого в настройке метаобученного. Дополнительные сведения об ансамблях см. в разделе "Конфигурация ансамбля". |
|
debug_log
Обязательно
|
Файл журнала для записи сведений отладки в. Если значение не указано, используется automl.log. |
|
training_data
Обязательно
|
Обучающие данные, используемые в эксперименте.
Он должен содержать как функции обучения, так и столбец меток (необязательно, пример столбца весовых значений).
Если
|
|
validation_data
Обязательно
|
Данные проверки, используемые в эксперименте.
Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).
Если указан
|
|
test_data
Обязательно
|
Функция тестирования модели с помощью тестовых наборов данных или разделения тестовых данных является функцией в состоянии предварительной версии и может изменяться в любое время. Тестовые данные, которые будут использоваться для тестового запуска, который будет автоматически запущен после завершения обучения модели. Тестовый запуск получит прогнозы с помощью оптимальной модели и вычислит метрики с учетом этих прогнозов. Если этот параметр или |
|
test_size
Обязательно
|
Функция тестирования модели с помощью тестовых наборов данных или разделения тестовых данных является функцией в состоянии предварительной версии и может изменяться в любое время. Какая доля обучающих данных для хранения тестовых данных для тестового запуска, который будет автоматически запущен после завершения обучения модели. Тестовый запуск получит прогнозы с помощью оптимальной модели и вычислит метрики с учетом этих прогнозов. Это должно быть от 0,0 до 1.0, не включаемых.
Если Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. Прогнозирование в настоящее время не поддерживает указание тестового набора данных с помощью разделения обучения и тестирования. Если этот параметр или |
|
label_column_name
Обязательно
|
Имя столбца метки. Если входные данные являются из панды. Кадр данных, у которого нет имен столбцов, вместо этого можно использовать индексы столбцов, выраженные как целые числа. Этот параметр применим к |
|
weight_column_name
Обязательно
|
Имя столбца веса образца. Автоматизированное машинное обучение поддерживает взвешанный столбец в качестве входных данных, что приводит к тому, что строки в данных будут взвешированы вверх или вниз. Если входные данные являются из панды. Кадр данных, у которого нет имен столбцов, вместо этого можно использовать индексы столбцов, выраженные как целые числа. Этот параметр применим к |
|
cv_split_column_names
Обязательно
|
Список имен столбцов, содержащих настраиваемую перекрестную проверку. Каждый из разделенных столбцов CV представляет один раздел cv, где каждая строка помечена как 1 для обучения, так и 0 для проверки. Этот параметр применим к параметру Используйте либо Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении". |
|
enable_local_managed
Обязательно
|
Отключенный параметр. Локальные управляемые запуски нельзя включить в настоящее время. |
|
enable_dnn
Обязательно
|
Следует ли включать модели на основе DNN во время выбора модели. Значение по умолчанию в инициализации — None. Однако значение по умолчанию — True для задач NLP DNN, а для всех других задач AutoML — false. |
|
task
Обязательно
|
Тип выполняемой задачи. Значения могут быть "классификация", "регрессия" или "прогнозирование" в зависимости от типа задачи автоматизированного машинного обучения для решения. |
|
path
Обязательно
|
Полный путь к папке проекта Машинного обучения Azure. Если не указано, по умолчанию используется текущий каталог или ".". |
|
iterations
Обязательно
|
Общее количество различных сочетаний алгоритмов и параметров для тестирования во время автоматизированного эксперимента машинного обучения. Если значение не указано, значение по умолчанию равно 1000 итераций. |
|
primary_metric
Обязательно
|
Метрика, которую автоматизированное машинное обучение оптимизирует для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизироваться. Вы можете получить get_primary_metrics список допустимых метрик для данной задачи. Дополнительные сведения о том, как вычисляются метрики, см. в разделе https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Если значение не указано, точность используется для задач классификации, нормализованный средний квадрат используется для задач прогнозирования и регрессии, точность используется для классификации изображений и классификации многометок изображений, а средняя средняя точность используется для обнаружения объектов изображения. |
|
positive_label
Обязательно
|
Положительная метка класса, используемая автоматизированным машинным обучением для вычисления двоичных метрик. Двоичные метрики вычисляются в двух условиях для задач классификации:
Дополнительные сведения о классификации см. в метриках получения сведений о сценариях классификации. |
|
compute_target
Обязательно
|
Целевой объект вычислений Машинного обучения Azure для запуска эксперимента автоматизированного машинного обучения. Дополнительные сведения о целевых объектах вычислений см. в статье https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote . |
|
spark_context
Обязательно
|
<xref:SparkContext>
Контекст Spark. Применимо только при использовании в среде Azure Databricks/Spark. |
|
X
Обязательно
|
Функции обучения, используемые при установке конвейеров во время эксперимента. Этот параметр устарел. Вместо этого используйте training_data и label_column_name. |
|
y
Обязательно
|
Метки обучения, используемые при установке конвейеров во время эксперимента. Это значение, которое будет прогнозировать модель. Этот параметр устарел. Вместо этого используйте training_data и label_column_name. |
|
sample_weight
Обязательно
|
Вес для каждого примера обучения при выполнении конвейеров установки, каждая строка должна соответствовать строке в данных X и y. Укажите этот параметр при указании |
|
X_valid
Обязательно
|
Функции проверки, используемые при установке конвейеров во время эксперимента. Если задано, |
|
y_valid
Обязательно
|
Метки проверки, используемые при установке конвейеров во время эксперимента. Оба |
|
sample_weight_valid
Обязательно
|
Вес для каждого примера проверки при выполнении конвейеров оценки каждая строка должна соответствовать строке в данных X и y. Укажите этот параметр при указании |
|
cv_splits_indices
Обязательно
|
Индексы, где разделить данные обучения для перекрестной проверки. Каждая строка представляет собой отдельный перекрестный сверток и в каждой перекрестной папке, предоставляя 2 массива числовых элементов, первый с индексами для выборок, используемых для обучения данных, а второй — с индексами, используемыми для проверки данных. т.е., [[t1, v1], [t2, v2], ...] где t1 — это индексы обучения для первого перекрестного свертывания и v1 — это индексы проверки для первого перекрестного свертывания. Этот параметр поддерживается при передаче данных в виде отдельного набора данных компонентов и столбца Label. Чтобы указать существующие данные в качестве данных проверки, используйте |
|
validation_size
Обязательно
|
Какая доля данных для проверки не указана. Это должно быть от 0,0 до 1.0, не включаемых. Укажите Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении". |
|
n_cross_validations
Обязательно
|
Сколько перекрестных проверок выполняется, когда данные проверки пользователей не указаны. Укажите Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении". |
|
y_min
Обязательно
|
Минимальное значение y для эксперимента регрессии. Сочетание |
|
y_max
Обязательно
|
Максимальное значение y для эксперимента регрессии. Сочетание |
|
num_classes
Обязательно
|
Количество классов в данных меток для эксперимента классификации. Этот параметр устарел. Вместо этого это значение будет вычисляться из данных. |
|
featurization
Обязательно
|
"auto" /off/ FeaturizationConfig Индикатор того, следует ли выполнять шаг признаков автоматически или нет, или следует ли использовать настраиваемые признаки. Примечание. Если входные данные являются разреженными, включить конструирование признаков невозможно. Тип столбца автоматически обнаруживается. На основе обнаруженного типа столбца предварительной обработки или признаков выполняется следующим образом:
Дополнительные сведения см. в статье "Настройка автоматизированных экспериментов машинного обучения" в Python. Чтобы настроить шаг инициализации, укажите объект FeaturizationConfig. В настоящее время настраиваемая инициализация поддерживает блокировку набора преобразователей, обновление назначения столбцов, редактирование параметров преобразователя и удаление столбцов. Дополнительные сведения см. в разделе "Настройка инженерии функций". Примечание. Функции Timeseries обрабатываются отдельно, если для типа задачи задано прогнозирование независимо от этого параметра. |
|
max_cores_per_iteration
Обязательно
|
Максимальное количество потоков, используемых для заданной итерации обучения. Допустимые значения:
|
|
max_concurrent_iterations
Обязательно
|
Представляет максимальное количество итераций, которые будут выполняться параллельно. Значение по умолчанию — 1.
|
|
iteration_timeout_minutes
Обязательно
|
Максимальное время в минутах, для которых каждая итерация может выполняться до завершения. Если не указано, используется значение 1 месяца или 43200 минут. |
|
mem_in_mb
Обязательно
|
Максимальное использование памяти, для выполнения каждой итерации перед завершением работы. Если не указано, используется значение 1 ТС или 1073741824 МБ. |
|
enforce_time_on_windows
Обязательно
|
Следует ли применять ограничение времени на обучение модели при каждой итерации в Windows. Значение по умолчанию — True. Если выполняется из файла скрипта Python (.py), ознакомьтесь с документацией по разрешенным ограничениям ресурсов в Windows. |
|
experiment_timeout_hours
Обязательно
|
Максимальное количество времени в часах, в течение которого могут быть пройдены все итерации до завершения эксперимента. Может быть десятичным значением, например 0,25, представляющее 15 минут. Если это не указано, время ожидания эксперимента по умолчанию — 6 дней. Чтобы указать время ожидания меньше или равно 1 часу, убедитесь, что размер набора данных не превышает 10 000 000 (столбец времени строк) или результаты ошибки. |
|
experiment_exit_score
Обязательно
|
Целевая оценка для эксперимента. Эксперимент завершается после достижения этой оценки.
Если не указано (без условий), эксперимент выполняется до тех пор, пока не будет выполнен дальнейший ход выполнения на первичной метрии. Дополнительные сведения о критериях выхода см. в этом разделе >> |
|
enable_early_stopping
Обязательно
|
Следует ли включить досрочное завершение, если оценка не улучшается в краткосрочной перспективе. Значение по умолчанию — True. Логика раннего остановки:
|
|
blocked_models
Обязательно
|
list(str) или
list(Classification) <xref:for classification task> или
list(Regression) <xref:for regression task> или
list(Forecasting) <xref:for forecasting task>
Список алгоритмов, которые следует игнорировать для эксперимента. Если |
|
blacklist_models
Обязательно
|
list(str) или
list(Classification) <xref:for classification task> или
list(Regression) <xref:for regression task> или
list(Forecasting) <xref:for forecasting task>
Нерекомендуемый параметр используйте вместо этого blocked_models. |
|
exclude_nan_labels
Обязательно
|
Следует ли исключить строки со значениями NaN в метке. Значение по умолчанию — True. |
|
verbosity
Обязательно
|
Уровень детализации для записи в файл журнала. Значение по умолчанию — INFO или 20. Допустимые значения определяются в библиотеке ведения журналов Python. |
|
enable_tf
Обязательно
|
Следует ли включить или отключить алгоритмы TensorFlow. Значение по умолчанию — False. |
|
model_explainability
Обязательно
|
Следует ли включить объяснение лучшей модели AutoML в конце всех итерации обучения AutoML. Значение по умолчанию — True. Дополнительные сведения см. в статье "Интерпретация: объяснения модели в автоматизированном машинном обучении". |
|
allowed_models
Обязательно
|
list(str) или
list(Classification) <xref:for classification task> или
list(Regression) <xref:for regression task> или
list(Forecasting) <xref:for forecasting task>
Список имен моделей для поиска эксперимента. Если это не указано, все модели, поддерживаемые для задачи, используются минус все указанные в |
|
allowed_models
Обязательно
|
Список имен моделей для поиска эксперимента. Если это не указано, все модели, поддерживаемые для задачи, используются минус все указанные в |
|
whitelist_models
Обязательно
|
Нерекомендуемый параметр используйте вместо этого allowed_models. |
|
enable_onnx_compatible_models
Обязательно
|
Включение или отключение принудительного применения моделей, совместимых с ONNX. Значение по умолчанию — False. Дополнительные сведения о Open Neural Network Exchange (ONNX) и Машинном обучении Azure см. в этой статье. |
|
forecasting_parameters
Обязательно
|
Объект для хранения всех определенных параметров прогнозирования. |
|
time_column_name
Обязательно
|
Имя столбца времени. Этот параметр требуется при прогнозировании для указания столбца datetime в входных данных, используемых для создания временных рядов и вывода его частоты. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
max_horizon
Обязательно
|
Требуемый максимальный горизонт прогнозирования в единицах частоты временных рядов. Значение по умолчанию — 1. Этот параметр устарел. Вместо этого используйте forecasting_parameters. Единицы основаны на интервале времени обучающих данных, например ежемесячно, еженедельно, что прогнозировщик должен прогнозировать. При прогнозировании типа задачи этот параметр является обязательным. Дополнительные сведения о настройке параметров прогнозирования см. в статье "Автоматическое обучение модели прогнозирования временных рядов". |
|
grain_column_names
Обязательно
|
Имена столбцов, используемых для группировки таймерий. Его можно использовать для создания нескольких рядов. Если набор данных не определен, предполагается, что набор данных является одним временным рядом. Этот параметр используется с прогнозированием типа задачи. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
target_lags
Обязательно
|
Число прошлых периодов задержки от целевого столбца. Значение по умолчанию — 1. Этот параметр устарел. Вместо этого используйте forecasting_parameters. При прогнозировании этот параметр представляет количество строк для задержки целевых значений на основе частоты данных. Это представляется как список или одно целое число. Задержка должна использоваться, если связь между независимыми переменными и зависимой переменной не совпадает или не сопоставляется по умолчанию. Например, при попытке прогнозировать спрос на продукт, спрос в любом месяце может зависеть от цены конкретных товаров за 3 месяца до этого. В этом примере может потребоваться отстать от целевого объекта (спроса) отрицательно на 3 месяца, чтобы модель обучала правильную связь. Дополнительные сведения см. в статье "Автоматическое обучение модели прогнозирования временных рядов". |
|
feature_lags
Обязательно
|
Флаг для создания задержек для числовых функций. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
target_rolling_window_size
Обязательно
|
Количество прошлых периодов, используемых для создания скользящего среднего окна целевого столбца. Этот параметр устарел. Вместо этого используйте forecasting_parameters. При прогнозировании этот параметр представляет n исторических периодов, используемых для создания прогнозируемых значений, <= размера обучающего набора. Если опущено, n — это полный размер набора обучения. Этот параметр следует задавать в том случае, если при обучении модели нужно учитывать только определенный объем данных за предыдущие периоды. |
|
country_or_region
Обязательно
|
Страна или регион, используемый для создания функций праздников. Это должны быть коды стран и регионов ISO 3166, например "US" или "GB". Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
use_stl
Обязательно
|
Настройте декомпозицию STL целевого столбца временных рядов. use_stl может принимать три значения: None (по умолчанию) - нет разкомпозиции stl, "season" - только генерировать компонент сезона и season_trend - создавать как сезон, так и компоненты тренда. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
seasonality
Обязательно
|
Задайте сезонность временных рядов. Если для сезонности задано значение -1, он будет выводиться. Если use_stl не задано, этот параметр не будет использоваться. Этот параметр устарел. Вместо этого используйте forecasting_parameters. |
|
short_series_handling_configuration
Обязательно
|
Параметр, определяющий, как autoML должен обрабатывать короткие временные ряды. Возможные значения: "auto" (по умолчанию), "pad", "drop" и None.
Дата numeric_value струна целевой объект 01.01.2020 двадцать три зелёный 55 Выходные данные при условии, что минимальное число значений равно четырем: +————+—————+———-+--–+| Дата | numeric_value | string | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | зеленый | 55 | +————+—————+———-+——–+ Заметка: У нас есть два параметра short_series_handling_configuration и устаревшие short_series_handling. Если оба параметра заданы, мы синхронизируем их, как показано в таблице ниже (short_series_handling_configuration и short_series_handling для краткости помечаются как handling_configuration и обрабатываются соответственно). обработка handling_configuration результирующая обработка результирующий handling_configuration Верно авто Верно авто Верно подушечка Верно авто Верно капля Верно авто Верно Отсутствует Неправда Отсутствует Неправда авто Неправда Отсутствует Неправда подушечка Неправда Отсутствует Неправда капля Неправда Отсутствует Неправда Отсутствует Неправда Отсутствует |
|
freq
Обязательно
|
Частота прогнозирования. При прогнозировании этот параметр представляет период, с которым нужно, например ежедневно, еженедельно, ежегодно и т. д. Частота прогноза — это частота набора данных по умолчанию. При необходимости можно задать значение больше (но не меньше), чем частота набора данных. Мы объединим данные и создадим результаты на частоте прогнозирования. Например, для ежедневных данных можно задать частоту ежедневно, еженедельно или ежемесячно, но не почасовой. Частота должна быть псевдонимом смещения pandas. Дополнительные сведения см. в документации по pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
|
target_aggregation_function
Обязательно
|
Функция, используемая для агрегирования целевого столбца временных рядов для соответствия заданной пользователем частоте. Если задана target_aggregation_function, но параметр freq не задан, возникает ошибка. Возможные функции агрегирования целевых значений: sum, max, min и среднее. Частота target_aggregation_function Механизм исправления регулярности данных Нет (по умолчанию) Нет (по умолчанию) Агрегирование не применяется. Если допустимая частота не может быть определена, возникает ошибка. Некоторые значения Нет (по умолчанию) Агрегирование не применяется. Если число точек данных, соответствующих заданной сетке частоты, меньше 90%these точек будет удалено, в противном случае возникает ошибка. Нет (по умолчанию) Статистическая функция Возникла ошибка о отсутствующих параметрах частоты. Некоторые значения Статистическая функция Агрегирование на частоту с помощью функции предоставления агрегирования. |
|
enable_voting_ensemble
Обязательно
|
Включение и отключение итерации VotingEnsemble. Значение по умолчанию — True. Дополнительные сведения об ансамблях см. в разделе "Конфигурация ансамбля". |
|
enable_stack_ensemble
Обязательно
|
Включение и отключение итерации StackEnsemble. Значение по умолчанию — None. Если установлен флаг enable_onnx_compatible_models , то итерация StackEnsemble будет отключена. Аналогичным образом, для задач Timeseries итерация StackEnsemble будет отключена по умолчанию, чтобы избежать рисков переподбора из-за небольшого набора обучения, используемого в настройке метаобученного. Дополнительные сведения об ансамблях см. в разделе "Конфигурация ансамбля". |
|
debug_log
Обязательно
|
Файл журнала для записи сведений отладки в. Если значение не указано, используется automl.log. |
|
training_data
Обязательно
|
Обучающие данные, используемые в эксперименте.
Он должен содержать как функции обучения, так и столбец меток (необязательно, пример столбца весовых значений).
Если
|
|
validation_data
Обязательно
|
Данные проверки, используемые в эксперименте.
Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).
Если указан
|
|
test_data
Обязательно
|
Функция тестирования модели с помощью тестовых наборов данных или разделения тестовых данных является функцией в состоянии предварительной версии и может изменяться в любое время. Тестовые данные, которые будут использоваться для тестового запуска, который будет автоматически запущен после завершения обучения модели. Тестовый запуск получит прогнозы с помощью оптимальной модели и вычислит метрики с учетом этих прогнозов. Если этот параметр или |
|
test_size
Обязательно
|
Функция тестирования модели с помощью тестовых наборов данных или разделения тестовых данных является функцией в состоянии предварительной версии и может изменяться в любое время. Какая доля обучающих данных для хранения тестовых данных для тестового запуска, который будет автоматически запущен после завершения обучения модели. Тестовый запуск получит прогнозы с помощью оптимальной модели и вычислит метрики с учетом этих прогнозов. Это должно быть от 0,0 до 1.0, не включаемых.
Если Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. Прогнозирование в настоящее время не поддерживает указание тестового набора данных с помощью разделения обучения и тестирования. Если этот параметр или |
|
label_column_name
Обязательно
|
Имя столбца метки. Если входные данные являются из панды. Кадр данных, у которого нет имен столбцов, вместо этого можно использовать индексы столбцов, выраженные как целые числа. Этот параметр применим к |
|
weight_column_name
Обязательно
|
Имя столбца веса образца. Автоматизированное машинное обучение поддерживает взвешанный столбец в качестве входных данных, что приводит к тому, что строки в данных будут взвешированы вверх или вниз. Если входные данные являются из панды. Кадр данных, у которого нет имен столбцов, вместо этого можно использовать индексы столбцов, выраженные как целые числа. Этот параметр применим к |
|
cv_split_column_names
Обязательно
|
Список имен столбцов, содержащих настраиваемую перекрестную проверку. Каждый из разделенных столбцов CV представляет один раздел cv, где каждая строка помечена как 1 для обучения, так и 0 для проверки. Этот параметр применим к параметру Используйте либо Дополнительные сведения см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении". |
|
enable_local_managed
Обязательно
|
Отключенный параметр. Локальные управляемые запуски нельзя включить в настоящее время. |
|
enable_dnn
Обязательно
|
Следует ли включать модели на основе DNN во время выбора модели. Значение по умолчанию в инициализации — None. Однако значение по умолчанию — True для задач NLP DNN, а для всех других задач AutoML — false. |
Комментарии
В следующем коде показан базовый пример создания объекта AutoMLConfig и отправки эксперимента для регрессии:
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
Полный пример доступен по регрессии
Примеры использования AutoMLConfig для прогнозирования приведены в следующих записных книжках:
Примеры использования AutoMLConfig для всех типов задач можно найти в этих автоматических записных книжках машинного обучения.
Дополнительные сведения об автоматизированном машинном обучении см. в статьях:
Настройте автоматические эксперименты машинного обучения в Python. В этой статье содержатся сведения о различных алгоритмах и основных метриках, используемых для каждого типа задачи.
Автоматическое обучение модели прогнозирования временных рядов. В этой статье содержатся сведения о параметрах конструктора и
**kwargsиспользуемых в прогнозировании.
Дополнительные сведения о различных вариантах настройки разделения и перекрестной проверки данных обучения и перекрестной проверки для автоматизированного машинного обучения, AutoML, экспериментов см. в статье "Настройка разбиений данных и перекрестная проверка в автоматизированном машинном обучении".
Методы
| as_serializable_dict |
Преобразуйте объект в словарь. |
| get_supported_dataset_languages |
Получите поддерживаемые языки и соответствующие коды языка в ISO 639-3. |
as_serializable_dict
Преобразуйте объект в словарь.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
Получите поддерживаемые языки и соответствующие коды языка в ISO 639-3.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
Параметры
| Имя | Описание |
|---|---|
|
cls
Обязательно
|
Объект AutoMLConfigкласса . |
|
use_gpu
Обязательно
|
логическое значение, указывающее, используются ли вычислительные ресурсы GPU. |
Возвращаемое значение
| Тип | Описание |
|---|---|
|
словарь формата {<языковой код>: <имя> языка}. Языковой код соответствует стандарту ISO 639-3, см. в статье https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes |