Поделиться через


automl Пакет

Содержит классы автоматизированного машинного обучения для Пакета SDK 2 машинного обучения Azure.

Основные области включают управление задачами AutoML.

Классы

ClassificationJob

Настройка задания классификации AutoML.

Инициализация новой задачи классификации AutoML.

ColumnTransformer

Параметры преобразователя столбцов.

ForecastingJob

Настройка задачи прогнозирования AutoML.

Инициализируйте новую задачу прогнозирования AutoML.

ForecastingSettings

Параметры прогнозирования для задания AutoML.

ImageClassificationJob

Настройка задания многоклассовой классификации изображений AutoML.

Инициализируйте новое задание многоклассовой классификации изображений AutoML.

ImageClassificationMultilabelJob

Настройка задания классификации изображений с несколькими метками AutoML.

Инициализируйте новое задание классификации изображений с несколькими метками AutoML.

ImageClassificationSearchSpace

Поиск пространства для задач классификации изображений AutoML и классификации изображений с несколькими меткой.

ImageInstanceSegmentationJob

Настройка задания сегментации экземпляра образа AutoML.

Инициализируйте новое задание сегментации экземпляра образа AutoML.

ImageLimitSettings

Ограничение параметров для вертикальных изображений AutoML.

ImageLimitSettings — это класс, содержащий следующие параметры: max_concurrent_trials, max_trials и timeout_minutes.

Это необязательный метод настройки для настройки параметров ограничений, таких как время ожидания и т. д.

Примечание

Количество параллельных прогонов зависит от ресурсов, доступных в заданном целевом объекте вычисления.

Убедитесь, что целевой объект вычислений имеет доступные ресурсы для требуемого уровня параллелизма.

Совет

Рекомендуется сопоставить число max_concurrent_trials с количеством узлов в кластере.

Например, если у вас есть кластер с 4 узлами, задайте для max_concurrent_trials значение 4.

Пример использования

Настройка ImageLimitSettings


   from azure.ai.ml import automl

   # Create the AutoML job with the related factory-function.
   image_instance_segmentation_job = automl.image_instance_segmentation(
       compute=compute_name,
       experiment_name=exp_name,
       training_data=my_training_data_input,
       validation_data=my_validation_data_input,
       target_column_name="label",
       primary_metric="MeanAveragePrecision",
       tags={"my_custom_tag": "custom value"},
   )
   # Set the limits for the AutoML job.
   image_instance_segmentation_job.set_limits(
       max_trials=10,
       max_concurrent_trials=2,
   )
   # Submit the AutoML job.
   image_instance_segmentation_job.submit()

Инициализируйте объект ImageLimitSettings.

Конструктор для ImageLimitSettings для вертикальных изображений AutoML.

ImageModelSettingsClassification

Параметры модели для задач классификации изображений AutoML.

ImageModelSettingsObjectDetection

Параметры модели для задачи обнаружения объектов изображений AutoML.

ImageObjectDetectionJob

Настройка задания обнаружения объектов изображений AutoML.

Инициализируйте новое задание обнаружения объектов изображений AutoML.

ImageObjectDetectionSearchSpace

Поиск пространства для задач обнаружения объектов изображений AutoML и сегментации экземпляров изображений.

ImageSweepSettings

Параметры очистки для всех вертикалей изображений AutoML.

NlpFeaturizationSettings

Параметры конструирования признаков для всех вертикалей NLP AutoML.

NlpFixedParameters

Объект для размещения фиксированных параметров для заданий NLP.

NlpLimitSettings

Ограничение параметров для всех вертикалей NLP AutoML.

NlpSearchSpace

Область поиска для задач NLP AutoML.

NlpSweepSettings

Параметры очистки для всех задач NLP AutoML.

RegressionJob

Настройка для задания регрессии AutoML.

Инициализация новой задачи регрессии AutoML.

SearchSpace

Класс SearchSpace для вертикалей AutoML.

StackEnsembleSettings

Предварительный параметр для настройки выполнения StackEnsemble.

TabularFeaturizationSettings

Параметры конструирования признаков для задания AutoML.

TabularLimitSettings

Ограничение параметров для вертикалей таблицы AutoML.

TextClassificationJob

Настройка задания классификации текста AutoML.

Инициализирует новую задачу классификации текста AutoML.

TextClassificationMultilabelJob

Настройка задания классификации текста AutoML с несколькими меткой.

Инициализирует новую задачу классификации текста AutoML с несколькими метками.

TextNerJob

Настройка текстового задания NER AutoML.

Инициализирует новую задачу AutoML Text NER.

TrainingSettings

Класс TrainingSettings для Машинного обучения Azure.

Класс TrainingSettings для Машинного обучения Azure.

Перечисления

BlockedTransformers

Перечисление для всех моделей классификации, поддерживаемых AutoML.

ClassificationModels

Перечисление для всех моделей классификации, поддерживаемых AutoML.

ClassificationMultilabelPrimaryMetrics

Основные метрики для задач классификации с несколькими метками.

ClassificationPrimaryMetrics

Основные метрики для задач классификации.

FeaturizationMode

Режим конструирования признаков — определяет режим конструирования признаков данных.

ForecastHorizonMode

Перечисление для определения режима выбора горизонта прогноза.

ForecastingModels

Перечисление для всех моделей прогнозирования, поддерживаемых AutoML.

ForecastingPrimaryMetrics

Основные метрики для задачи прогнозирования.

InstanceSegmentationPrimaryMetrics

Основные метрики для задач InstanceSegmentation.

LearningRateScheduler

Перечисление планировщика скорости обучения.

LogTrainingMetrics

Содержит классы автоматизированного машинного обучения для Пакета SDK 2 машинного обучения Azure.

Основные области включают управление задачами AutoML.

LogValidationLoss

Содержит классы автоматизированного машинного обучения для Пакета SDK 2 машинного обучения Azure.

Основные области включают управление задачами AutoML.

NCrossValidationsMode

Определяет, как определяется значение N-Перекрестной проверки.

ObjectDetectionPrimaryMetrics

Основные метрики для задачи Image ObjectDetection.

RegressionModels

Перечисление для всех моделей регрессии, поддерживаемых AutoML.

RegressionPrimaryMetrics

Основные метрики для задачи регрессии.

SamplingAlgorithmType

Содержит классы автоматизированного машинного обучения для Пакета SDK 2 машинного обучения Azure.

Основные области включают управление задачами AutoML.

ShortSeriesHandlingConfiguration

Параметр, определяющий, как AutoML должно обрабатывать короткие временные ряды.

StochasticOptimizer

Стохастический оптимизатор для моделей изображений.

TargetAggregationFunction

Целевая агрегатная функция.

TargetLagsMode

Режимы выбора целевых объектов запаздывает.

TargetRollingWindowSizeMode

Целевой режим размера скользящего окна.

UseStl

Настройка декомпозиции STL для целевого столбца временных рядов.

ValidationMetricType

Метод вычисления метрик, используемый для проверки метрик в задачах изображения.

Функции

classification

Функция для создания задания ClassificationJob.

Задание классификации используется для обучения модели, которая лучше всего прогнозирует класс выборки данных. Различные модели обучаются с помощью обучающих данных. Модель с наилучшей производительностью данных проверки на основе основной метрики выбирается в качестве конечной модели.

classification(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> ClassificationJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).

target_column_name
str

Имя столбца меток. Этот параметр применим к training_dataпараметрам , validation_data и test_data

primary_metric

Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Допустимые значения: точность, AUC_weighted, norm_macro_recall, average_precision_score_weighted и precision_score_weighted Значения по умолчанию

enable_model_explainability
bool

Следует ли включить объяснение оптимальной модели AutoML в конце всех итераций обучения AutoML. Значение по умолчанию — None. Дополнительные сведения см. в статье Интерпретируемость: объяснения модели в автоматизированном машинном обучении.

weight_column_name
str

Имя столбца с весом выборок. Автоматизированное машинное обучение поддерживает взвешенный столбец в качестве входных данных, и в результате вес строк данных меняется в большую или меньшую сторону. Если источником входных данных является pandas.DataFrame, где отсутствуют имена столбцов, вместо имен можно использовать индексы столбцов, выраженные в виде целых чисел.

Этот параметр применим к training_data параметрам и validation_data

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).

Значение по умолчанию — Нет.

validation_data_size
float

Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).

Укажите validation_data для предоставления данных проверки, в противном случае задайте n_cross_validations или validation_data_size, чтобы извлечь данные проверки из указанных данных для обучения. Для пользовательской свертки перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.

Значение по умолчанию — Нет.

n_cross_validations
Union[str, int]

Количество перекрестных проверок, выполняемых в случае, когда не указаны пользовательские данные проверки.

Укажите validation_data для предоставления данных проверки, в противном случае задайте n_cross_validations или validation_data_size, чтобы извлечь данные проверки из указанных данных для обучения. Для пользовательской свертки перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.

Значение по умолчанию — Нет.

cv_split_column_names
List[str]

Список имен столбцов, содержащих разделение пользовательской перекрестной проверки (CV). Каждый из столбцов с разделением CV представляет одно разделение CV, где каждая строка помечается 1 для обучения или 0 для проверки.

Значение по умолчанию — Нет.

test_data
Input

Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Тестовые данные, которые будут использоваться для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.

Если этот параметр или параметр test_data_size не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели. Тестовые данные должны содержать признаки и столбец меток. Если указан test_data, должен быть также задан параметр target_column_name.

Значение по умолчанию — Нет.

test_data_size
float

Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Часть данных обучения, которую следует оставить в качестве тестовых данных для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.

Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно). Если параметр test_data_size указан одновременно с параметром validation_data_size, тестовые данные выделяются из training_data до выделения данных проверки. Например, если validation_data_size=0.1, test_data_size=0.1 и исходные данные обучения содержат 1000 строк, то тестовые данные будут содержать 100 строк, данные проверки — 90 строк, а данные обучения — 810 строк.

Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. В настоящее время прогнозирование не поддерживает указание тестового набора данных с помощью разделения данных для обучения/тестирования.

Если этот параметр или параметр test_data не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.

Значение по умолчанию — Нет.

Возвращаемое значение

Объект задания, который можно отправить в вычисление Машинного обучения Azure для выполнения.

Возвращаемый тип

forecasting

Функция для создания задания прогнозирования.

Задача прогнозирования используется для прогнозирования целевых значений на будущий период времени на основе исторических данных. Различные модели обучаются с помощью обучающих данных. Модель с наилучшей производительностью данных проверки на основе основной метрики выбирается в качестве конечной модели.

forecasting(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, forecasting_settings: ForecastingSettings | None = None, **kwargs) -> ForecastingJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).

target_column_name
str

Имя столбца меток. Этот параметр применим к training_dataпараметрам , validation_data и test_data

primary_metric

Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Допустимые значения: r2_score, normalized_mean_absolute_error normalized_root_mean_squared_error По умолчанию normalized_root_mean_squared_error

enable_model_explainability
bool

Следует ли включить объяснение оптимальной модели AutoML в конце всех итераций обучения AutoML. Значение по умолчанию — None. Дополнительные сведения см. в статье Интерпретируемость: объяснения модели в автоматизированном машинном обучении.

weight_column_name
str

Имя столбца с весом выборок. Автоматизированное машинное обучение поддерживает взвешенный столбец в качестве входных данных, и в результате вес строк данных меняется в большую или меньшую сторону. Если источником входных данных является pandas.DataFrame, где отсутствуют имена столбцов, вместо имен можно использовать индексы столбцов, выраженные в виде целых чисел.

Этот параметр применим к training_data параметрам и validation_data

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).

Значение по умолчанию — Нет.

validation_data_size
float

Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).

Укажите validation_data для предоставления данных проверки, в противном случае задайте n_cross_validations или validation_data_size, чтобы извлечь данные проверки из указанных данных для обучения. Для пользовательской свертки перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.

Значение по умолчанию — Нет.

n_cross_validations
Union[str, int]

Количество перекрестных проверок, выполняемых в случае, когда не указаны пользовательские данные проверки.

Укажите validation_data для предоставления данных проверки, в противном случае задайте n_cross_validations или validation_data_size, чтобы извлечь данные проверки из указанных данных для обучения. Для пользовательской свертки перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.

Значение по умолчанию — Нет.

cv_split_column_names
List[str]

Список имен столбцов, содержащих разделение пользовательской перекрестной проверки (CV). Каждый из столбцов с разделением CV представляет одно разделение CV, где каждая строка помечается 1 для обучения или 0 для проверки.

Значение по умолчанию — Нет.

test_data
Input

Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Тестовые данные, которые будут использоваться для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.

Если этот параметр или параметр test_data_size не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели. Тестовые данные должны содержать признаки и столбец меток. Если указан test_data, должен быть также задан параметр target_column_name.

Значение по умолчанию — Нет.

test_data_size
float

Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Часть данных обучения, которую следует оставить в качестве тестовых данных для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.

Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно). Если параметр test_data_size указан одновременно с параметром validation_data_size, тестовые данные выделяются из training_data до выделения данных проверки. Например, если validation_data_size=0.1, test_data_size=0.1 и исходные данные обучения содержат 1000 строк, то тестовые данные будут содержать 100 строк, данные проверки — 90 строк, а данные обучения — 810 строк.

Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. В настоящее время прогнозирование не поддерживает указание тестового набора данных с помощью разделения данных для обучения/тестирования.

Если этот параметр или параметр test_data не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.

Значение по умолчанию — Нет.

forecasting_settings
ForecastingSettings

Параметры задачи прогнозирования

Возвращаемое значение

Объект задания, который можно отправить в вычисление Машинного обучения Azure для выполнения.

Возвращаемый тип

image_classification

Создает объект для задания многоклассовой классификации изображений AutoML.

image_classification(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте.

target_column_name
str

Имя столбца меток. Этот параметр применим к параметрам training_data и validation_data.

primary_metric

Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Допустимые значения: точность, AUC_weighted, norm_macro_recall, average_precision_score_weighted и precision_score_weighted по умолчанию.

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте.

validation_data_size
float

Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).

Укажите validation_data для предоставления проверочных данных, в противном случае задайте для validation_data_size извлечения проверочных данных из указанных обучающих данных.

Значение по умолчанию — .2

kwargs
dict

Словарь дополнительных параметров конфигурации.

Возвращаемое значение

Объект задания классификации изображений, который можно отправить в вычислительную среду Машинного обучения Azure для выполнения.

Возвращаемый тип

image_classification_multilabel

Создает объект для задания классификации изображений AutoML с несколькими метками.

image_classification_multilabel(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationMultilabelPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationMultilabelJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте.

target_column_name
str

Имя столбца меток. Этот параметр применим к параметрам training_data и validation_data.

primary_metric

Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Допустимые значения: точность, AUC_weighted, norm_macro_recall, average_precision_score_weighted, precision_score_weighted и Iou По умолчанию используется значение Iou.

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте.

validation_data_size
float

Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).

Укажите validation_data для предоставления проверочных данных, в противном случае — для validation_data_size извлечения проверочных данных из указанных обучающих данных.

Значение по умолчанию — .2

kwargs
dict

Словарь дополнительных параметров конфигурации.

Возвращаемое значение

Изображение объекта задания классификации с несколькими метками, которое можно отправить в вычислительную среду Машинного обучения Azure для выполнения.

Возвращаемый тип

image_instance_segmentation

Создает объект для задания сегментации экземпляра образа AutoML.

image_instance_segmentation(*, training_data: Input, target_column_name: str, primary_metric: str | InstanceSegmentationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageInstanceSegmentationJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте.

target_column_name
str

Имя столбца меток. Этот параметр применим к параметрам training_data и validation_data.

primary_metric

Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Допустимые значения: MeanAveragePrecision По умолчанию — MeanAveragePrecision.

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте.

validation_data_size
float

Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).

Укажите validation_data для предоставления проверочных данных, в противном случае — для validation_data_size извлечения проверочных данных из указанных обучающих данных.

Значение по умолчанию — .2

kwargs
dict

Словарь дополнительных параметров конфигурации.

Возвращаемое значение

Задание сегментации экземпляра образа

Возвращаемый тип

image_object_detection

Создает объект для задания обнаружения объектов изображений AutoML.

image_object_detection(*, training_data: Input, target_column_name: str, primary_metric: str | ObjectDetectionPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageObjectDetectionJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте.

target_column_name
str

Имя столбца меток. Этот параметр применим к параметрам training_data и validation_data.

primary_metric

Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Допустимые значения: MeanAveragePrecision По умолчанию — MeanAveragePrecision.

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте.

validation_data_size
float

Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).

Укажите validation_data для предоставления проверочных данных, в противном случае — для validation_data_size извлечения проверочных данных из указанных обучающих данных.

Значение по умолчанию — .2

kwargs
dict

Словарь дополнительных параметров конфигурации.

Возвращаемое значение

Объект задания обнаружения объектов изображений, который можно отправить в вычисление Машинного обучения Azure для выполнения.

Возвращаемый тип

regression

Функция для создания задания регрессии.

Задание регрессии используется для обучения модели прогнозированию непрерывных значений целевой переменной из набора данных. Различные модели обучаются с помощью обучающих данных. Модель с наилучшей производительностью данных проверки на основе основной метрики выбирается в качестве конечной модели.

regression(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> RegressionJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).

target_column_name
str

Имя столбца меток. Этот параметр применим к training_dataпараметрам , validation_data и test_data

primary_metric

Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Допустимые значения: spearman_correlation, r2_score, normalized_mean_absolute_error normalized_root_mean_squared_error. По умолчанию используется normalized_root_mean_squared_error

enable_model_explainability
bool

Следует ли включить объяснение оптимальной модели AutoML в конце всех итераций обучения AutoML. Значение по умолчанию — None. Дополнительные сведения см. в статье Интерпретируемость: объяснения модели в автоматизированном машинном обучении.

weight_column_name
str

Имя столбца с весом выборок. Автоматизированное машинное обучение поддерживает взвешенный столбец в качестве входных данных, и в результате вес строк данных меняется в большую или меньшую сторону. Если источником входных данных является pandas.DataFrame, где отсутствуют имена столбцов, вместо имен можно использовать индексы столбцов, выраженные в виде целых чисел.

Этот параметр применим к training_data параметрам и validation_data

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).

Значение по умолчанию — Нет.

validation_data_size
float

Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).

Укажите validation_data для предоставления данных проверки, в противном случае задайте n_cross_validations или validation_data_size, чтобы извлечь данные проверки из указанных данных для обучения. Для пользовательской свертки перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.

Значение по умолчанию — Нет.

n_cross_validations
Union[str, int]

Количество перекрестных проверок, выполняемых в случае, когда не указаны пользовательские данные проверки.

Укажите validation_data для предоставления данных проверки, в противном случае задайте n_cross_validations или validation_data_size, чтобы извлечь данные проверки из указанных данных для обучения. Для пользовательской свертки перекрестной проверки используйте cv_split_column_names.

Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.

Значение по умолчанию — Нет.

cv_split_column_names
List[str]

Список имен столбцов, содержащих разделение пользовательской перекрестной проверки (CV). Каждый из столбцов с разделением CV представляет одно разделение CV, где каждая строка помечается 1 для обучения или 0 для проверки.

Значение по умолчанию — Нет.

test_data
Input

Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Тестовые данные, которые будут использоваться для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.

Если этот параметр или параметр test_data_size не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели. Тестовые данные должны содержать признаки и столбец меток. Если указан test_data, должен быть также задан параметр target_column_name.

Значение по умолчанию — Нет.

test_data_size
float

Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Часть данных обучения, которую следует оставить в качестве тестовых данных для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.

Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно). Если параметр test_data_size указан одновременно с параметром validation_data_size, тестовые данные выделяются из training_data до выделения данных проверки. Например, если validation_data_size=0.1, test_data_size=0.1 и исходные данные обучения содержат 1000 строк, то тестовые данные будут содержать 100 строк, данные проверки — 90 строк, а данные обучения — 810 строк.

Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. В настоящее время прогнозирование не поддерживает указание тестового набора данных с помощью разделения данных для обучения/тестирования.

Если этот параметр или параметр test_data не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.

Значение по умолчанию — Нет.

Возвращаемое значение

Объект задания, который можно отправить в вычислительную среду Машинного обучения Azure для выполнения.

Возвращаемый тип

text_classification

Функция для создания задания TextClassification.

Задание классификации текста используется для обучения модели, которая может прогнозировать класс или категорию текстовых данных. Входные обучающие данные должны включать целевой столбец, который классифицирует текст ровно в один класс.

text_classification(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.

target_column_name
str

Имя целевого столбца.

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.

primary_metric
Union[str, ClassificationPrimaryMetrics]

Основная метрика для задачи. Допустимые значения: точность, AUC_weighted, precision_score_weighted

log_verbosity
str

Уровень детализации журнала.

kwargs
dict

Словарь дополнительных параметров конфигурации.

Возвращаемое значение

Объект TextClassificationJob.

Возвращаемый тип

text_classification_multilabel

Функция для создания задания TextClassificationMultilabel.

Задание классификации текста с несколькими меткой используется для обучения модели, которая может прогнозировать классы и категории текстовых данных. Входные обучающие данные должны включать целевой столбец, который классифицирует текст в классы. Дополнительные сведения о формате данных с несколькими меткой см. в: https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#multi-label

text_classification_multilabel(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationMultilabelJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.

target_column_name
str

Имя целевого столбца.

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.

primary_metric
str

Основная метрика для задачи. Допустимые значения: точность

log_verbosity
str

Уровень детализации журнала.

kwargs
dict

Словарь дополнительных параметров конфигурации.

Возвращаемое значение

Объект TextClassificationMultilabelJob.

Возвращаемый тип

text_ner

Функция для создания задания TextNerJob.

Задание распознавания именованных сущностей текста используется для обучения модели, которая может прогнозировать именованные сущности в тексте. Входные обучающие данные должны быть текстовым файлом в формате CoNLL. Дополнительные сведения о формате текстовых данных NER см. в: https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#named-entity-recognition-ner

text_ner(*, training_data: Input, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextNerJob

Параметры

training_data
Input

Обучающие данные, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.

validation_data
Input

Данные проверки, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.

primary_metric
str

Основная метрика для задачи. Допустимые значения: точность

log_verbosity
str

Уровень детализации журнала.

kwargs
dict

Словарь дополнительных параметров конфигурации.

Возвращаемое значение

Объект TextNerJob.

Возвращаемый тип