你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

automl 包

参考

包含 Azure 机器学习 SDKv2 的自动化机器学习类。

主要领域包括管理 AutoML 任务。

类

ClassificationJob	AutoML 分类作业的配置。初始化新的 AutoML 分类任务。
ColumnTransformer	列转换器设置。
ForecastingJob	AutoML 预测任务的配置。初始化新的 AutoML 预测任务。
ForecastingSettings	预测 AutoML 作业的设置。
ImageClassificationJob	AutoML 多类图像分类作业的配置。初始化新的 AutoML 多类图像分类作业。
ImageClassificationMultilabelJob	AutoML 多标签图像分类作业的配置。初始化新的 AutoML 多标签图像分类作业。
ImageClassificationSearchSpace	搜索 AutoML 图像分类和图像分类多标签任务的空间。
ImageInstanceSegmentationJob	AutoML 映像实例分段作业的配置。初始化新的 AutoML 映像实例分段作业。
ImageLimitSettings	限制 AutoML 图像垂直设置。 ImageLimitSettings 是包含以下参数的类：max_concurrent_trials、max_trials 和 timeout_minutes。这是一种可选配置方法，用于配置超时等限制参数。注意并发运行数根据指定计算目标中的可用资源进行限制。请确保计算目标能够为所需的并发性提供足够的可用资源。提示最好将max_concurrent_trials计数与群集中的节点数进行匹配。例如，如果群集具有 4 个节点，请将 max_concurrent_trials 设置为 4。示例用法 ImageLimitSettings 的配置 from azure.ai.ml import automl # Create the AutoML job with the related factory-function. image_instance_segmentation_job = automl.image_instance_segmentation( compute=compute_name, experiment_name=exp_name, training_data=my_training_data_input, validation_data=my_validation_data_input, target_column_name="label", primary_metric="MeanAveragePrecision", tags={"my_custom_tag": "custom value"}, ) # Set the limits for the AutoML job. image_instance_segmentation_job.set_limits( max_trials=10, max_concurrent_trials=2, ) # Submit the AutoML job. image_instance_segmentation_job.submit() 初始化 ImageLimitSettings 对象。 AutoML 图像垂直的 ImageLimitSettings 的构造函数。
ImageModelSettingsClassification	AutoML 图像分类任务的模型设置。
ImageModelSettingsObjectDetection	AutoML 图像对象检测任务的模型设置。
ImageObjectDetectionJob	AutoML 图像对象检测作业的配置。初始化新的 AutoML 图像对象检测作业。
ImageObjectDetectionSearchSpace	搜索 AutoML 图像对象检测和图像实例分段任务的空间。
ImageSweepSettings	所有 AutoML 垂直图像的扫描设置。
NlpFeaturizationSettings	所有 AutoML NLP 垂直的特征化设置。
NlpFixedParameters	对象，用于容纳 NLP 作业的固定参数。
NlpLimitSettings	所有 AutoML NLP 垂直的限制设置。
NlpSearchSpace	搜索 AutoML NLP 任务的空间。
NlpSweepSettings	所有 AutoML NLP 任务的扫描设置。
RegressionJob	AutoML 回归作业的配置。初始化新的 AutoML 回归任务。
SearchSpace	AutoML 垂直的 SearchSpace 类。
StackEnsembleSettings	高级设置以自定义 StackEnsemble 运行。
TabularFeaturizationSettings	AutoML 作业的特征化设置。
TabularLimitSettings	限制 AutoML 表垂直设置。
TextClassificationJob	AutoML 文本分类作业的配置。初始化新的 AutoML 文本分类任务。
TextClassificationMultilabelJob	AutoML 文本分类多标签作业的配置。初始化新的 AutoML 文本分类多标签任务。
TextNerJob	AutoML 文本 NER 作业的配置。初始化新的 AutoML 文本 NER 任务。
TrainingSettings	Azure 机器学习的 TrainingSettings 类。 Azure 机器学习的 TrainingSettings 类。

枚举

BlockedTransformers	AutoML 支持的所有分类模型的枚举。
ClassificationModels	AutoML 支持的所有分类模型的枚举。
ClassificationMultilabelPrimaryMetrics	分类多标签任务的主要指标。
ClassificationPrimaryMetrics	分类任务的主要指标。
FeaturizationMode	特征化模式 - 确定数据特征化模式。
ForecastHorizonMode	用于确定预测范围选择模式的枚举。
ForecastingModels	AutoML 支持的所有预测模型的枚举。
ForecastingPrimaryMetrics	预测任务的主要指标。
InstanceSegmentationPrimaryMetrics	InstanceSegmentation 任务的主要指标。
LearningRateScheduler	学习速率计划程序枚举。
LogTrainingMetrics	包含 Azure 机器学习 SDKv2 的自动化机器学习类。主要领域包括管理 AutoML 任务。
LogValidationLoss	包含 Azure 机器学习 SDKv2 的自动化机器学习类。主要领域包括管理 AutoML 任务。
NCrossValidationsMode	确定如何确定 N 交叉验证值。
ObjectDetectionPrimaryMetrics	Image ObjectDetection 任务的主要指标。
RegressionModels	AutoML 支持的所有回归模型的枚举。
RegressionPrimaryMetrics	回归任务的主要指标。
SamplingAlgorithmType	包含 Azure 机器学习 SDKv2 的自动化机器学习类。主要领域包括管理 AutoML 任务。
ShortSeriesHandlingConfiguration	定义 AutoML 应如何处理短时序的参数。
StochasticOptimizer	图像模型的随机优化器。
TargetAggregationFunction	目标聚合函数。
TargetLagsMode	目标延迟选择模式。
TargetRollingWindowSizeMode	目标滚动窗口大小模式。
UseStl	配置时序目标列的 STL 分解。
ValidationMetricType	用于图像任务中的验证指标的指标计算方法。

函数

classification

用于创建 ClassificationJob 的函数。

分类作业用于训练最能预测数据样本类的模型。使用训练数据训练各种模型。基于主要指标的验证数据性能最佳的模型被选为最终模型。

classification(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> ClassificationJob

参数

training_data: Input

要在试验中使用的训练数据。应该包含训练特征和标签列（可以选择性地包含样本权重列）。

target_column_name: str

标签列的名称。此参数适用于 training_data、 validation_data 和 test_data 参数

primary_metric

自动化机器学习将为模型选择优化的指标。自动化机器学习收集的指标比它可以优化的指标要多。有关如何计算指标的详细信息，请参阅 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric。

可接受的值：准确度、AUC_weighted、norm_macro_recall、average_precision_score_weighted和precision_score_weighted默认值为准确性

enable_model_explainability: bool

是否在所有 AutoML 训练迭代结束时启用最佳 AutoML 模型解释。默认值为 None。有关详细信息，请参阅可解释性：自动化机器学习中的模型说明。

weight_column_name: str

样本权重列的名称。自动化机器学习支持使用加权列作为输入，这会导致增大或减小数据中行的权重。如果输入数据来自没有列名的 pandas.DataFrame，则可以使用以整数表示的列索引。

此参数适用于 training_data 和 validation_data 参数

validation_data: Input

要在试验中使用的验证数据。应该包含训练特征和标签列（可以选择性地包含样本权重列）。

默认为 None

validation_data_size: float

未指定用户验证数据时，要保留用于验证的数据部分。此值应介于 0.0 和 1.0 之间（不含）。

指定 validation_data 以提供验证数据，否则设置 n_cross_validations 或 validation_data_size 以从指定的训练数据中提取验证数据。对于自定义交叉验证折叠，请使用 cv_split_column_names。

有关详细信息，请参阅在自动化机器学习中配置数据拆分和交叉验证。

默认为 None

n_cross_validations: Union[str, int]

未指定用户验证数据时要执行多少次交叉验证。

有关详细信息，请参阅在自动化机器学习中配置数据拆分和交叉验证。

默认为 None

cv_split_column_names: List[str]

包含自定义交叉验证拆分的列的名称列表。每个 CV 拆分列代表一个 CV 拆分，其中每行标记为 1（用于训练）或 0（用于验证）。

默认为 None

test_data: Input

使用测试数据集或测试数据拆分的模型测试功能处于预览阶段，随时可能会更改。要用于测试运行的测试数据，将在模型训练完成后自动启动该测试。测试运行将使用最佳模型来获取预测结果，并将根据这些预测生成指标。

如果未指定此参数或 test_data_size 参数，则模型训练完成后将不会自动执行任何测试运行。测试数据应包含功能和标签列。如果指定了 test_data，则还必须指定 target_column_name 参数。

默认为 None

test_data_size: float

使用测试数据集或测试数据拆分的模型测试功能处于预览阶段，随时可能会更改。为测试运行提供的测试数据的训练数据的一部分，在模型训练完成后将自动启动。测试运行将使用最佳模型来获取预测结果，并将根据这些预测生成指标。

此值应介于 0.0 和 1.0 之间（不含）。如果 test_data_size 同时指定为 validation_data_size，则在拆分验证数据之前，将从 training_data 拆分测试数据。例如，如果 validation_data_size=0.1、test_data_size=0.1 和原始训练数据包含 1000 行，则测试数据将包含 100 行，验证数据将包含 90 行，训练数据将包含 810 行。

对于回归任务，使用随机采样。对于分类任务，使用分层采样。预测目前不支持使用训练/测试拆分指定测试数据集。

如果未指定此参数或 test_data 参数，则模型训练完成后将不会自动执行任何测试运行。

默认为 None

可提交到 Azure ML 计算以供执行的作业对象。

返回类型

ClassificationJob

forecasting

用于创建预测作业的函数。

预测任务用于根据历史数据预测未来时间段的目标值。使用训练数据训练各种模型。基于主要指标的验证数据性能最佳的模型被选为最终模型。

forecasting(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, forecasting_settings: ForecastingSettings | None = None, **kwargs) -> ForecastingJob

参数

training_data: Input

要在试验中使用的训练数据。应该包含训练特征和标签列（可以选择性地包含样本权重列）。

target_column_name: str

标签列的名称。此参数适用于 training_data、 validation_data 和 test_data 参数

primary_metric

可接受的值：r2_score、normalized_mean_absolute_error normalized_root_mean_squared_error默认值为normalized_root_mean_squared_error

enable_model_explainability: bool

是否在所有 AutoML 训练迭代结束时启用最佳 AutoML 模型解释。默认值为 None。有关详细信息，请参阅可解释性：自动化机器学习中的模型说明。

weight_column_name: str

此参数适用于 training_data 和 validation_data 参数

validation_data: Input

要在试验中使用的验证数据。应该包含训练特征和标签列（可以选择性地包含样本权重列）。

默认为 None

validation_data_size: float

未指定用户验证数据时，要保留用于验证的数据部分。此值应介于 0.0 和 1.0 之间（不含）。

有关详细信息，请参阅在自动化机器学习中配置数据拆分和交叉验证。

默认为 None

n_cross_validations: Union[str, int]

未指定用户验证数据时要执行多少次交叉验证。

有关详细信息，请参阅在自动化机器学习中配置数据拆分和交叉验证。

默认为 None

cv_split_column_names: List[str]

包含自定义交叉验证拆分的列的名称列表。每个 CV 拆分列代表一个 CV 拆分，其中每行标记为 1（用于训练）或 0（用于验证）。

默认为 None

test_data: Input

默认为 None

test_data_size: float

对于回归任务，使用随机采样。对于分类任务，使用分层采样。预测目前不支持使用训练/测试拆分指定测试数据集。

如果未指定此参数或 test_data 参数，则模型训练完成后将不会自动执行任何测试运行。

默认为 None

forecasting_settings: ForecastingSettings

预测任务的设置

可提交到 Azure ML 计算以供执行的作业对象。

返回类型

ForecastingJob

image_classification

为 AutoML 映像多类分类作业创建对象。

image_classification(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationJob

参数

training_data: Input

要在试验中使用的训练数据。

target_column_name: str

标签列的名称。此参数适用于 training_data 和 validation_data 参数。

primary_metric

可接受的值：准确度、AUC_weighted、norm_macro_recall、average_precision_score_weighted和precision_score_weighted默认值为准确性。

validation_data: Input

要在试验中使用的验证数据。

validation_data_size: float

未指定用户验证数据时，要保留用于验证的数据部分。此值应介于 0.0 和 1.0 之间（不含）。

指定 validation_data 以提供验证数据，否则设置为 validation_data_size 从指定的训练数据中提取验证数据。

默认为 .2

kwargs: dict

其他配置参数的字典。

可以提交到 Azure ML 计算以供执行的图像分类作业对象。

返回类型

ImageClassificationJob

image_classification_multilabel

为 AutoML 映像多标签分类作业创建对象。

image_classification_multilabel(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationMultilabelPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationMultilabelJob

参数

training_data: Input

要在试验中使用的训练数据。

target_column_name: str

标签列的名称。此参数适用于 training_data 和 validation_data 参数。

primary_metric

可接受的值：accuracy、AUC_weighted、norm_macro_recall、average_precision_score_weighted、precision_score_weighted 和 Iou Defaults to Iou。

validation_data: Input

要在试验中使用的验证数据。

validation_data_size: float

未指定用户验证数据时，要保留用于验证的数据部分。此值应介于 0.0 和 1.0 之间（不含）。

指定 validation_data 以提供验证数据，否则设置为 validation_data_size 从指定的训练数据中提取验证数据。

默认为 .2

kwargs: dict

其他配置参数的字典。

图像可提交到 Azure ML 计算执行的多标签分类作业对象。

返回类型

ImageClassificationMultilabelJob

image_instance_segmentation

为 AutoML 映像实例分段作业创建对象。

image_instance_segmentation(*, training_data: Input, target_column_name: str, primary_metric: str | InstanceSegmentationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageInstanceSegmentationJob

参数

training_data: Input

要在试验中使用的训练数据。

target_column_name: str

标签列的名称。此参数适用于 training_data 和 validation_data 参数。

primary_metric

可接受的值：MeanAveragePrecision 默认值为 MeanAveragePrecision。

validation_data: Input

要在试验中使用的验证数据。

validation_data_size: float

未指定用户验证数据时，要保留用于验证的数据部分。此值应介于 0.0 和 1.0 之间（不含）。

指定 validation_data 以提供验证数据，否则设置为 validation_data_size 从指定的训练数据中提取验证数据。

默认为 .2

kwargs: dict

其他配置参数的字典。

映像实例分段作业

返回类型

ImageInstanceSegmentationJob

image_object_detection

为 AutoML 图像对象检测作业创建对象。

image_object_detection(*, training_data: Input, target_column_name: str, primary_metric: str | ObjectDetectionPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageObjectDetectionJob

参数

training_data: Input

要在试验中使用的训练数据。

target_column_name: str

标签列的名称。此参数适用于 training_data 和 validation_data 参数。

primary_metric

可接受的值：MeanAveragePrecision 默认值为 MeanAveragePrecision。

validation_data: Input

要在试验中使用的验证数据。

validation_data_size: float

未指定用户验证数据时，要保留用于验证的数据部分。此值应介于 0.0 和 1.0 之间（不含）。

指定 validation_data 以提供验证数据，否则设置为 validation_data_size 从指定的训练数据中提取验证数据。

默认为 .2

kwargs: dict

其他配置参数的字典。

可以提交到 Azure ML 计算以供执行的图像对象检测作业对象。

返回类型

ImageObjectDetectionJob

regression

用于创建回归作业的函数。

回归作业用于训练模型，以预测数据集中目标变量的连续值。使用训练数据训练各种模型。基于主要指标的验证数据性能最佳的模型被选为最终模型。

regression(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> RegressionJob

参数

training_data: Input

要在试验中使用的训练数据。应该包含训练特征和标签列（可以选择性地包含样本权重列）。

target_column_name: str

标签列的名称。此参数适用于 training_data、 validation_data 和 test_data 参数

primary_metric

可接受的值：spearman_correlation、r2_score、normalized_mean_absolute_error、normalized_root_mean_squared_error。默认为 normalized_root_mean_squared_error

enable_model_explainability: bool

是否在所有 AutoML 训练迭代结束时启用最佳 AutoML 模型解释。默认值为 None。有关详细信息，请参阅可解释性：自动化机器学习中的模型说明。

weight_column_name: str

此参数适用于 training_data 和 validation_data 参数

validation_data: Input

要在试验中使用的验证数据。应该包含训练特征和标签列（可以选择性地包含样本权重列）。

默认为 None

validation_data_size: float

未指定用户验证数据时，要保留用于验证的数据部分。此值应介于 0.0 和 1.0 之间（不含）。

有关详细信息，请参阅在自动化机器学习中配置数据拆分和交叉验证。

默认为 None

n_cross_validations: Union[str, int]

未指定用户验证数据时要执行多少次交叉验证。

有关详细信息，请参阅在自动化机器学习中配置数据拆分和交叉验证。

默认为 None

cv_split_column_names: List[str]

包含自定义交叉验证拆分的列的名称列表。每个 CV 拆分列代表一个 CV 拆分，其中每行标记为 1（用于训练）或 0（用于验证）。

默认为 None

test_data: Input

默认为 None

test_data_size: float

对于回归任务，使用随机采样。对于分类任务，使用分层采样。预测目前不支持使用训练/测试拆分指定测试数据集。

如果未指定此参数或 test_data 参数，则模型训练完成后将不会自动执行任何测试运行。

默认为 None

可提交到 Azure ML 计算以供执行的作业对象。

返回类型

RegressionJob

text_classification

用于创建 TextClassificationJob 的函数。

文本分类作业用于训练可以预测文本数据的类/类别的模型。输入训练数据应包含一个目标列，该列将文本分类为正好一个类。

text_classification(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationJob

参数

training_data: Input

要在试验中使用的训练数据。它应同时包含训练功能和目标列。

target_column_name: str

目标列的名称。

validation_data: Input

要在试验中使用的验证数据。它应同时包含训练功能和目标列。

primary_metric: Union[str, ClassificationPrimaryMetrics]

任务的主要指标。可接受的值：准确性、AUC_weighted precision_score_weighted

log_verbosity: str

日志详细级别。

kwargs: dict

其他配置参数的字典。

TextClassificationJob 对象。

返回类型

TextClassificationJob

text_classification_multilabel

用于创建 TextClassificationMultilabelJob 的函数。

文本分类多标签作业用于训练可预测文本数据的类/类别的模型。输入训练数据应包含一个目标列，该列将文本分类为类 (es) 。有关多标签数据格式的详细信息，请参阅： https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#multi-label

text_classification_multilabel(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationMultilabelJob

参数

training_data: Input

要在试验中使用的训练数据。它应同时包含训练功能和目标列。

target_column_name: str

目标列的名称。

validation_data: Input

要在试验中使用的验证数据。它应同时包含训练功能和目标列。

primary_metric: str

任务的主要指标。可接受的值：准确性

log_verbosity: str

日志详细级别。

kwargs: dict

其他配置参数的字典。

TextClassificationMultilabelJob 对象。

返回类型

TextClassificationMultilabelJob

text_ner

用于创建 TextNerJob 的函数。

名为实体识别作业的文本用于训练可以预测文本中命名实体的模型。输入训练数据应该是 CoNLL 格式的文本文件。有关文本 NER 数据格式的详细信息，请参阅： https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#named-entity-recognition-ner

text_ner(*, training_data: Input, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextNerJob

参数

training_data: Input

要在试验中使用的训练数据。它应同时包含训练功能和目标列。

validation_data: Input

要在试验中使用的验证数据。它应同时包含训练功能和目标列。

primary_metric: str

任务的主要指标。可接受的值：准确性

log_verbosity: str

日志详细级别。

kwargs: dict

其他配置参数的字典。

TextNerJob 对象。

返回类型

TextNerJob

通过

automl 包

类

枚举

函数

classification

参数

返回

返回类型

forecasting

参数

返回

返回类型

image_classification

参数

返回

返回类型

image_classification_multilabel

参数

返回

返回类型

image_instance_segmentation

参数

返回

返回类型

image_object_detection

参数

返回

返回类型

regression

参数

返回

返回类型

text_classification

参数

返回

返回类型

text_classification_multilabel

参数

返回

返回类型

text_ner

参数

返回

返回类型

其他资源