SKLearn 类

参考

创建一个估算器，用于在 Scikit-learn 试验中进行训练。

已弃用。将 ScriptRunConfig 对象与定义的环境或 AzureML-Tutorial 特选环境配合使用。有关使用 ScriptRunConfig 运行配置 SKLearn 试验的简介，请参阅使用 Azure 机器学习大规模训练 scikit-learn 模型。

此估算器仅支持单节点 CPU 训练。

支持的版本：0.20.3

初始化 Scikit-learn 估算器。

继承: azureml.train.estimator._framework_base_estimator._FrameworkBaseEstimator

SKLearn

构造函数

SKLearn(source_directory, *, compute_target=None, vm_size=None, vm_priority=None, entry_script=None, script_params=None, use_docker=True, custom_docker_image=None, image_registry_details=None, user_managed=False, conda_packages=None, pip_packages=None, conda_dependencies_file_path=None, pip_requirements_file_path=None, conda_dependencies_file=None, pip_requirements_file=None, environment_variables=None, environment_definition=None, inputs=None, shm_size=None, resume_from=None, max_run_duration_seconds=None, framework_version=None, _enable_optimized_mode=False, _disable_validation=True, _show_lint_warnings=False, _show_package_warnings=False)

参数

名称	说明
source_directory 必需	str 包含试验配置文件的本地目录。
compute_target 必需	AbstractComputeTarget 或 str 发生训练的计算目标。可以是对象或字符串“local”。
vm_size 必需	str 将为训练创建的计算目标的 VM 大小。支持的值：任何 Azure VM 大小。
vm_priority 必需	str 将为训练创建的计算目标的 VM 优先级。如果未指定，则使用“dedicated”。支持的值：“dedicated”和“lowpriority”。这仅在输入中指定了 `vm_size param` 时才会生效。
entry_script 必需	str 一个字符串，表示用于启动训练的文件的相对路径。
script_params 必需	dict 要传递给 `entry_script` 中指定的训练脚本的命令行自变量的字典。
custom_docker_image 必需	str 要从中生成用于训练的映像的 Docker 映像的名称。如果未设置，将使用基于 CPU 的默认映像作为基础映像。
image_registry_details 必需	ContainerRegistry Docker 映像注册表的详细信息。
user_managed 必需	bool 指定 Azure ML 是否重复使用现有的 Python 环境。如果为 false，表示 Azure ML 将基于 conda 依赖关系规范创建 Python 环境。
conda_packages 必需	list 表示要添加到此试验的 Python 环境中的 conda 包的字符串列表。
pip_packages 必需	list 表示要添加到此试验的 Python 环境中的 pip 包的字符串列表。
conda_dependencies_file_path 必需	str 表示 conda 依赖关系 yaml 文件的相对路径的字符串。如果已指定，Azure ML 将不安装任何框架相关的包。这可以与 `conda_packages` 参数一起提供。已弃用。使用 `conda_dependencies_file` 参数。
pip_requirements_file_path 必需	str 表示 pip 需求文本文件的相对路径的字符串。这可以与 `pip_packages` 参数一起提供。已弃用。使用 `pip_requirements_file` 参数。
conda_dependencies_file 必需	str 表示 conda 依赖关系 yaml 文件的相对路径的字符串。如果已指定，Azure ML 将不安装任何框架相关的包。这可以与 `conda_packages` 参数一起提供。
pip_requirements_file 必需	str 表示 pip 需求文本文件的相对路径的字符串。这可以与 `pip_packages` 参数一起提供。
environment_variables 必需	dict 环境变量名称和值的字典。这些环境变量是在执行用户脚本的进程上设置的。
environment_definition 必需	Environment 试验的环境定义包括 PythonSection、DockerSection 和环境变量。可以使用 `environment_definition` 参数来设置不通过其他参数直接公开到估算器构造的任何环境选项。如果指定了此参数，它将优先于其他与环境相关的参数，如 `use_gpu`、`custom_docker_image`、`conda_packages` 或 `pip_packages`。对于无效组合，将报告错误。
inputs 必需	list 要用作输入的 DataReference 或 DatasetConsumptionConfig 对象的列表。
shm_size 必需	str Docker 容器的共享内存块的大小。如果未设置，则使用默认的 azureml.core.environment._DEFAULT_SHM_SIZE。
resume_from 必需	DataPath 包含要从中恢复试验的检查点或模型文件的数据路径。
max_run_duration_seconds 必需	int 运行所允许的最大时间。如果运行时间超过此值，Azure ML 会尝试自动取消运行。
framework_version 必需	str 要用于执行训练代码的 Scikit-learn 版本。 `SKLearn.get_supported_versions()` 将返回当前 SDK 支持的版本列表。
source_directory 必需	str 包含试验配置文件的本地目录。
compute_target 必需	AbstractComputeTarget 或 str 发生训练的计算目标。可以是对象或字符串“local”。
vm_size 必需	str 将为训练创建的计算目标的 VM 大小。支持的值：任何 Azure VM 大小。
vm_priority 必需	str 将为训练创建的计算目标的 VM 优先级。如果未指定，则使用“dedicated”。支持的值：“dedicated”和“lowpriority”。这仅在输入中指定了 `vm_size param` 时才会生效。
entry_script 必需	str 一个字符串，表示用于启动训练的文件的相对路径。
script_params 必需	dict 要传递给 `entry_script` 中指定的训练脚本的命令行自变量的字典。
use_docker 必需	bool 一个布尔值，指示要运行试验的环境是否应基于 Docker。
custom_docker_image 必需	str 要从中生成用于训练的映像的 Docker 映像的名称。如果未设置，则将使用基于 CPU 的默认映像作为基础映像。
image_registry_details 必需	ContainerRegistry Docker 映像注册表的详细信息。
user_managed 必需	bool 指定 Azure ML 是否重复使用现有的 Python 环境。如果为 false，表示 Azure ML 将基于 conda 依赖关系规范创建 Python 环境。
conda_packages 必需	list 表示要添加到此试验的 Python 环境中的 conda 包的字符串列表。
pip_packages 必需	list 表示要添加到此试验的 Python 环境中的 pip 包的字符串列表。
conda_dependencies_file_path 必需	str 表示 conda 依赖关系 yaml 文件的相对路径的字符串。如果已指定，Azure ML 将不安装任何框架相关的包。这可以与 `conda_packages` 参数一起提供。已弃用。使用 `conda_dependencies_file` 参数。
pip_requirements_file_path 必需	str 表示 pip 需求文本文件的相对路径的字符串。这可以与 `pip_packages` 参数一起提供。已弃用。使用 `pip_requirements_file` 参数。
conda_dependencies_file 必需	str 表示 conda 依赖关系 yaml 文件的相对路径的字符串。如果已指定，Azure ML 将不安装任何框架相关的包。这可以与 `conda_packages` 参数一起提供。
pip_requirements_file 必需	str 表示 pip 需求文本文件的相对路径的字符串。这可以与 `pip_packages` 参数一起提供。
environment_variables 必需	dict 环境变量名称和值的字典。这些环境变量是在执行用户脚本的进程上设置的。
environment_definition 必需	Environment 试验的环境定义包括 PythonSection、DockerSection 和环境变量。可以使用 `environment_definition` 参数来设置不通过其他参数直接公开到估算器构造的任何环境选项。如果指定了此参数，它将优先于其他与环境相关的参数，如 `use_gpu`、`custom_docker_image`、`conda_packages` 或 `pip_packages`。对于无效组合，将报告错误。
inputs 必需	list azureml.data.data_reference的列表。要用作输入的 DataReference 对象。
shm_size 必需	str Docker 容器的共享内存块的大小。如果未设置，则使用默认的 azureml.core.environment._DEFAULT_SHM_SIZE。
resume_from 必需	DataPath 包含要从中恢复试验的检查点或模型文件的数据路径。
max_run_duration_seconds 必需	int 运行所允许的最大时间。如果运行时间超过此值，Azure ML 会尝试自动取消运行。
framework_version 必需	str 要用于执行训练代码的 Scikit-learn 版本。 `SKLearn.get_supported_versions()` 将返回当前 SDK 支持的版本列表。
_enable_optimized_mode 必需	bool 使用预生成的框架映像启用增量环境生成，以便更快地准备环境。预构建的框架映像基于预安装了框架依赖项的 Azure ML 默认 CPU/GPU 基础映像。
_disable_validation 必需	bool 在运行提交之前禁用脚本验证。默认值为 True。
_show_lint_warnings 必需	bool 显示脚本 LINT 警告。默认值为 False。
_show_package_warnings 必需	bool 显示包验证警告。默认值为 False。

注解

提交训练作业时，Azure ML 会在 Docker 容器内的 conda 环境中运行脚本。 SKLearn 容器安装了以下依赖项。

依赖项 | Scikit-learn 0.20.3 |———————- |—————– |Python |3.6.2 |azureml-defaults |最新|IntelMpi |2018.3.222 |scikit-learn |0.20.3 |numpy |1.16.2 |miniconda |4.5.11 |scipy |1.2.1 |joblib |0.13.2 |git |2.7.4 |

Docker 映像可扩展 Ubuntu 16.04。

如果需要安装其他依赖项，可以使用 pip_packages 或 conda_packages 参数，也可以提供 pip_requirements_file 或 conda_dependencies_file 文件。或者，可以生成自己的映像，并将 custom_docker_image 参数传递给估算器构造函数。

属性

DEFAULT_VERSION

DEFAULT_VERSION = '0.20.3'

FRAMEWORK_NAME

FRAMEWORK_NAME = 'SKLearn'

通过

SKLearn 类

构造函数

参数

注解

属性

DEFAULT_VERSION

FRAMEWORK_NAME

反馈

其他资源