你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

TextNerJob 类

AutoML 文本 NER 作业的配置。

初始化新的 AutoML 文本 NER 任务。

继承
azure.ai.ml.entities._job.automl.nlp.automl_nlp_job.AutoMLNLPJob
TextNerJob

构造函数

TextNerJob(*, training_data: Input | None = None, validation_data: Input | None = None, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs)

参数

training_data
必需

用于训练的训练数据

validation_data
必需

用于评估已训练模型的验证数据

primary_metric
必需

要显示的主要指标。

log_verbosity
必需

日志详细级别

kwargs
必需

特定于作业的参数

方法

dump

将作业内容转储到 YAML 格式的文件中。

extend_search_space

为此 AutoML NLP 作业添加 () 搜索空间 () 。

set_data
set_featurization
set_limits
set_sweep

所有 AutoML NLP 任务的扫描设置。

set_training_parameters

在整个训练过程中为所有考生修复某些训练参数。

通过。 这必须是正整数。 :关键字 (keyword) learning_rate:初始学习速率。 必须是 (0、1) 中的浮点数。 :关键字 (keyword) learning_rate_scheduler:学习速率计划程序的类型。 必须从“linear”、“余弦”、“cosine_with_restarts”、“多项式”、“constant”和“constant_with_warmup”中进行选择。 :关键字 (keyword) model_name:训练期间要使用的模型名称。 必须从“bert-base-cased”、“bert-base-uncased”、“bert-base-多语言-cased”、“bert-base-german-cased”、“bert-large-cased”中进行选择, “bert-large-uncased”、“distilbert-base-cased”、“distilbert-base-uncased”、“roberta-base”、“roberta-large”、“distilroberta-base”、“xlm-roberta-base”、“xlm-roberta-large”、“xlnet-base-cased”和“xlnet-large-cased”。 :关键字 (keyword) number_of_epochs:用于训练的纪元数。 必须是正整数。 :关键字 (keyword) training_batch_size:训练期间的批大小。 必须是正整数。 :关键字 (keyword) validation_batch_size:验证期间的批大小。 必须是正整数。 :关键字 (keyword) warmup_ratio:用于线性预热的总训练步骤的比率,从 0 到 learning_rate。 必须是 [0, 1] 中的浮点数。 :关键字 (keyword) weight_decay:优化器为 sgd、adam 或 adamw 时权重衰减的值。 这必须是 [0, 1] 范围内的浮点数。 :return: None。

dump

将作业内容转储到 YAML 格式的文件中。

dump(dest: str | PathLike | IO, **kwargs) -> None

参数

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
必需

要向其写入 YAML 内容的本地路径或文件流。 如果 dest 是文件路径,则将创建新文件。 如果 dest 是一个打开的文件,则该文件将直接写入。

kwargs
dict

要传递给 YAML 序列化程序的其他参数。

例外

如果 dest 是文件路径且文件已存在,则引发。

如果 dest 是打开的文件且文件不可写,则引发。

extend_search_space

为此 AutoML NLP 作业添加 () 搜索空间 () 。

extend_search_space(value: SearchSpace | List[SearchSpace]) -> None

参数

value
Union[SearchSpace, List[SearchSpace]]
必需

SearchSpace 对象或具有 nlp 特定参数的 SearchSpace 对象列表。

返回

无。

例外

如果 dest 是文件路径且文件已存在,则引发。

如果 dest 是打开的文件且文件不可写,则引发。

set_data

set_data(*, training_data: Input, target_column_name: str, validation_data: Input) -> None

例外

如果 dest 是文件路径且文件已存在,则引发。

如果 dest 是打开的文件且文件不可写,则引发。

set_featurization

set_featurization(*, dataset_language: str | None = None) -> None

例外

如果 dest 是文件路径且文件已存在,则引发。

如果 dest 是打开的文件且文件不可写,则引发。

set_limits

set_limits(*, max_trials: int = 1, max_concurrent_trials: int = 1, max_nodes: int = 1, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

例外

如果 dest 是文件路径且文件已存在,则引发。

如果 dest 是打开的文件且文件不可写,则引发。

set_sweep

所有 AutoML NLP 任务的扫描设置。

set_sweep(*, sampling_algorithm: str | SamplingAlgorithmType, early_termination: EarlyTerminationPolicy | None = None)

参数

sampling_algorithm

必需。 指定超参数采样算法的类型。 可能的值包括:“Grid”、“Random”和“Bayesian”。

early_termination

可选的提前终止策略,用于结束表现不佳的培训候选人。

返回

例外

如果 dest 是文件路径且文件已存在,则引发。

如果 dest 是打开的文件且文件不可写,则引发。

set_training_parameters

在整个训练过程中为所有考生修复某些训练参数。

通过。 这必须是正整数。 :关键字 (keyword) learning_rate:初始学习速率。 必须是 (0、1) 中的浮点数。 :关键字 (keyword) learning_rate_scheduler:学习速率计划程序的类型。 必须从“linear”、“余弦”、“cosine_with_restarts”、“多项式”、“constant”和“constant_with_warmup”中进行选择。 :关键字 (keyword) model_name:训练期间要使用的模型名称。 必须从“bert-base-cased”、“bert-base-uncased”、“bert-base-多语言-cased”、“bert-base-german-cased”、“bert-large-cased”中进行选择, “bert-large-uncased”、“distilbert-base-cased”、“distilbert-base-uncased”、“roberta-base”、“roberta-large”、“distilroberta-base”、“xlm-roberta-base”、“xlm-roberta-large”、“xlnet-base-cased”和“xlnet-large-cased”。 :关键字 (keyword) number_of_epochs:用于训练的纪元数。 必须是正整数。 :关键字 (keyword) training_batch_size:训练期间的批大小。 必须是正整数。 :关键字 (keyword) validation_batch_size:验证期间的批大小。 必须是正整数。 :关键字 (keyword) warmup_ratio:用于线性预热的总训练步骤的比率,从 0 到 learning_rate。 必须是 [0, 1] 中的浮点数。 :关键字 (keyword) weight_decay:优化器为 sgd、adam 或 adamw 时权重衰减的值。 这必须是 [0, 1] 范围内的浮点数。 :return: None。

set_training_parameters(*, gradient_accumulation_steps: int | None = None, learning_rate: float | None = None, learning_rate_scheduler: str | NlpLearningRateScheduler | None = None, model_name: str | None = None, number_of_epochs: int | None = None, training_batch_size: int | None = None, validation_batch_size: int | None = None, warmup_ratio: float | None = None, weight_decay: float | None = None) -> None

参数

gradient_accumulation_steps

在向后之前累积渐变的步骤数

例外

如果 dest 是文件路径且文件已存在,则引发。

如果 dest 是打开的文件且文件不可写,则引发。

属性

base_path

资源的基路径。

返回

资源的基路径。

返回类型

str

creation_context

资源的创建上下文。

返回

资源的创建元数据。

返回类型

featurization

id

资源 ID。

返回

资源的全局 ID、Azure 资源管理器 (ARM) ID。

返回类型

inputs

limits

log_files

作业输出文件。

返回

日志名称和 URL 的字典。

返回类型

log_verbosity

outputs

primary_metric

search_space

status

作业的状态。

返回的常见值包括“正在运行”、“已完成”和“失败”。 所有可能的值为:

  • NotStarted - 这是客户端 Run 对象在云提交之前处于的临时状态。

  • 正在启动 - 运行已开始在云中处理。 调用方此时具有运行 ID。

  • 预配 - 正在为给定作业提交创建按需计算。

  • 准备 - 运行环境正在准备中,处于以下两个阶段之一:

    • Docker 映像生成

    • Conda 环境设置

  • 已排队 - 作业在计算目标上排队。 例如,在 BatchAI 中,作业处于排队状态

    等待所有请求的节点准备就绪时。

  • 正在运行 - 作业已开始在计算目标上运行。

  • 完成 - 用户代码执行已完成,运行处于后处理阶段。

  • 已请求取消 - 已请求取消作业。

  • 已完成 - 运行已成功完成。 这包括用户代码执行和运行

    后期处理阶段。

  • 失败 - 运行失败。 通常,运行上的 Error 属性会提供有关原因的详细信息。

  • 已取消 - 遵循取消请求并指示运行现已成功取消。

  • 未响应 - 对于启用了检测信号的运行,最近未发送任何检测信号。

返回

作业的状态。

返回类型

studio_url

Azure ML Studio 终结点。

返回

作业详细信息页的 URL。

返回类型

sweep

task_type

获取任务类型。

返回

要运行的任务的类型。 可能的值包括:“classification”、“regression”、“forecasting”。

返回类型

str

test_data

获取测试数据。

返回

测试数据输入

返回类型

training_data

获取训练数据。

返回

训练数据输入

返回类型

training_parameters

type

作业的类型。

返回

作业的类型。

返回类型

validation_data

获取验证数据。

返回

验证数据输入

返回类型