你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
TextNerJob 类
AutoML 文本 NER 作业的配置。
初始化新的 AutoML 文本 NER 任务。
- 继承
-
azure.ai.ml.entities._job.automl.nlp.automl_nlp_job.AutoMLNLPJobTextNerJob
构造函数
TextNerJob(*, training_data: Input | None = None, validation_data: Input | None = None, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs)
参数
- training_data
用于训练的训练数据
- validation_data
用于评估已训练模型的验证数据
- primary_metric
要显示的主要指标。
- log_verbosity
日志详细级别
- kwargs
特定于作业的参数
方法
dump |
将作业内容转储到 YAML 格式的文件中。 |
extend_search_space |
为此 AutoML NLP 作业添加 () 搜索空间 () 。 |
set_data | |
set_featurization | |
set_limits | |
set_sweep |
所有 AutoML NLP 任务的扫描设置。 |
set_training_parameters |
在整个训练过程中为所有考生修复某些训练参数。 通过。 这必须是正整数。 :关键字 (keyword) learning_rate:初始学习速率。 必须是 (0、1) 中的浮点数。 :关键字 (keyword) learning_rate_scheduler:学习速率计划程序的类型。 必须从“linear”、“余弦”、“cosine_with_restarts”、“多项式”、“constant”和“constant_with_warmup”中进行选择。 :关键字 (keyword) model_name:训练期间要使用的模型名称。 必须从“bert-base-cased”、“bert-base-uncased”、“bert-base-多语言-cased”、“bert-base-german-cased”、“bert-large-cased”中进行选择, “bert-large-uncased”、“distilbert-base-cased”、“distilbert-base-uncased”、“roberta-base”、“roberta-large”、“distilroberta-base”、“xlm-roberta-base”、“xlm-roberta-large”、“xlnet-base-cased”和“xlnet-large-cased”。 :关键字 (keyword) number_of_epochs:用于训练的纪元数。 必须是正整数。 :关键字 (keyword) training_batch_size:训练期间的批大小。 必须是正整数。 :关键字 (keyword) validation_batch_size:验证期间的批大小。 必须是正整数。 :关键字 (keyword) warmup_ratio:用于线性预热的总训练步骤的比率,从 0 到 learning_rate。 必须是 [0, 1] 中的浮点数。 :关键字 (keyword) weight_decay:优化器为 sgd、adam 或 adamw 时权重衰减的值。 这必须是 [0, 1] 范围内的浮点数。 :return: None。 |
dump
将作业内容转储到 YAML 格式的文件中。
dump(dest: str | PathLike | IO, **kwargs) -> None
参数
要向其写入 YAML 内容的本地路径或文件流。 如果 dest 是文件路径,则将创建新文件。 如果 dest 是一个打开的文件,则该文件将直接写入。
- kwargs
- dict
要传递给 YAML 序列化程序的其他参数。
例外
如果 dest 是文件路径且文件已存在,则引发。
如果 dest 是打开的文件且文件不可写,则引发。
extend_search_space
为此 AutoML NLP 作业添加 () 搜索空间 () 。
extend_search_space(value: SearchSpace | List[SearchSpace]) -> None
参数
返回
无。
例外
如果 dest 是文件路径且文件已存在,则引发。
如果 dest 是打开的文件且文件不可写,则引发。
set_data
set_data(*, training_data: Input, target_column_name: str, validation_data: Input) -> None
例外
如果 dest 是文件路径且文件已存在,则引发。
如果 dest 是打开的文件且文件不可写,则引发。
set_featurization
set_featurization(*, dataset_language: str | None = None) -> None
例外
如果 dest 是文件路径且文件已存在,则引发。
如果 dest 是打开的文件且文件不可写,则引发。
set_limits
set_limits(*, max_trials: int = 1, max_concurrent_trials: int = 1, max_nodes: int = 1, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
例外
如果 dest 是文件路径且文件已存在,则引发。
如果 dest 是打开的文件且文件不可写,则引发。
set_sweep
所有 AutoML NLP 任务的扫描设置。
set_sweep(*, sampling_algorithm: str | SamplingAlgorithmType, early_termination: EarlyTerminationPolicy | None = None)
参数
- sampling_algorithm
必需。 指定超参数采样算法的类型。 可能的值包括:“Grid”、“Random”和“Bayesian”。
- early_termination
可选的提前终止策略,用于结束表现不佳的培训候选人。
返回
无
例外
如果 dest 是文件路径且文件已存在,则引发。
如果 dest 是打开的文件且文件不可写,则引发。
set_training_parameters
在整个训练过程中为所有考生修复某些训练参数。
通过。 这必须是正整数。 :关键字 (keyword) learning_rate:初始学习速率。 必须是 (0、1) 中的浮点数。 :关键字 (keyword) learning_rate_scheduler:学习速率计划程序的类型。 必须从“linear”、“余弦”、“cosine_with_restarts”、“多项式”、“constant”和“constant_with_warmup”中进行选择。 :关键字 (keyword) model_name:训练期间要使用的模型名称。 必须从“bert-base-cased”、“bert-base-uncased”、“bert-base-多语言-cased”、“bert-base-german-cased”、“bert-large-cased”中进行选择, “bert-large-uncased”、“distilbert-base-cased”、“distilbert-base-uncased”、“roberta-base”、“roberta-large”、“distilroberta-base”、“xlm-roberta-base”、“xlm-roberta-large”、“xlnet-base-cased”和“xlnet-large-cased”。 :关键字 (keyword) number_of_epochs:用于训练的纪元数。 必须是正整数。 :关键字 (keyword) training_batch_size:训练期间的批大小。 必须是正整数。 :关键字 (keyword) validation_batch_size:验证期间的批大小。 必须是正整数。 :关键字 (keyword) warmup_ratio:用于线性预热的总训练步骤的比率,从 0 到 learning_rate。 必须是 [0, 1] 中的浮点数。 :关键字 (keyword) weight_decay:优化器为 sgd、adam 或 adamw 时权重衰减的值。 这必须是 [0, 1] 范围内的浮点数。 :return: None。
set_training_parameters(*, gradient_accumulation_steps: int | None = None, learning_rate: float | None = None, learning_rate_scheduler: str | NlpLearningRateScheduler | None = None, model_name: str | None = None, number_of_epochs: int | None = None, training_batch_size: int | None = None, validation_batch_size: int | None = None, warmup_ratio: float | None = None, weight_decay: float | None = None) -> None
参数
- gradient_accumulation_steps
在向后之前累积渐变的步骤数
例外
如果 dest 是文件路径且文件已存在,则引发。
如果 dest 是打开的文件且文件不可写,则引发。
属性
base_path
creation_context
featurization
id
inputs
limits
log_files
log_verbosity
outputs
primary_metric
search_space
status
作业的状态。
返回的常见值包括“正在运行”、“已完成”和“失败”。 所有可能的值为:
NotStarted - 这是客户端 Run 对象在云提交之前处于的临时状态。
正在启动 - 运行已开始在云中处理。 调用方此时具有运行 ID。
预配 - 正在为给定作业提交创建按需计算。
准备 - 运行环境正在准备中,处于以下两个阶段之一:
Docker 映像生成
Conda 环境设置
已排队 - 作业在计算目标上排队。 例如,在 BatchAI 中,作业处于排队状态
等待所有请求的节点准备就绪时。
正在运行 - 作业已开始在计算目标上运行。
完成 - 用户代码执行已完成,运行处于后处理阶段。
已请求取消 - 已请求取消作业。
已完成 - 运行已成功完成。 这包括用户代码执行和运行
后期处理阶段。
失败 - 运行失败。 通常,运行上的 Error 属性会提供有关原因的详细信息。
已取消 - 遵循取消请求并指示运行现已成功取消。
未响应 - 对于启用了检测信号的运行,最近未发送任何检测信号。
返回
作业的状态。
返回类型
studio_url
sweep
task_type
test_data
training_data
training_parameters
type
validation_data
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈