Bpe 类
定义
重要
一些信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 对于此处提供的信息,Microsoft 不作任何明示或暗示的担保。
表示字节对编码模型。
public sealed class Bpe : Microsoft.ML.Tokenizers.Model
type Bpe = class
inherit Model
Public NotInheritable Class Bpe
Inherits Model
- 继承
构造函数
Bpe() |
构造不带词汇标记的新 Bpe 模型对象。 此构造函数仅在训练方案中有用。 |
Bpe(String, String, String, String, String) |
构造一个新的 Bpe 模型对象,用于句子标记化和 tokenizer 训练。 |
属性
ContinuingSubwordPrefix |
一个可选前缀,用于仅存在于另一个子词后面的任何子词 |
Decoder |
获取 Bpe 解码器对象。 |
EndOfWordSuffix |
用于描述和词尾子字特征的可选后缀 |
FuseUnknownTokens |
获取或设置是否允许多个未知令牌融合 |
UnknownToken |
获取或设置未知标记。 遇到未知字符时要使用的未知令牌 |
方法
GetTrainer() |
获取用于训练模型的训练器对象,并生成词汇和合并数据。 |
GetVocab() |
获取将令牌映射到 ID 的字典。 |
GetVocabSize() |
获取将令牌映射到 ID 的字典大小。 |
IdToString(Int32, Boolean) |
将标记化 ID 映射到令牌。 |
IdToToken(Int32, Boolean) |
将标记化 ID 映射到令牌。 |
IsValidChar(Char) |
表示字节对编码模型。 |
Save(String, String) |
将模型数据保存到词汇中并合并文件。 |
Tokenize(String) |
将序列字符串标记化为标记列表。 |
TokenToId(String) |
将令牌映射到标记化 ID。 |