Bpe 类

定义

表示字节对编码模型。

public sealed class Bpe : Microsoft.ML.Tokenizers.Model
type Bpe = class
    inherit Model
Public NotInheritable Class Bpe
Inherits Model
继承

构造函数

Bpe()

构造不带词汇标记的新 Bpe 模型对象。 此构造函数仅在训练方案中有用。

Bpe(String, String, String, String, String)

构造一个新的 Bpe 模型对象,用于句子标记化和 tokenizer 训练。

属性

ContinuingSubwordPrefix

一个可选前缀,用于仅存在于另一个子词后面的任何子词

Decoder

获取 Bpe 解码器对象。

EndOfWordSuffix

用于描述和词尾子字特征的可选后缀

FuseUnknownTokens

获取或设置是否允许多个未知令牌融合

UnknownToken

获取或设置未知标记。 遇到未知字符时要使用的未知令牌

方法

GetTrainer()

获取用于训练模型的训练器对象,并生成词汇和合并数据。

GetVocab()

获取将令牌映射到 ID 的字典。

GetVocabSize()

获取将令牌映射到 ID 的字典大小。

IdToString(Int32, Boolean)

将标记化 ID 映射到令牌。

IdToToken(Int32, Boolean)

将标记化 ID 映射到令牌。

IsValidChar(Char)

表示字节对编码模型。

Save(String, String)

将模型数据保存到词汇中并合并文件。

Tokenize(String)

将序列字符串标记化为标记列表。

TokenToId(String)

将令牌映射到标记化 ID。

适用于