Sdílet prostřednictvím


Tokenizer Třída

Definice

Tokenizátor funguje jako kanál. Zpracovává nezpracovaný text jako vstup a výstupem objektu TokenizerResult.

public class Tokenizer
type Tokenizer = class
Public Class Tokenizer
Dědičnost
Tokenizer

Konstruktory

Tokenizer(Model, PreTokenizer, Normalizer)

Vytvořte nový objekt Tokenizer.

Vlastnosti

Decoder

Získá nebo nastaví dekodér používá tokenizátor.

Model

Získá model v použití tokenizátorem.

Normalizer

Získá nebo nastaví normalizátor používá tokenizátor.

PreTokenizer

Získá nebo nastaví PreTokenizer používané tokenizer.

Metody

Decode(IEnumerable<Int32>, Boolean)

Dekódujte daná ID zpět na řetězec.

Decode(Int32, Boolean)

Dekóduje ID na mapovaný token.

Encode(String)

Zakóduje vstupní text do objektu, který obsahuje seznam tokenů, ID tokenů a mapování posunu tokenů.

IsValidChar(Char)

Tokenizátor funguje jako kanál. Zpracovává nezpracovaný text jako vstup a výstupem objektu TokenizerResult.

TrainFromFiles(Trainer, ReportProgress, String[])

Vytrénujte model tokenizátoru pomocí vstupních souborů.

Platí pro