Sdílet prostřednictvím


Bpe Třída

Definice

Představuje model kódování páru bajtů.

public sealed class Bpe : Microsoft.ML.Tokenizers.Model
type Bpe = class
    inherit Model
Public NotInheritable Class Bpe
Inherits Model
Dědičnost

Konstruktory

Bpe()

Vytvořte nový objekt modelu BPE bez tokenizace slovníku. Tento konstruktor je užitečný pouze ve scénáři trénování.

Bpe(String, String, String, String, String)

Vytvořte nový objekt modelu BPE, který se použije pro tokenizaci vět a trénování tokenizátoru.

Vlastnosti

ContinuingSubwordPrefix

Volitelná předpona, která se použije pro jakékoli podsloví, které existuje pouze za jiným slovem

Decoder

Získá objekt dekodéru Bpe.

EndOfWordSuffix

Volitelná přípona pro charakterizaci a podsloví na konci slova

FuseUnknownTokens

Získá nebo nastaví, jestli se povolení více neznámých tokenů sloučí.

UnknownToken

Získá nebo Nastaví neznámý token. Neznámý token, který se má použít, když narazíme na neznámý znak

Metody

GetTrainer()

Získá objekt školitele, který se použije při trénování modelu a vygeneruje slovní zásobu a slučuje data.

GetVocab()

Získá slovník mapování tokenů na ID.

GetVocabSize()

Získá velikost slovníku, která mapuje tokeny na ID.

IdToString(Int32, Boolean)

Namapujte tokenizované ID na token.

IdToToken(Int32, Boolean)

Namapujte tokenizované ID na token.

IsValidChar(Char)

Představuje model kódování páru bajtů.

Save(String, String)

Uloží data modelu do slovníku a sloučí soubory.

Tokenize(String)

Tokenizace sekvenčního řetězce na seznam tokenů.

TokenToId(String)

Namapujte token na tokenizované ID.

Platí pro