Bpe Třída
Definice
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
Představuje model kódování páru bajtů.
public sealed class Bpe : Microsoft.ML.Tokenizers.Model
type Bpe = class
inherit Model
Public NotInheritable Class Bpe
Inherits Model
- Dědičnost
Konstruktory
Bpe() |
Vytvořte nový objekt modelu BPE bez tokenizace slovníku. Tento konstruktor je užitečný pouze ve scénáři trénování. |
Bpe(String, String, String, String, String) |
Vytvořte nový objekt modelu BPE, který se použije pro tokenizaci vět a trénování tokenizátoru. |
Vlastnosti
ContinuingSubwordPrefix |
Volitelná předpona, která se použije pro jakékoli podsloví, které existuje pouze za jiným slovem |
Decoder |
Získá objekt dekodéru Bpe. |
EndOfWordSuffix |
Volitelná přípona pro charakterizaci a podsloví na konci slova |
FuseUnknownTokens |
Získá nebo nastaví, jestli se povolení více neznámých tokenů sloučí. |
UnknownToken |
Získá nebo Nastaví neznámý token. Neznámý token, který se má použít, když narazíme na neznámý znak |
Metody
GetTrainer() |
Získá objekt školitele, který se použije při trénování modelu a vygeneruje slovní zásobu a slučuje data. |
GetVocab() |
Získá slovník mapování tokenů na ID. |
GetVocabSize() |
Získá velikost slovníku, která mapuje tokeny na ID. |
IdToString(Int32, Boolean) |
Namapujte tokenizované ID na token. |
IdToToken(Int32, Boolean) |
Namapujte tokenizované ID na token. |
IsValidChar(Char) |
Představuje model kódování páru bajtů. |
Save(String, String) |
Uloží data modelu do slovníku a sloučí soubory. |
Tokenize(String) |
Tokenizace sekvenčního řetězce na seznam tokenů. |
TokenToId(String) |
Namapujte token na tokenizované ID. |