Sdílet prostřednictvím


EnglishRoberta Třída

Definice

Představuje model kódování páru bajtů.

public sealed class EnglishRoberta : Microsoft.ML.Tokenizers.Model
type EnglishRoberta = class
    inherit Model
Public NotInheritable Class EnglishRoberta
Inherits Model
Dědičnost
EnglishRoberta

Konstruktory

EnglishRoberta(Stream, Stream, Stream)

Vytvoření objektu tokenizer pro použití s anglickým modelem Robert.

EnglishRoberta(String, String, String)

Vytvoření objektu tokenizer pro použití s anglickým modelem Robert.

Vlastnosti

PadIndex

Získá index symbolu panelu uvnitř seznamu symbolů.

SymbolsCount

Získá délku seznamu symbolů.

Metody

AddMaskSymbol(String)

Přidejte symbol masky do seznamu symbolů.

GetTrainer()

Získá objekt školitele, který se použije při trénování modelu a vygeneruje slovní zásobu a slučuje data.

GetVocab()

Získá tokeny mapování slovníku na IDs.

GetVocabSize()

Získá velikost slovníku, který mapuje tokeny na IDs.

IdsToOccurrenceRanks(IReadOnlyList<Int32>)

Převeďte seznam id tokenů na nejvyšší pořadí výskytů.

IdsToOccurrenceValues(IReadOnlyList<Int32>)

Převeďte seznam id tokenů na nejvyšší hodnoty výskytu.

IdToString(Int32, Boolean)

Namapujte tokenizované ID na původní řetězec.

IdToToken(Int32, Boolean)

Namapujte tokenizované ID na token.

IsValidChar(Char)

Představuje model kódování páru bajtů.

OccurrenceRanksIds(IReadOnlyList<Int32>)

Převeďte seznam pořadí nejvyšších výskytů na seznam ID tokenů .

Save(String, String)

Uložte data modelu do souborů mapování slovníku, slučování a mapování výskytů.

Tokenize(String)

Tokenizace sekvenčního řetězce na seznam tokenů.

TokenToId(String)

Namapujte token na tokenizované ID.

Platí pro