Microsoft.ML.Tokenizers Spazio dei nomi

Riferimento

Importante

Alcune informazioni sono relative alla release non definitiva del prodotto, che potrebbe subire modifiche significative prima della release definitiva. Microsoft non riconosce alcuna garanzia, espressa o implicita, in merito alle informazioni qui fornite.

Classi

Bpe	Rappresentare il modello di codifica della coppia byte.
BpeDecoder	Consente di decodificare il BPE originale aggiungendo tutti i token e quindi sostituendo il suffisso usato per identificare gli spazi vuoti
BpeTrainer	Il trainer Bpe responsabile del training del modello Bpe.
EnglishRoberta	Rappresentare il modello di codifica della coppia byte.
LowerCaseNormalizer	Normalizzare la stringa in formato minuscolo prima di elaborarla con il tokenizer.
Model	Rappresenta un modello usato durante la tokenizzazione (ad esempio BPE o Word Piece o Unigram).
Normalizer	Normalizzare la stringa prima di elaborarla con il tokenizer.
PreTokenizer	Classe di base per tutte le classi di pre-tokenizzatori. PreTokenizer è responsabile dell'esecuzione del passaggio di pre-segmentazione.
RobertaPreTokenizer	Pre-tokenizer per il tokenizzatore inglese Roberta.
Split	Questa suddivisione contiene il token di divisione sottostante e i relativi offset nella stringa originale. Questi offset si trovano nel `original` referenziale. Contiene anche qualsiasi `Token` elemento associato alla divisione corrente.
Token	Rappresentare il token prodotto dal processo di tokenizzazione contenente la sottostringa del token, l'ID associato alla sottostringa del token e il mapping di offset alla stringa originale.
Tokenizer	Un tokenizer funziona come pipeline. Elabora un testo non elaborato come input e restituisce un oggetto TokenizerResult.
TokenizerDecoder	Un decodificatore ha la responsabilità di unire l'elenco specificato di token in una stringa.
TokenizerResult	La codifica rappresenta l'output di un tokenizzatore.
Trainer	Un `Trainer` ha la responsabilità di eseguire il training di un modello. Lo si alimenta con righe/frasi e quindi può eseguire il training dell'oggetto specificato `Model`.
UpperCaseNormalizer	Normalizzare la stringa in formato maiuscolo prima di elaborarla con il tokenizer.
WhiteSpace	Pre-tokenizer che suddivide il testo al limite della parola. La parola è un set di caratteri alfabetici, numerici e di sottolineatura.

Struct

AddedToken

Rappresentare un token aggiunto dall'utente sopra il vocabolario modello esistente. AddToken può essere configurato per specificare il comportamento che devono avere in varie situazioni, ad esempio:

Se devono corrispondere solo a singole parole
Indica se includere uno spazio vuoto a sinistra o a destra

NormalizedString

Contiene la stringa normalizzata e il mapping alla stringa originale.

Progress

Enumerazioni

ProgressState

Rappresenta lo stato dell'avanzamento segnalato.

Delegati

ReportProgress

Condividi tramite

Microsoft.ML.Tokenizers Spazio dei nomi

Classi

Struct

Enumerazioni

Delegati