Microsoft.ML.Tokenizers Spazio dei nomi

Classi

Bpe

Rappresentare il modello di codifica della coppia byte.

BpeDecoder

Consente di decodificare il BPE originale aggiungendo tutti i token e quindi sostituendo il suffisso usato per identificare gli spazi vuoti

BpeTrainer

Il trainer Bpe responsabile del training del modello Bpe.

EnglishRoberta

Rappresentare il modello di codifica della coppia byte.

LowerCaseNormalizer

Normalizzare la stringa in formato minuscolo prima di elaborarla con il tokenizer.

Model

Rappresenta un modello usato durante la tokenizzazione (ad esempio BPE o Word Piece o Unigram).

Normalizer

Normalizzare la stringa prima di elaborarla con il tokenizer.

PreTokenizer

Classe di base per tutte le classi di pre-tokenizzatori. PreTokenizer è responsabile dell'esecuzione del passaggio di pre-segmentazione.

RobertaPreTokenizer

Pre-tokenizer per il tokenizzatore inglese Roberta.

Split

Questa suddivisione contiene il token di divisione sottostante e i relativi offset nella stringa originale. Questi offset si trovano nel original referenziale. Contiene anche qualsiasi Token elemento associato alla divisione corrente.

Token

Rappresentare il token prodotto dal processo di tokenizzazione contenente la sottostringa del token, l'ID associato alla sottostringa del token e il mapping di offset alla stringa originale.

Tokenizer

Un tokenizer funziona come pipeline. Elabora un testo non elaborato come input e restituisce un oggetto TokenizerResult.

TokenizerDecoder

Un decodificatore ha la responsabilità di unire l'elenco specificato di token in una stringa.

TokenizerResult

La codifica rappresenta l'output di un tokenizzatore.

Trainer

Un Trainer ha la responsabilità di eseguire il training di un modello. Lo si alimenta con righe/frasi e quindi può eseguire il training dell'oggetto specificato Model.

UpperCaseNormalizer

Normalizzare la stringa in formato maiuscolo prima di elaborarla con il tokenizer.

WhiteSpace

Pre-tokenizer che suddivide il testo al limite della parola. La parola è un set di caratteri alfabetici, numerici e di sottolineatura.

Struct

AddedToken

Rappresentare un token aggiunto dall'utente sopra il vocabolario modello esistente. AddToken può essere configurato per specificare il comportamento che devono avere in varie situazioni, ad esempio:

  • Se devono corrispondere solo a singole parole
  • Indica se includere uno spazio vuoto a sinistra o a destra
NormalizedString

Contiene la stringa normalizzata e il mapping alla stringa originale.

Progress

Enumerazioni

ProgressState

Rappresenta lo stato dell'avanzamento segnalato.

Delegati

ReportProgress