Microsoft.ML.Tokenizers Spazio dei nomi
Importante
Alcune informazioni sono relative alla release non definitiva del prodotto, che potrebbe subire modifiche significative prima della release definitiva. Microsoft non riconosce alcuna garanzia, espressa o implicita, in merito alle informazioni qui fornite.
Classi
Bpe |
Rappresentare il modello di codifica della coppia byte. |
BpeDecoder |
Consente di decodificare il BPE originale aggiungendo tutti i token e quindi sostituendo il suffisso usato per identificare gli spazi vuoti |
BpeTrainer |
Il trainer Bpe responsabile del training del modello Bpe. |
EnglishRoberta |
Rappresentare il modello di codifica della coppia byte. |
LowerCaseNormalizer |
Normalizzare la stringa in formato minuscolo prima di elaborarla con il tokenizer. |
Model |
Rappresenta un modello usato durante la tokenizzazione (ad esempio BPE o Word Piece o Unigram). |
Normalizer |
Normalizzare la stringa prima di elaborarla con il tokenizer. |
PreTokenizer |
Classe di base per tutte le classi di pre-tokenizzatori. PreTokenizer è responsabile dell'esecuzione del passaggio di pre-segmentazione. |
RobertaPreTokenizer |
Pre-tokenizer per il tokenizzatore inglese Roberta. |
Split |
Questa suddivisione contiene il token di divisione sottostante e i relativi offset nella stringa originale. Questi offset si trovano nel |
Token |
Rappresentare il token prodotto dal processo di tokenizzazione contenente la sottostringa del token, l'ID associato alla sottostringa del token e il mapping di offset alla stringa originale. |
Tokenizer |
Un tokenizer funziona come pipeline. Elabora un testo non elaborato come input e restituisce un oggetto TokenizerResult. |
TokenizerDecoder |
Un decodificatore ha la responsabilità di unire l'elenco specificato di token in una stringa. |
TokenizerResult |
La codifica rappresenta l'output di un tokenizzatore. |
Trainer |
Un |
UpperCaseNormalizer |
Normalizzare la stringa in formato maiuscolo prima di elaborarla con il tokenizer. |
WhiteSpace |
Pre-tokenizer che suddivide il testo al limite della parola. La parola è un set di caratteri alfabetici, numerici e di sottolineatura. |
Struct
AddedToken |
Rappresentare un token aggiunto dall'utente sopra il vocabolario modello esistente. AddToken può essere configurato per specificare il comportamento che devono avere in varie situazioni, ad esempio:
|
NormalizedString |
Contiene la stringa normalizzata e il mapping alla stringa originale. |
Progress |
Enumerazioni
ProgressState |
Rappresenta lo stato dell'avanzamento segnalato. |
Delegati
ReportProgress |
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per