Microsoft.ML.Tokenizers Namespace
Wichtig
Einige Informationen beziehen sich auf Vorabversionen, die vor dem Release ggf. grundlegend überarbeitet werden. Microsoft übernimmt hinsichtlich der hier bereitgestellten Informationen keine Gewährleistungen, seien sie ausdrücklich oder konkludent.
Klassen
| Bpe |
Stellt das Bytepaarcodierungsmodell dar. |
| BpeDecoder |
Ermöglicht die Decodierung der ursprünglichen BPE durch Verknüpfen aller Token und ersetzen sie dann das Suffix, das zum Identifizieren des Wortendes verwendet wird, durch Leerzeichen. |
| BpeTrainer |
Der Bpe-Trainer, der für das Trainieren des Bpe-Modells verantwortlich ist. |
| EnglishRoberta |
Stellt das Bytepaarcodierungsmodell dar. |
| LowerCaseNormalizer |
Normalisieren Sie die Zeichenfolge in Kleinbuchstaben, bevor Sie sie mit dem Tokenizer verarbeiten. |
| Model |
Stellt ein Modell dar, das während der Tokenisierung verwendet wird (z. B. BPE, Word Piece oder Unigram). |
| Normalizer |
Normalisieren Sie die Zeichenfolge vor der Verarbeitung mit dem Tokenizer. |
| PreTokenizer |
Basisklasse für alle Prätokenisiererklassen. Der PreTokenizer ist für den Vorsegmentierungsschritt verantwortlich. |
| RobertaPreTokenizer |
Der Prätokenizer für roberta English tokenizer. |
| Split |
Diese Aufteilung enthält das zugrunde liegende Geteilte Token sowie seine Offsets in der ursprünglichen Zeichenfolge. Diese Offsets befinden sich im |
| Token |
Stellt das aus dem Tokenisierungsprozess erzeugte Token dar, das die Tokenteilzeichenfolge, die der Tokenteilzeichenfolge zugeordnete ID und die Offsetzuordnung zur ursprünglichen Zeichenfolge enthält. |
| Tokenizer |
Ein Tokenizer funktioniert als Pipeline. Es verarbeitet unformatierten Text als Eingabe und gibt ein TokenizerResult-Objekt aus. |
| TokenizerDecoder |
Ein Decoder ist dafür verantwortlich, die angegebene Liste der Token in einer Zeichenfolge zusammenzuführen. |
| TokenizerResult |
Die Codierung stellt die Ausgabe eines Tokenizers dar. |
| Trainer |
Ein |
| UpperCaseNormalizer |
Normalisieren Sie die Zeichenfolge in Großbuchstaben, bevor Sie sie mit dem Tokenizer verarbeiten. |
| WhiteSpace |
Der Prätokenizer, der den Text an der Wortgrenze aufteilt. Das Wort besteht aus alphabetischen, numerischen und unterstrichenen Zeichen. |
Strukturen
| AddedToken |
Stellt ein Token dar, das vom Benutzer über dem vorhandenen Modellvokabular hinzugefügt wird. AddedToken kann konfiguriert werden, um das Verhalten anzugeben, das sie in verschiedenen Situationen haben sollten, z. B.:
|
| NormalizedString |
Enthält die normalisierte Zeichenfolge und die Zuordnung zur ursprünglichen Zeichenfolge. |
| Progress | |
Enumerationen
| ProgressState |
Stellt den Status des gemeldeten Fortschritts dar. |
Delegaten
| ReportProgress |