Microsoft.ML.Tokenizers Namespace

Referenz

Wichtig

Einige Informationen beziehen sich auf Vorabversionen, die vor dem Release ggf. grundlegend überarbeitet werden. Microsoft übernimmt hinsichtlich der hier bereitgestellten Informationen keine Gewährleistungen, seien sie ausdrücklich oder konkludent.

Klassen

Bpe	Stellt das Bytepaarcodierungsmodell dar.
BpeDecoder	Ermöglicht die Decodierung der ursprünglichen BPE durch Verknüpfen aller Token und ersetzen sie dann das Suffix, das zum Identifizieren des Wortendes verwendet wird, durch Leerzeichen.
BpeTrainer	Der Bpe-Trainer, der für das Trainieren des Bpe-Modells verantwortlich ist.
EnglishRoberta	Stellt das Bytepaarcodierungsmodell dar.
LowerCaseNormalizer	Normalisieren Sie die Zeichenfolge in Kleinbuchstaben, bevor Sie sie mit dem Tokenizer verarbeiten.
Model	Stellt ein Modell dar, das während der Tokenisierung verwendet wird (z. B. BPE, Word Piece oder Unigram).
Normalizer	Normalisieren Sie die Zeichenfolge vor der Verarbeitung mit dem Tokenizer.
PreTokenizer	Basisklasse für alle Prätokenisiererklassen. Der PreTokenizer ist für den Vorsegmentierungsschritt verantwortlich.
RobertaPreTokenizer	Der Prätokenizer für roberta English tokenizer.
Split	Diese Aufteilung enthält das zugrunde liegende Geteilte Token sowie seine Offsets in der ursprünglichen Zeichenfolge. Diese Offsets befinden sich im `original` Referenziellen. Es enthält auch alle `Token` , die der aktuellen Aufteilung zugeordnet sind.
Token	Stellt das aus dem Tokenisierungsprozess erzeugte Token dar, das die Tokenteilzeichenfolge, die der Tokenteilzeichenfolge zugeordnete ID und die Offsetzuordnung zur ursprünglichen Zeichenfolge enthält.
Tokenizer	Ein Tokenizer funktioniert als Pipeline. Es verarbeitet unformatierten Text als Eingabe und gibt ein TokenizerResult-Objekt aus.
TokenizerDecoder	Ein Decoder ist dafür verantwortlich, die angegebene Liste der Token in einer Zeichenfolge zusammenzuführen.
TokenizerResult	Die Codierung stellt die Ausgabe eines Tokenizers dar.
Trainer	Ein `Trainer` hat die Verantwortung, ein Modell zu trainieren. Sie wird mit Zeilen/Sätzen gefüttert und kann dann die angegebene `Model`trainieren.
UpperCaseNormalizer	Normalisieren Sie die Zeichenfolge in Großbuchstaben, bevor Sie sie mit dem Tokenizer verarbeiten.
WhiteSpace	Der Prätokenizer, der den Text an der Wortgrenze aufteilt. Das Wort besteht aus alphabetischen, numerischen und unterstrichenen Zeichen.

Strukturen

AddedToken

Stellt ein Token dar, das vom Benutzer über dem vorhandenen Modellvokabular hinzugefügt wird. AddedToken kann konfiguriert werden, um das Verhalten anzugeben, das sie in verschiedenen Situationen haben sollten, z. B.:

Ob sie nur mit einzelnen Wörtern übereinstimmen sollen
Gibt an, ob auf der linken oder rechten Seite Leerzeichen eingeschlossen werden sollen.

NormalizedString

Enthält die normalisierte Zeichenfolge und die Zuordnung zur ursprünglichen Zeichenfolge.

Progress

Enumerationen

ProgressState

Stellt den Status des gemeldeten Fortschritts dar.

Delegaten

ReportProgress

Freigeben über

Microsoft.ML.Tokenizers Namespace

Klassen

Strukturen

Enumerationen

Delegaten