Freigeben über


Microsoft.ML.Tokenizers Namespace

Klassen

Bpe

Stellt das Bytepaarcodierungsmodell dar.

BpeDecoder

Ermöglicht die Decodierung der ursprünglichen BPE durch Verknüpfen aller Token und ersetzen sie dann das Suffix, das zum Identifizieren des Wortendes verwendet wird, durch Leerzeichen.

BpeTrainer

Der Bpe-Trainer, der für das Trainieren des Bpe-Modells verantwortlich ist.

EnglishRoberta

Stellt das Bytepaarcodierungsmodell dar.

LowerCaseNormalizer

Normalisieren Sie die Zeichenfolge in Kleinbuchstaben, bevor Sie sie mit dem Tokenizer verarbeiten.

Model

Stellt ein Modell dar, das während der Tokenisierung verwendet wird (z. B. BPE, Word Piece oder Unigram).

Normalizer

Normalisieren Sie die Zeichenfolge vor der Verarbeitung mit dem Tokenizer.

PreTokenizer

Basisklasse für alle Prätokenisiererklassen. Der PreTokenizer ist für den Vorsegmentierungsschritt verantwortlich.

RobertaPreTokenizer

Der Prätokenizer für roberta English tokenizer.

Split

Diese Aufteilung enthält das zugrunde liegende Geteilte Token sowie seine Offsets in der ursprünglichen Zeichenfolge. Diese Offsets befinden sich im original Referenziellen. Es enthält auch alle Token , die der aktuellen Aufteilung zugeordnet sind.

Token

Stellt das aus dem Tokenisierungsprozess erzeugte Token dar, das die Tokenteilzeichenfolge, die der Tokenteilzeichenfolge zugeordnete ID und die Offsetzuordnung zur ursprünglichen Zeichenfolge enthält.

Tokenizer

Ein Tokenizer funktioniert als Pipeline. Es verarbeitet unformatierten Text als Eingabe und gibt ein TokenizerResult-Objekt aus.

TokenizerDecoder

Ein Decoder ist dafür verantwortlich, die angegebene Liste der Token in einer Zeichenfolge zusammenzuführen.

TokenizerResult

Die Codierung stellt die Ausgabe eines Tokenizers dar.

Trainer

Ein Trainer hat die Verantwortung, ein Modell zu trainieren. Sie wird mit Zeilen/Sätzen gefüttert und kann dann die angegebene Modeltrainieren.

UpperCaseNormalizer

Normalisieren Sie die Zeichenfolge in Großbuchstaben, bevor Sie sie mit dem Tokenizer verarbeiten.

WhiteSpace

Der Prätokenizer, der den Text an der Wortgrenze aufteilt. Das Wort besteht aus alphabetischen, numerischen und unterstrichenen Zeichen.

Strukturen

AddedToken

Stellt ein Token dar, das vom Benutzer über dem vorhandenen Modellvokabular hinzugefügt wird. AddedToken kann konfiguriert werden, um das Verhalten anzugeben, das sie in verschiedenen Situationen haben sollten, z. B.:

  • Ob sie nur mit einzelnen Wörtern übereinstimmen sollen
  • Gibt an, ob auf der linken oder rechten Seite Leerzeichen eingeschlossen werden sollen.
NormalizedString

Enthält die normalisierte Zeichenfolge und die Zuordnung zur ursprünglichen Zeichenfolge.

Progress

Enumerationen

ProgressState

Stellt den Status des gemeldeten Fortschritts dar.

Delegaten

ReportProgress