Microsoft.ML.Tokenizers Namespace

Referência

Importante

Algumas informações se referem a produtos de pré-lançamento que podem ser substancialmente modificados antes do lançamento. A Microsoft não oferece garantias, expressas ou implícitas, das informações aqui fornecidas.

Classes

Bpe	Represente o modelo de codificação de par de bytes.
BpeDecoder	Permite a decodificação do BPE Original unindo todos os tokens e, em seguida, substituindo o sufixo usado para identificar o fim das palavras por espaços em branco
BpeTrainer	O treinador bpe responsável por treinar o modelo Bpe.
EnglishRoberta	Represente o modelo de codificação de par de bytes.
LowerCaseNormalizer	Normalize a cadeia de caracteres para o formulário em minúsculas antes de processá-la com o criador de tokens.
Model	Representa um modelo usado durante a geração de tokens (como BPE, Word Piece ou Unigram).
Normalizer	Normalize a cadeia de caracteres antes de processá-la com o criador de tokens.
PreTokenizer	Classe base para todas as classes pré-tokenizers. O PreTokenizer é responsável por realizar a etapa de pré-segmentação.
RobertaPreTokenizer	O pré-tokenizer para o criador de tokens em inglês roberta.
Split	Essa Divisão contém o token de divisão subjacente, bem como seus deslocamentos na cadeia de caracteres original. Esses deslocamentos estão no `original` referencial. Ele também contém qualquer `Token` associado à divisão atual.
Token	Represente o token produzido do processo de tokenização que contém a subcadeia de caracteres do token, a ID associada à subcadeia de caracteres do token e o mapeamento de deslocamento para a cadeia de caracteres original.
Tokenizer	Um Tokenizer funciona como um pipeline. Ele processa algum texto bruto como entrada e gera um objeto TokenizerResult.
TokenizerDecoder	Um Decodificador tem a responsabilidade de mesclar a lista de tokens fornecida em uma cadeia de caracteres.
TokenizerResult	A Codificação representa a saída de um Criador de Token.
Trainer	Um `Trainer` tem a responsabilidade de treinar um modelo. Nós o alimentamos com linhas/frases e, em seguida, ele pode treinar o determinado `Model`.
UpperCaseNormalizer	Normalize a cadeia de caracteres para o formulário maiúsculo antes de processá-la com o criador de tokens.
WhiteSpace	O pré-tokenizer que divide o texto no limite da palavra. A palavra é um conjunto de caracteres alfabéticos, numéricos e sublinhados.

Estruturas

AddedToken

Represente um token adicionado pelo usuário sobre o vocabulário do Modelo existente. AddedToken pode ser configurado para especificar o comportamento que eles devem ter em várias situações, como:

Se eles devem corresponder apenas a palavras únicas
Se deseja incluir qualquer WhiteSpace à esquerda ou à direita

NormalizedString

Contém a cadeia de caracteres normalizada e o mapeamento para a cadeia de caracteres original.

Progress

Enumerações

ProgressState

Representa o estado do progresso relatado.

Delegados

ReportProgress