Compartilhar via


Microsoft.ML.Tokenizers Namespace

Classes

Bpe

Represente o modelo de codificação de par de bytes.

BpeDecoder

Permite a decodificação do BPE Original unindo todos os tokens e, em seguida, substituindo o sufixo usado para identificar o fim das palavras por espaços em branco

BpeTrainer

O treinador bpe responsável por treinar o modelo Bpe.

EnglishRoberta

Represente o modelo de codificação de par de bytes.

LowerCaseNormalizer

Normalize a cadeia de caracteres para o formulário em minúsculas antes de processá-la com o criador de tokens.

Model

Representa um modelo usado durante a geração de tokens (como BPE, Word Piece ou Unigram).

Normalizer

Normalize a cadeia de caracteres antes de processá-la com o criador de tokens.

PreTokenizer

Classe base para todas as classes pré-tokenizers. O PreTokenizer é responsável por realizar a etapa de pré-segmentação.

RobertaPreTokenizer

O pré-tokenizer para o criador de tokens em inglês roberta.

Split

Essa Divisão contém o token de divisão subjacente, bem como seus deslocamentos na cadeia de caracteres original. Esses deslocamentos estão no original referencial. Ele também contém qualquer Token associado à divisão atual.

Token

Represente o token produzido do processo de tokenização que contém a subcadeia de caracteres do token, a ID associada à subcadeia de caracteres do token e o mapeamento de deslocamento para a cadeia de caracteres original.

Tokenizer

Um Tokenizer funciona como um pipeline. Ele processa algum texto bruto como entrada e gera um objeto TokenizerResult.

TokenizerDecoder

Um Decodificador tem a responsabilidade de mesclar a lista de tokens fornecida em uma cadeia de caracteres.

TokenizerResult

A Codificação representa a saída de um Criador de Token.

Trainer

Um Trainer tem a responsabilidade de treinar um modelo. Nós o alimentamos com linhas/frases e, em seguida, ele pode treinar o determinado Model.

UpperCaseNormalizer

Normalize a cadeia de caracteres para o formulário maiúsculo antes de processá-la com o criador de tokens.

WhiteSpace

O pré-tokenizer que divide o texto no limite da palavra. A palavra é um conjunto de caracteres alfabéticos, numéricos e sublinhados.

Estruturas

AddedToken

Represente um token adicionado pelo usuário sobre o vocabulário do Modelo existente. AddedToken pode ser configurado para especificar o comportamento que eles devem ter em várias situações, como:

  • Se eles devem corresponder apenas a palavras únicas
  • Se deseja incluir qualquer WhiteSpace à esquerda ou à direita
NormalizedString

Contém a cadeia de caracteres normalizada e o mapeamento para a cadeia de caracteres original.

Progress

Enumerações

ProgressState

Representa o estado do progresso relatado.

Delegados

ReportProgress