Sdílet prostřednictvím


Microsoft.ML.Tokenizers Obor názvů

Třídy

Bpe

Představuje model kódování páru bajtů.

BpeDecoder

Umožňuje dekódovat původní BPE spojením všech tokenů a následným nahrazením přípony používané k identifikaci konce slov prázdnými znaky.

BpeTrainer

Školitel Bpe zodpovědný za trénování modelu Bpe.

EnglishRoberta

Představuje model kódování páru bajtů.

LowerCaseNormalizer

Před zpracováním pomocí tokenizátoru normalizujte řetězec na malá písmena.

Model

Představuje model použitý během tokenizace (například BPE, Word Piece nebo Unigram).

Normalizer

Před zpracováním pomocí tokenizátoru normalizujte řetězec.

PreTokenizer

Základní třída pro všechny třídy pre-tokenizers. PreTokenizer je zodpovědný za provedení kroku před segmentací.

RobertaPreTokenizer

Pre-tokenizer pro Roberta English tokenizer.

Split

Toto rozdělení obsahuje základní token rozdělení a také jeho posuny v původním řetězci. Tyto posuny jsou v referenční hodnotě original . Obsahuje také všechny Token přidružené k aktuálnímu rozdělení.

Token

Představuje token vygenerovaný procesem tokenizace obsahující podřetězce tokenu, ID přidružené k podřetězci tokenu a mapování posunu na původní řetězec.

Tokenizer

Tokenizátor funguje jako kanál. Zpracovává nezpracovaný text jako vstup a výstupem objektu TokenizerResult.

TokenizerDecoder

Dekodér zodpovídá za sloučení daného seznamu tokenů v řetězci.

TokenizerResult

Kódování představuje výstup tokenizátoru.

Trainer

Zodpovídá Trainer za vytrénování modelu. Podáváme ho řádky/větami a pak může danou Model.

UpperCaseNormalizer

Před zpracováním pomocí tokenizátoru normalizujte řetězec na velká písmena.

WhiteSpace

Pre-tokenizer, který rozděluje text na hranici slova. Slovo je sada znaků abecedy, čísel a podtržítka.

Struktury

AddedToken

Představuje token přidaný uživatelem nad stávající slovník modelu. AddedToken je možné nakonfigurovat tak, aby určoval chování, které by mělo mít v různých situacích, jako jsou:

  • Jestli se mají shodovat jenom s jedním slovem
  • Jestli se mají na levé nebo pravé straně zahrnout nějaké prázdné znaky
NormalizedString

Obsahuje normalizovaný řetězec a mapování na původní řetězec.

Progress

Výčty

ProgressState

Představuje stav nahlášeného průběhu.

Delegáti

ReportProgress