Aracılığıyla paylaş


Microsoft.ML.Tokenizers Ad Alanı

Sınıflar

Bpe

Bayt Çifti Kodlama modelini temsil edin.

BpeDecoder

Tüm belirteçleri birleştirerek ve ardından sözcük sonlarını beyaz boşluklarla tanımlamak için kullanılan soneki değiştirerek Özgün BPE kodunun çözülmesine izin verir

BpeTrainer

Bpe modelini eğitmek için sorumlu Bpe eğitmeni.

EnglishRoberta

Bayt Çifti Kodlama modelini temsil edin.

LowerCaseNormalizer

Belirteci ile işlemeden önce dizeyi küçük harf biçiminde normalleştirin.

Model

Belirteç oluşturma sırasında kullanılan bir modeli temsil eder (BPE veya Word Piece ya da Unigram gibi).

Normalizer

Dizeyi belirteç oluşturucu ile işlemeden önce normalleştirin.

PreTokenizer

Tüm ön belirteç oluşturucu sınıfları için temel sınıf. PreTokenizer, ön segmentasyon adımını yapmaktan sorumlu.

RobertaPreTokenizer

Roberta İngilizce belirteç oluşturucu için ön belirteç oluşturucu.

Split

Bu Bölme, temel alınan bölünmüş belirteci ve özgün dizedeki uzaklıklarını içerir. Bu uzaklıklar bilgidedir original . Ayrıca geçerli bölmeyle ilişkili herhangi bir Token öğeyi de içerir.

Token

Belirteç alt dizesini, belirteç alt dizesiyle ilişkili kimliği ve özgün dizeye uzaklık eşlemesini içeren belirteçleştirme işleminden üretilen belirteci temsil edin.

Tokenizer

Belirteç Oluşturucu işlem hattı olarak çalışır. Bazı ham metinleri giriş olarak işler ve tokenizerResult nesnesinin çıkışını verir.

TokenizerDecoder

Kod Çözücü, verilen belirteç listesini bir dizede birleştirme sorumluluğuna sahiptir.

TokenizerResult

Kodlama, belirteç oluşturucunun çıkışını temsil eder.

Trainer

bir Trainer modeli eğitmekle sorumludur. Satırlar/cümleler ile besleriz ve sonra verilen Modelöğesini eğitebilir.

UpperCaseNormalizer

Belirteci ile işlemeden önce dizeyi büyük harf biçiminde normalleştirin.

WhiteSpace

Metni sözcük sınırında bölen ön belirteç oluşturucu. Sözcük alfabe, sayısal ve alt çizgi karakterlerinden oluşan bir kümedir.

Yapılar

AddedToken

Mevcut Model sözlüğüne kullanıcı tarafından eklenen bir belirteci temsil edin. AddedToken, aşağıdakiler gibi çeşitli durumlarda sahip olması gereken davranışı belirtecek şekilde yapılandırılabilir:

  • Yalnızca tek sözcüklerle eşleşmesi gerekip gerekmediği
  • Herhangi bir Boşluğun sol veya sağda eklenip eklenmeyeceği
NormalizedString

Normalleştirilmiş dizeyi ve özgün dizeyle eşlemeyi içerir.

Progress

Numaralandırmalar

ProgressState

Bildirilen ilerleme durumunu temsil edin.

Temsilciler

ReportProgress