Sdílet prostřednictvím


TextCatalog Třída

Definice

Kolekce rozšiřujících metod pro TransformsCatalog.

public static class TextCatalog
type TextCatalog = class
Public Module TextCatalog
Dědičnost
TextCatalog

Metody

ApplyWordEmbedding(TransformsCatalog+TextTransforms, String, String, String)

WordEmbeddingEstimatorVytvořte objekt , což je textový filtr, který převádí vektory textu na číselné vektory pomocí předem natrénovaných modelů vkládání.

ApplyWordEmbedding(TransformsCatalog+TextTransforms, String, String, WordEmbeddingEstimator+PretrainedModelKind)

WordEmbeddingEstimatorVytvořte objekt , což je textový filtr, který převede vektor textu na číselný vektor pomocí předem natrénovaných modelů vkládání.

FeaturizeText(TransformsCatalog+TextTransforms, String, String)

TextFeaturizingEstimatorVytvořte objekt , který transformuje textový sloupec na vektor, který představuje normalizované Single počty n-gramů a char-gramů.

FeaturizeText(TransformsCatalog+TextTransforms, String, TextFeaturizingEstimator+Options, String[])

TextFeaturizingEstimatorVytvořte objekt , který transformuje textový sloupec na vektorSingle, který představuje normalizované počty n-gramů a znaků.

LatentDirichletAllocation(TransformsCatalog+TextTransforms, String, String, Int32, Single, Single, Int32, Int32, Int32, Int32, Int32, Int32, Int32, Boolean)

LatentDirichletAllocationEstimatorVytvořte objekt , který pomocí technologie LightLDA transformuje text (reprezentovaný jako vektor float) na vektor Single označující podobnost textu s identifikovaným tématem.

NormalizeText(TransformsCatalog+TextTransforms, String, String, TextNormalizingEstimator+CaseMode, Boolean, Boolean, Boolean)

Vytvoří objekt TextNormalizingEstimator, který normalizuje příchozí text v inputColumnName souboru tak, že volitelně změní velikost písmen, odebere diakritická znaménka, interpunkční znaménka a čísla a vypíše nový text jako outputColumnName.

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

NgramHashingEstimatorVytvořte , který zkopíruje data ze sloupce zadaného v inputColumnName souboru do nového sloupce: outputColumnName a vytvoří vektor počtů n-gramů hash.

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

NgramHashingEstimatorVytvořte , který přenese data z více sloupců zadaných v inputColumnNames souboru do nového sloupce: outputColumnName a vytvoří vektor počtů n-gramů hash.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorVytvořte parametr , který mapuje sloupec zadaný v souboru inputColumnName na vektor počtů hashovaných n-gramů v novém sloupci s názvem outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorVytvořte parametr , který mapuje více sloupců zadaných v inputColumnNames souboru na vektor počtů hashovaných n-gramů v novém sloupci s názvem outputColumnName.

ProduceNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

NgramExtractingEstimator Vytvoří vektor počtu n-gramů (posloupnosti po sobě jdoucích slov), který se vyskytl ve vstupním textu.

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

WordBagEstimatorVytvořte , který mapuje sloupec zadaný v souboru inputColumnName na vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

WordBagEstimatorVytvořte , který mapuje sloupec zadaný v souboru inputColumnName na vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

WordBagEstimatorVytvořte , který mapuje více sloupců zadaných v souboru inputColumnNames na vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

RemoveDefaultStopWords(TransformsCatalog+TextTransforms, String, String, StopWordsRemovingEstimator+Language)

Vytvořte CustomStopWordsRemovingEstimatorobjekt , který zkopíruje data ze sloupce zadaného v inputColumnName nástroji do nového sloupce: outputColumnName a odebere z něj předem určenou sadu textu, která je pro language něj specifická.

RemoveStopWords(TransformsCatalog+TextTransforms, String, String, String[])

Vytvořte CustomStopWordsRemovingEstimatorobjekt , který zkopíruje data ze sloupce zadaného v inputColumnName souboru do nového sloupce a outputColumnName odebere z něj zadaný text stopwords .

TokenizeIntoCharactersAsKeys(TransformsCatalog+TextTransforms, String, String, Boolean)

TokenizingByCharactersEstimatorVytvořte objekt , který tokenizuje rozdělením textu na sekvence znaků pomocí posuvného okna.

TokenizeIntoWords(TransformsCatalog+TextTransforms, String, String, Char[])

WordTokenizingEstimatorVytvořte , který tokenizuje vstupní text pomocí separators oddělovače.

Platí pro