Sdílet prostřednictvím


TransformsCatalog.TextTransforms Třída

Definice

Třída používaná uživatelem MLContext k vytváření instancí komponent transformace textových dat.

public sealed class TransformsCatalog.TextTransforms
type TransformsCatalog.TextTransforms = class
Public NotInheritable Class TransformsCatalog.TextTransforms
Dědičnost
TransformsCatalog.TextTransforms

Metody rozšíření

ApplyWordEmbedding(TransformsCatalog+TextTransforms, String, String, WordEmbeddingEstimator+PretrainedModelKind)

WordEmbeddingEstimatorVytvořte objekt , což je text featurizátor, který převede vektor textu na číselný vektor pomocí předem vytrénovaných modelů vkládání.

ApplyWordEmbedding(TransformsCatalog+TextTransforms, String, String, String)

WordEmbeddingEstimatorVytvořte objekt , což je text featurizátor, který převádí vektory textu na číselné vektory pomocí předem vytrénovaných modelů vkládání.

FeaturizeText(TransformsCatalog+TextTransforms, String, TextFeaturizingEstimator+Options, String[])

Vytvořte TextFeaturizingEstimatorobjekt , který transformuje textový sloupec na featurizovaný vektor Single , který představuje normalizované počty n-gramů a char-gramů.

FeaturizeText(TransformsCatalog+TextTransforms, String, String)

Vytvořte TextFeaturizingEstimatorobjekt , který transformuje textový sloupec na featurovaný vektor Single , který představuje normalizované počty n-gramů a char-gramů.

LatentDirichletAllocation(TransformsCatalog+TextTransforms, String, String, Int32, Single, Single, Int32, Int32, Int32, Int32, Int32, Int32, Int32, Boolean)

Vytvořte LatentDirichletAllocationEstimatorobjekt , který pomocí technologie LightLDA transformuje text (reprezentovaný jako vektor floatů) na vektor Single označující podobnost textu s identifikovaným tématem.

NormalizeText(TransformsCatalog+TextTransforms, String, String, TextNormalizingEstimator+CaseMode, Boolean, Boolean, Boolean)

TextNormalizingEstimatorVytvoří objekt , který normalizuje příchozí text v inputColumnName pomocí volitelné změny malých a velkých písmen, odebere diakritická znaménka, interpunkční znaménka a čísla a vypíše nový text jako outputColumnName.

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

Vytvořte NgramHashingEstimatorsoubor , který zkopíruje data ze sloupce zadaného v inputColumnName do nového sloupce a outputColumnName vytvoří vektor počtu hashovaných n-gramů.

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

Vytvořte NgramHashingEstimatorsoubor , který přenese data z více sloupců zadaných v inputColumnNames do nového sloupce a outputColumnName vytvoří vektor počtu hashovaných n-gramů.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Vytvořte WordHashBagEstimator, který mapuje zadaný sloupec v inputColumnName na vektor počtu hodnot hashovaných n-gramů v novém sloupci s názvem outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Vytvořte WordHashBagEstimatorsoubor , který mapuje více sloupců zadaných v inputColumnNames na vektor počtu hodnot hashovaných n-gramů v novém sloupci s názvem outputColumnName.

ProduceNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

NgramExtractingEstimator Vytvoří vektor počtu n-gramů (posloupností po sobě jdoucích slov), které se vyskytují ve vstupním textu.

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na inputColumnName vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na inputColumnName vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Vytvořte WordBagEstimator, který mapuje více sloupců zadaných v inputColumnNames na vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

RemoveDefaultStopWords(TransformsCatalog+TextTransforms, String, String, StopWordsRemovingEstimator+Language)

Vytvořte CustomStopWordsRemovingEstimatorobjekt , který zkopíruje data ze sloupce zadaného v inputColumnName souboru do nového sloupce: outputColumnName a odebere z něj předem danou sadu textu language .

RemoveStopWords(TransformsCatalog+TextTransforms, String, String, String[])

Vytvořte CustomStopWordsRemovingEstimatorobjekt , který zkopíruje data ze sloupce zadaného v inputColumnName souboru do nového sloupce a outputColumnName odebere z něj zadaný text stopwords .

TokenizeIntoCharactersAsKeys(TransformsCatalog+TextTransforms, String, String, Boolean)

Vytvořte TokenizingByCharactersEstimatorobjekt , který tokenizuje rozdělením textu do posloupností znaků pomocí posuvného okna.

TokenizeIntoWords(TransformsCatalog+TextTransforms, String, String, Char[])

Vytvořte , WordTokenizingEstimatorkterý tokenizuje vstupní text pomocí separators oddělovače.

Platí pro