Sdílet prostřednictvím


TextCatalog.ProduceWordBags Metoda

Definice

Přetížení

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na inputColumnName vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na inputColumnName vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Vytvořte WordBagEstimator, který mapuje více sloupců zadaných v inputColumnNames na vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na inputColumnName vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, char termSeparator, char freqSeparator, string inputColumnName = default, int maximumNgramsCount = 10000000);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * char * char * string * int -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, termSeparator As Char, freqSeparator As Char, Optional inputColumnName As String = Nothing, Optional maximumNgramsCount As Integer = 10000000) As WordBagEstimator

Parametry

catalog
TransformsCatalog.TextTransforms

Katalog transformace.

outputColumnName
String

Název sloupce, který je výsledkem transformace .inputColumnName Datový typ tohoto sloupce bude vektorem Singleznámé velikosti .

termSeparator
Char
freqSeparator
Char
inputColumnName
String

Název sloupce, ze který chcete data převzít. Maximální počet n-gramů pro uložení ve slovníku.Oddělovač používaný k oddělení párů termínů a frekvencí.Oddělovač slouží k oddělení termínů od jejich četnosti. Tento odhadce pracuje s vektorem textu.

maximumNgramsCount
Int32

Návraty

Poznámky

WordBagEstimator se liší od NgramExtractingEstimator toho, že první tokenizuje text interně a druhý přijímá tokenizovaný text jako vstup.

Platí pro

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na inputColumnName vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, int maximumNgramsCount = 10000000, Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria weighting = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * bool * int * Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional maximumNgramsCount As Integer = 10000000, Optional weighting As NgramExtractingEstimator.WeightingCriteria = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf) As WordBagEstimator

Parametry

catalog
TransformsCatalog.TextTransforms

Katalog transformace.

outputColumnName
String

Název sloupce, který je výsledkem transformace .inputColumnName Datový typ tohoto sloupce bude vektorem Singleznámé velikosti .

inputColumnName
String

Název sloupce, ze který chcete data převzít. Tento odhadce pracuje s vektorem textu.

ngramLength
Int32

Délka Ngramu.

skipLength
Int32

Maximální počet tokenů, které se mají při vytváření n-gramu přeskočit.

useAllLengths
Boolean

Zda zahrnout všechny n-gram délky do ngramLength nebo pouze ngramLength.

maximumNgramsCount
Int32

Maximální počet n-gramů pro uložení ve slovníku.

weighting
NgramExtractingEstimator.WeightingCriteria

Statistická míra používaná k vyhodnocení důležitosti slova pro dokument v korpusu.

Návraty

Poznámky

WordBagEstimator se liší od NgramExtractingEstimator toho, že první tokenizuje text interně a druhý přijímá tokenizovaný text jako vstup.

Platí pro

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Vytvořte WordBagEstimator, který mapuje více sloupců zadaných v inputColumnNames na vektor počtu n-gramů v novém sloupci s názvem outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, int maximumNgramsCount = 10000000, Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria weighting = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * bool * int * Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional maximumNgramsCount As Integer = 10000000, Optional weighting As NgramExtractingEstimator.WeightingCriteria = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf) As WordBagEstimator

Parametry

catalog
TransformsCatalog.TextTransforms

Katalog transformace.

outputColumnName
String

Název sloupce, který je výsledkem transformace .inputColumnNames Datový typ tohoto sloupce bude vektorem Singleznámé velikosti .

inputColumnNames
String[]

Názvy více sloupců, ze které se mají data přebírat. Tento odhadce pracuje s vektorem textu.

ngramLength
Int32

Délka Ngramu.

skipLength
Int32

Maximální počet tokenů, které se mají při vytváření n-gramu přeskočit.

useAllLengths
Boolean

Zda zahrnout všechny n-gram délky do ngramLength nebo pouze ngramLength.

maximumNgramsCount
Int32

Maximální počet n-gramů pro uložení ve slovníku.

weighting
NgramExtractingEstimator.WeightingCriteria

Statistická míra používaná k vyhodnocení důležitosti slova pro dokument v korpusu.

Návraty

Poznámky

WordBagEstimator se liší od NgramExtractingEstimator toho, že první tokenizuje text interně a druhý přijímá tokenizovaný text jako vstup.

Platí pro