TextCatalog.ProduceWordBags Metoda
Definice
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
Přetížení
ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32) |
Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na |
ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria) |
Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na |
ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria) |
Vytvořte WordBagEstimator, který mapuje více sloupců zadaných v |
ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)
Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na inputColumnName
vektor počtu n-gramů v novém sloupci s názvem outputColumnName
.
public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, char termSeparator, char freqSeparator, string inputColumnName = default, int maximumNgramsCount = 10000000);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * char * char * string * int -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, termSeparator As Char, freqSeparator As Char, Optional inputColumnName As String = Nothing, Optional maximumNgramsCount As Integer = 10000000) As WordBagEstimator
Parametry
- catalog
- TransformsCatalog.TextTransforms
Katalog transformace.
- outputColumnName
- String
Název sloupce, který je výsledkem transformace .inputColumnName
Datový typ tohoto sloupce bude vektorem Singleznámé velikosti .
- termSeparator
- Char
- freqSeparator
- Char
- inputColumnName
- String
Název sloupce, ze který chcete data převzít. Maximální počet n-gramů pro uložení ve slovníku.Oddělovač používaný k oddělení párů termínů a frekvencí.Oddělovač slouží k oddělení termínů od jejich četnosti. Tento odhadce pracuje s vektorem textu.
- maximumNgramsCount
- Int32
Návraty
Poznámky
WordBagEstimator se liší od NgramExtractingEstimator toho, že první tokenizuje text interně a druhý přijímá tokenizovaný text jako vstup.
Platí pro
ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)
Vytvořte WordBagEstimatorsloupec , který mapuje zadaný sloupec na inputColumnName
vektor počtu n-gramů v novém sloupci s názvem outputColumnName
.
public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, int maximumNgramsCount = 10000000, Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria weighting = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * bool * int * Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional maximumNgramsCount As Integer = 10000000, Optional weighting As NgramExtractingEstimator.WeightingCriteria = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf) As WordBagEstimator
Parametry
- catalog
- TransformsCatalog.TextTransforms
Katalog transformace.
- outputColumnName
- String
Název sloupce, který je výsledkem transformace .inputColumnName
Datový typ tohoto sloupce bude vektorem Singleznámé velikosti .
- inputColumnName
- String
Název sloupce, ze který chcete data převzít. Tento odhadce pracuje s vektorem textu.
- ngramLength
- Int32
Délka Ngramu.
- skipLength
- Int32
Maximální počet tokenů, které se mají při vytváření n-gramu přeskočit.
- useAllLengths
- Boolean
Zda zahrnout všechny n-gram délky do ngramLength
nebo pouze ngramLength
.
- maximumNgramsCount
- Int32
Maximální počet n-gramů pro uložení ve slovníku.
Statistická míra používaná k vyhodnocení důležitosti slova pro dokument v korpusu.
Návraty
Poznámky
WordBagEstimator se liší od NgramExtractingEstimator toho, že první tokenizuje text interně a druhý přijímá tokenizovaný text jako vstup.
Platí pro
ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)
Vytvořte WordBagEstimator, který mapuje více sloupců zadaných v inputColumnNames
na vektor počtu n-gramů v novém sloupci s názvem outputColumnName
.
public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, int maximumNgramsCount = 10000000, Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria weighting = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * bool * int * Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional maximumNgramsCount As Integer = 10000000, Optional weighting As NgramExtractingEstimator.WeightingCriteria = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf) As WordBagEstimator
Parametry
- catalog
- TransformsCatalog.TextTransforms
Katalog transformace.
- outputColumnName
- String
Název sloupce, který je výsledkem transformace .inputColumnNames
Datový typ tohoto sloupce bude vektorem Singleznámé velikosti .
- inputColumnNames
- String[]
Názvy více sloupců, ze které se mají data přebírat. Tento odhadce pracuje s vektorem textu.
- ngramLength
- Int32
Délka Ngramu.
- skipLength
- Int32
Maximální počet tokenů, které se mají při vytváření n-gramu přeskočit.
- useAllLengths
- Boolean
Zda zahrnout všechny n-gram délky do ngramLength
nebo pouze ngramLength
.
- maximumNgramsCount
- Int32
Maximální počet n-gramů pro uložení ve slovníku.
Statistická míra používaná k vyhodnocení důležitosti slova pro dokument v korpusu.
Návraty
Poznámky
WordBagEstimator se liší od NgramExtractingEstimator toho, že první tokenizuje text interně a druhý přijímá tokenizovaný text jako vstup.