Bagikan melalui


TextCatalog.ProduceWordBags Metode

Definisi

Overload

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

Buat WordBagEstimator, yang memetakan kolom yang ditentukan inputColumnName ke vektor jumlah n-gram dalam kolom baru bernama outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Buat WordBagEstimator, yang memetakan kolom yang ditentukan inputColumnName ke vektor jumlah n-gram dalam kolom baru bernama outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Buat WordBagEstimator, yang memetakan beberapa kolom yang ditentukan ke inputColumnNames vektor n-gram dihitung dalam kolom baru bernama outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

Buat WordBagEstimator, yang memetakan kolom yang ditentukan inputColumnName ke vektor jumlah n-gram dalam kolom baru bernama outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, char termSeparator, char freqSeparator, string inputColumnName = default, int maximumNgramsCount = 10000000);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * char * char * string * int -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, termSeparator As Char, freqSeparator As Char, Optional inputColumnName As String = Nothing, Optional maximumNgramsCount As Integer = 10000000) As WordBagEstimator

Parameter

catalog
TransformsCatalog.TextTransforms

Katalog transformasi.

outputColumnName
String

Nama kolom yang dihasilkan dari transformasi inputColumnName. Jenis data kolom ini akan menjadi vektor ukuran yang diketahui dari Single.

termSeparator
Char
freqSeparator
Char
inputColumnName
String

Nama kolom untuk mengambil data. Jumlah maksimum n-gram untuk disimpan dalam kamus.Pemisah digunakan untuk memisahkan pasangan istilah/frekuensi.Pemisah digunakan untuk memisahkan istilah dari frekuensinya. Estimator ini beroperasi melalui vektor teks.

maximumNgramsCount
Int32

Mengembalikan

Keterangan

WordBagEstimator berbeda dari NgramExtractingEstimator yang sebelumnya tokenisasi teks secara internal dan yang terakhir mengambil teks token sebagai input.

Berlaku untuk

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Buat WordBagEstimator, yang memetakan kolom yang ditentukan inputColumnName ke vektor jumlah n-gram dalam kolom baru bernama outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, int maximumNgramsCount = 10000000, Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria weighting = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * bool * int * Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional maximumNgramsCount As Integer = 10000000, Optional weighting As NgramExtractingEstimator.WeightingCriteria = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf) As WordBagEstimator

Parameter

catalog
TransformsCatalog.TextTransforms

Katalog transformasi.

outputColumnName
String

Nama kolom yang dihasilkan dari transformasi inputColumnName. Jenis data kolom ini akan menjadi vektor ukuran yang diketahui dari Single.

inputColumnName
String

Nama kolom untuk mengambil data. Estimator ini beroperasi melalui vektor teks.

ngramLength
Int32

Panjang Ngram.

skipLength
Int32

Jumlah maksimum token yang akan dilewati saat membuat n-gram.

useAllLengths
Boolean

Apakah akan menyertakan semua panjang n-gram hingga ngramLength atau hanya ngramLength.

maximumNgramsCount
Int32

Jumlah maksimum n-gram untuk disimpan dalam kamus.

weighting
NgramExtractingEstimator.WeightingCriteria

Ukuran statistik yang digunakan untuk mengevaluasi seberapa penting kata untuk dokumen dalam korpus.

Mengembalikan

Keterangan

WordBagEstimator berbeda dari NgramExtractingEstimator yang sebelumnya tokenisasi teks secara internal dan yang terakhir mengambil teks token sebagai input.

Berlaku untuk

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Buat WordBagEstimator, yang memetakan beberapa kolom yang ditentukan ke inputColumnNames vektor n-gram dihitung dalam kolom baru bernama outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, int maximumNgramsCount = 10000000, Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria weighting = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf);
static member ProduceWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * bool * int * Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria -> Microsoft.ML.Transforms.Text.WordBagEstimator
<Extension()>
Public Function ProduceWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional maximumNgramsCount As Integer = 10000000, Optional weighting As NgramExtractingEstimator.WeightingCriteria = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf) As WordBagEstimator

Parameter

catalog
TransformsCatalog.TextTransforms

Katalog transformasi.

outputColumnName
String

Nama kolom yang dihasilkan dari transformasi inputColumnNames. Jenis data kolom ini akan menjadi vektor ukuran yang diketahui dari Single.

inputColumnNames
String[]

Nama beberapa kolom untuk mengambil data. Estimator ini beroperasi melalui vektor teks.

ngramLength
Int32

Panjang Ngram.

skipLength
Int32

Jumlah maksimum token yang akan dilewati saat membuat n-gram.

useAllLengths
Boolean

Apakah akan menyertakan semua panjang n-gram hingga ngramLength atau hanya ngramLength.

maximumNgramsCount
Int32

Jumlah maksimum n-gram untuk disimpan dalam kamus.

weighting
NgramExtractingEstimator.WeightingCriteria

Ukuran statistik yang digunakan untuk mengevaluasi seberapa penting kata untuk dokumen dalam korpus.

Mengembalikan

Keterangan

WordBagEstimator berbeda dari NgramExtractingEstimator yang sebelumnya tokenisasi teks secara internal dan yang terakhir mengambil teks token sebagai input.

Berlaku untuk