Bagikan melalui


TextCatalog.ProduceHashedWordBags Metode

Definisi

Overload

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Buat WordHashBagEstimator, yang memetakan beberapa kolom yang ditentukan ke inputColumnNames vektor hitungan n-gram yang di-hash di kolom baru bernama outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Buat WordHashBagEstimator, yang memetakan kolom yang ditentukan inputColumnName ke vektor hitungan n-gram yang di-hash di kolom baru bernama outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Buat WordHashBagEstimator, yang memetakan beberapa kolom yang ditentukan ke inputColumnNames vektor hitungan n-gram yang di-hash di kolom baru bernama outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parameter

catalog
TransformsCatalog.TextTransforms

Katalog transformasi.

outputColumnName
String

Nama kolom yang dihasilkan dari transformasi inputColumnNames. Jenis data kolom ini akan menjadi vektor ukuran yang diketahui dari Single.

inputColumnNames
String[]

Nama beberapa kolom untuk mengambil data. Estimator ini beroperasi melalui vektor teks.

numberOfBits
Int32

Jumlah bit yang akan di-hash. Harus antara 1 dan 30, inklusif.

ngramLength
Int32

Panjang Ngram.

skipLength
Int32

Jumlah maksimum token yang akan dilewati saat membuat n-gram.

useAllLengths
Boolean

Apakah akan menyertakan semua panjang n-gram hingga ngramLength atau hanya ngramLength.

seed
UInt32

Benih hash.

useOrderedHashing
Boolean

Apakah posisi setiap kolom sumber harus disertakan dalam hash (ketika ada beberapa kolom sumber).

maximumNumberOfInverts
Int32

Selama hashing, kami membangun pemetaan antara nilai asli dan nilai hash yang dihasilkan. Representasi teks nilai asli disimpan dalam nama slot anotasi untuk kolom baru. Hashing, dengan demikian, dapat memetakan banyak nilai awal menjadi satu. maximumNumberOfInverts menentukan batas atas jumlah pemetaan nilai input yang berbeda ke hash yang harus dipertahankan. 0 tidak mempertahankan nilai input apa pun. -1 mempertahankan semua pemetaan nilai input ke setiap hash.

Mengembalikan

Keterangan

WordHashBagEstimator berbeda dari NgramHashingEstimator yang sebelumnya tokenisasi teks secara internal dan yang terakhir mengambil teks token sebagai input.

Berlaku untuk

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Buat WordHashBagEstimator, yang memetakan kolom yang ditentukan inputColumnName ke vektor hitungan n-gram yang di-hash di kolom baru bernama outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parameter

catalog
TransformsCatalog.TextTransforms

Katalog transformasi.

outputColumnName
String

Nama kolom yang dihasilkan dari transformasi inputColumnName. Jenis data kolom ini akan menjadi vektor ukuran yang diketahui dari Single.

inputColumnName
String

Nama kolom untuk mengambil data. Estimator ini beroperasi melalui vektor teks.

numberOfBits
Int32

Jumlah bit yang akan di-hash. Harus antara 1 dan 30, inklusif.

ngramLength
Int32

Panjang Ngram.

skipLength
Int32

Jumlah maksimum token yang akan dilewati saat membuat n-gram.

useAllLengths
Boolean

Apakah akan menyertakan semua panjang n-gram hingga ngramLength atau hanya ngramLength.

seed
UInt32

Benih hash.

useOrderedHashing
Boolean

Apakah posisi setiap kolom sumber harus disertakan dalam hash (ketika ada beberapa kolom sumber).

maximumNumberOfInverts
Int32

Selama hashing, kami membangun pemetaan antara nilai asli dan nilai hash yang dihasilkan. Representasi teks nilai asli disimpan dalam nama slot anotasi untuk kolom baru. Hashing, dengan demikian, dapat memetakan banyak nilai awal menjadi satu. maximumNumberOfInverts menentukan batas atas jumlah pemetaan nilai input yang berbeda ke hash yang harus dipertahankan. 0 tidak mempertahankan nilai input apa pun. -1 mempertahankan semua pemetaan nilai input ke setiap hash.

Mengembalikan

Keterangan

WordHashBagEstimator berbeda dari NgramHashingEstimator yang sebelumnya tokenisasi teks secara internal dan yang terakhir mengambil teks token sebagai input.

Berlaku untuk