TextCatalog.ProduceHashedWordBags Metode
Definisi
Penting
Beberapa informasi terkait produk prarilis yang dapat diubah secara signifikan sebelum dirilis. Microsoft tidak memberikan jaminan, tersirat maupun tersurat, sehubungan dengan informasi yang diberikan di sini.
Overload
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32) |
Buat WordHashBagEstimator, yang memetakan beberapa kolom yang ditentukan ke |
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32) |
Buat WordHashBagEstimator, yang memetakan kolom yang ditentukan |
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)
Buat WordHashBagEstimator, yang memetakan beberapa kolom yang ditentukan ke inputColumnNames
vektor hitungan n-gram yang di-hash di kolom baru bernama outputColumnName
.
public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator
Parameter
- catalog
- TransformsCatalog.TextTransforms
Katalog transformasi.
- outputColumnName
- String
Nama kolom yang dihasilkan dari transformasi inputColumnNames
.
Jenis data kolom ini akan menjadi vektor ukuran yang diketahui dari Single.
- inputColumnNames
- String[]
Nama beberapa kolom untuk mengambil data. Estimator ini beroperasi melalui vektor teks.
- numberOfBits
- Int32
Jumlah bit yang akan di-hash. Harus antara 1 dan 30, inklusif.
- ngramLength
- Int32
Panjang Ngram.
- skipLength
- Int32
Jumlah maksimum token yang akan dilewati saat membuat n-gram.
- useAllLengths
- Boolean
Apakah akan menyertakan semua panjang n-gram hingga ngramLength
atau hanya ngramLength
.
- seed
- UInt32
Benih hash.
- useOrderedHashing
- Boolean
Apakah posisi setiap kolom sumber harus disertakan dalam hash (ketika ada beberapa kolom sumber).
- maximumNumberOfInverts
- Int32
Selama hashing, kami membangun pemetaan antara nilai asli dan nilai hash yang dihasilkan.
Representasi teks nilai asli disimpan dalam nama slot anotasi untuk kolom baru. Hashing, dengan demikian, dapat memetakan banyak nilai awal menjadi satu.
maximumNumberOfInverts
menentukan batas atas jumlah pemetaan nilai input yang berbeda ke hash yang harus dipertahankan.
0 tidak mempertahankan nilai input apa pun. -1 mempertahankan semua pemetaan nilai input ke setiap hash.
Mengembalikan
Keterangan
WordHashBagEstimator berbeda dari NgramHashingEstimator yang sebelumnya tokenisasi teks secara internal dan yang terakhir mengambil teks token sebagai input.
Berlaku untuk
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)
Buat WordHashBagEstimator, yang memetakan kolom yang ditentukan inputColumnName
ke vektor hitungan n-gram yang di-hash di kolom baru bernama outputColumnName
.
public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator
Parameter
- catalog
- TransformsCatalog.TextTransforms
Katalog transformasi.
- outputColumnName
- String
Nama kolom yang dihasilkan dari transformasi inputColumnName
.
Jenis data kolom ini akan menjadi vektor ukuran yang diketahui dari Single.
- inputColumnName
- String
Nama kolom untuk mengambil data. Estimator ini beroperasi melalui vektor teks.
- numberOfBits
- Int32
Jumlah bit yang akan di-hash. Harus antara 1 dan 30, inklusif.
- ngramLength
- Int32
Panjang Ngram.
- skipLength
- Int32
Jumlah maksimum token yang akan dilewati saat membuat n-gram.
- useAllLengths
- Boolean
Apakah akan menyertakan semua panjang n-gram hingga ngramLength
atau hanya ngramLength
.
- seed
- UInt32
Benih hash.
- useOrderedHashing
- Boolean
Apakah posisi setiap kolom sumber harus disertakan dalam hash (ketika ada beberapa kolom sumber).
- maximumNumberOfInverts
- Int32
Selama hashing, kami membangun pemetaan antara nilai asli dan nilai hash yang dihasilkan.
Representasi teks nilai asli disimpan dalam nama slot anotasi untuk kolom baru. Hashing, dengan demikian, dapat memetakan banyak nilai awal menjadi satu.
maximumNumberOfInverts
menentukan batas atas jumlah pemetaan nilai input yang berbeda ke hash yang harus dipertahankan.
0 tidak mempertahankan nilai input apa pun. -1 mempertahankan semua pemetaan nilai input ke setiap hash.
Mengembalikan
Keterangan
WordHashBagEstimator berbeda dari NgramHashingEstimator yang sebelumnya tokenisasi teks secara internal dan yang terakhir mengambil teks token sebagai input.