Freigeben über


TextCatalog.ProduceHashedWordBags Methode

Definition

Überlädt

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Erstellen Sie einen WordHashBagEstimatorWert, der die in inputColumnNames einem Vektor der Anzahl von Hashed n-Gramm in einer neuen Spalte namens outputColumnNamezugeordnet ist.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Erstellen Sie einen WordHashBagEstimatorWert, der die in einem Vektor der Anzahl von Hashed n-Gramm in einer neuen Spalte inputColumnName namens outputColumnNamezugeordnet ist.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Erstellen Sie einen WordHashBagEstimatorWert, der die in inputColumnNames einem Vektor der Anzahl von Hashed n-Gramm in einer neuen Spalte namens outputColumnNamezugeordnet ist.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parameter

catalog
TransformsCatalog.TextTransforms

Der Katalog der Transformation.

outputColumnName
String

Name der Spalte, die aus der Transformation von inputColumnNames. Der Datentyp dieser Spalte wird bekannt Singlesein.

inputColumnNames
String[]

Namen der mehreren Spalten, aus der die Daten abgerufen werden sollen. Dieser Stimator wird über den Vektor des Texts betrieben.

numberOfBits
Int32

Anzahl der Bits, in die einen Hashwert aufgenommen werden soll. Muss im Bereich 1 bis 30 liegen.

ngramLength
Int32

Länge des Ngrams.

skipLength
Int32

Maximale Anzahl von Token, die beim Erstellen eines n-Gramms übersprungen werden sollen.

useAllLengths
Boolean

Ob alle n-Gramm-Längen bis zu ngramLength oder nur ngramLengtheingeschlossen werden sollen.

seed
UInt32

Ausgangswert für Hashing.

useOrderedHashing
Boolean

Gibt an, ob die Position jeder Quellspalte im Hash enthalten sein soll (wenn mehrere Quellspalten vorhanden sind).

maximumNumberOfInverts
Int32

Während der Hasherstellung erstellen wir Zuordnungen zwischen ursprünglichen Werten und den erzeugten Hashwerten. Die Textdarstellung der ursprünglichen Werte wird in den Platznamen der Anmerkungen für die neue Spalte gespeichert. Hashing kann z. B. viele Anfangswerte zu einem zuordnen. maximumNumberOfInverts Gibt die obere Grenze der Anzahl der unterschiedlichen Eingabewerte an, die einem Hash zugeordnet werden sollen, der beibehalten werden soll. 0 behält keine Eingabewerte. -1 behält alle Eingabewertezuordnungen für jeden Hash bei.

Gibt zurück

Hinweise

WordHashBagEstimator unterscheidet sich davon NgramHashingEstimator , dass der ehemalige Tokentext intern formatiert wird und der letztere tokenisierte Text als Eingabe verwendet.

Gilt für:

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Erstellen Sie einen WordHashBagEstimatorWert, der die in einem Vektor der Anzahl von Hashed n-Gramm in einer neuen Spalte inputColumnName namens outputColumnNamezugeordnet ist.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parameter

catalog
TransformsCatalog.TextTransforms

Der Katalog der Transformation.

outputColumnName
String

Name der Spalte, die aus der Transformation von inputColumnName. Der Datentyp dieser Spalte wird bekannt Singlesein.

inputColumnName
String

Name der Spalte, aus der die Daten abgerufen werden sollen. Dieser Stimator wird über den Vektor des Texts betrieben.

numberOfBits
Int32

Anzahl der Bits, in die einen Hashwert aufgenommen werden soll. Muss im Bereich 1 bis 30 liegen.

ngramLength
Int32

Länge des Ngrams.

skipLength
Int32

Maximale Anzahl von Token, die beim Erstellen eines n-Gramms übersprungen werden sollen.

useAllLengths
Boolean

Ob alle n-Gramm-Längen bis zu ngramLength oder nur ngramLengtheingeschlossen werden sollen.

seed
UInt32

Ausgangswert für Hashing.

useOrderedHashing
Boolean

Gibt an, ob die Position jeder Quellspalte im Hash enthalten sein soll (wenn mehrere Quellspalten vorhanden sind).

maximumNumberOfInverts
Int32

Während der Hasherstellung erstellen wir Zuordnungen zwischen ursprünglichen Werten und den erzeugten Hashwerten. Die Textdarstellung der ursprünglichen Werte wird in den Platznamen der Anmerkungen für die neue Spalte gespeichert. Hashing kann z. B. viele Anfangswerte zu einem zuordnen. maximumNumberOfInverts Gibt die obere Grenze der Anzahl der unterschiedlichen Eingabewerte an, die einem Hash zugeordnet werden sollen, der beibehalten werden soll. 0 behält keine Eingabewerte. -1 behält alle Eingabewertezuordnungen für jeden Hash bei.

Gibt zurück

Hinweise

WordHashBagEstimator unterscheidet sich davon NgramHashingEstimator , dass der ehemalige Tokentext intern formatiert wird und der letztere tokenisierte Text als Eingabe verwendet.

Gilt für: