Поделиться через


TextCatalog.ProduceHashedWordBags Метод

Определение

Перегрузки

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorСоздайте объект, который сопоставляет несколько столбцов, указанных в векторе inputColumnNames счетчиков хэшированных n-граммов в новом столбце с именемoutputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorСоздайте столбец, который сопоставляет столбец, указанный в векторе inputColumnName счетчиков хэшированных n-граммов в новом столбце с именемoutputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorСоздайте объект, который сопоставляет несколько столбцов, указанных в векторе inputColumnNames счетчиков хэшированных n-граммов в новом столбце с именемoutputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Параметры

catalog
TransformsCatalog.TextTransforms

Каталог преобразования.

outputColumnName
String

Имя столбца, полученного из преобразования inputColumnNames. Тип данных этого столбца будет иметь известный Singleвектор размера .

inputColumnNames
String[]

Имена нескольких столбцов для получения данных. Этот оценщик работает над вектором текста.

numberOfBits
Int32

Число битов в результирующем хэше. Должно находиться в диапазоне от 1 до 30 включительно.

ngramLength
Int32

Длина Nграммы.

skipLength
Int32

Максимальное количество пропускаемых маркеров при создании n-граммы.

useAllLengths
Boolean

Указывает, следует ли включать все n-граммы длиной до ngramLength или только ngramLength.

seed
UInt32

Начальное значение хэширования.

useOrderedHashing
Boolean

Следует ли включать расположение каждого исходного столбца в хэш (при наличии нескольких исходных столбцов).

maximumNumberOfInverts
Int32

Во время хэширования мы создаем сопоставления между исходными значениями и созданными хэш-значениями. Текстовое представление исходных значений хранится в именах слотов заметок для нового столбца. Хэширование, например, может сопоставлять множество начальных значений с одним. maximumNumberOfInverts задает верхнюю границу числа уникальных входных значений, сопоставленных с хэшом, который следует сохранить. 0 не сохраняет входные значения. -1 сохраняет все входные значения, сопоставленные с каждым хэшом.

Возвращаемое значение

Комментарии

WordHashBagEstimator отличается от NgramHashingEstimator того, что первый токенизирует текст внутренне, а последний принимает в качестве входных данных токенизированный текст.

Применяется к

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorСоздайте столбец, который сопоставляет столбец, указанный в векторе inputColumnName счетчиков хэшированных n-граммов в новом столбце с именемoutputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Параметры

catalog
TransformsCatalog.TextTransforms

Каталог преобразования.

outputColumnName
String

Имя столбца, полученного из преобразования inputColumnName. Тип данных этого столбца будет иметь известный Singleвектор размера .

inputColumnName
String

Имя столбца для получения данных. Этот оценщик работает над вектором текста.

numberOfBits
Int32

Число битов в результирующем хэше. Должно находиться в диапазоне от 1 до 30 включительно.

ngramLength
Int32

Длина Nграммы.

skipLength
Int32

Максимальное количество пропускаемых маркеров при создании n-граммы.

useAllLengths
Boolean

Указывает, следует ли включать все n-граммы длиной до ngramLength или только ngramLength.

seed
UInt32

Начальное значение хэширования.

useOrderedHashing
Boolean

Следует ли включать расположение каждого исходного столбца в хэш (при наличии нескольких исходных столбцов).

maximumNumberOfInverts
Int32

Во время хэширования мы создаем сопоставления между исходными значениями и созданными хэш-значениями. Текстовое представление исходных значений хранится в именах слотов заметок для нового столбца. Хэширование, например, может сопоставлять множество начальных значений с одним. maximumNumberOfInverts задает верхнюю границу числа уникальных входных значений, сопоставленных с хэшом, который следует сохранить. 0 не сохраняет входные значения. -1 сохраняет все входные значения, сопоставленные с каждым хэшом.

Возвращаемое значение

Комментарии

WordHashBagEstimator отличается от NgramHashingEstimator того, что первый токенизирует текст внутренне, а последний принимает в качестве входных данных токенизированный текст.

Применяется к