TextCatalog.ProduceHashedWordBags Метод
Определение
Важно!
Некоторые сведения относятся к предварительной версии продукта, в которую до выпуска могут быть внесены существенные изменения. Майкрософт не предоставляет никаких гарантий, явных или подразумеваемых, относительно приведенных здесь сведений.
Перегрузки
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32) |
WordHashBagEstimatorСоздайте объект, который сопоставляет несколько столбцов, указанных в векторе |
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32) |
WordHashBagEstimatorСоздайте столбец, который сопоставляет столбец, указанный в векторе |
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)
WordHashBagEstimatorСоздайте объект, который сопоставляет несколько столбцов, указанных в векторе inputColumnNames
счетчиков хэшированных n-граммов в новом столбце с именемoutputColumnName
.
public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator
Параметры
- catalog
- TransformsCatalog.TextTransforms
Каталог преобразования.
- outputColumnName
- String
Имя столбца, полученного из преобразования inputColumnNames
.
Тип данных этого столбца будет иметь известный Singleвектор размера .
- inputColumnNames
- String[]
Имена нескольких столбцов для получения данных. Этот оценщик работает над вектором текста.
- numberOfBits
- Int32
Число битов в результирующем хэше. Должно находиться в диапазоне от 1 до 30 включительно.
- ngramLength
- Int32
Длина Nграммы.
- skipLength
- Int32
Максимальное количество пропускаемых маркеров при создании n-граммы.
- useAllLengths
- Boolean
Указывает, следует ли включать все n-граммы длиной до ngramLength
или только ngramLength
.
- seed
- UInt32
Начальное значение хэширования.
- useOrderedHashing
- Boolean
Следует ли включать расположение каждого исходного столбца в хэш (при наличии нескольких исходных столбцов).
- maximumNumberOfInverts
- Int32
Во время хэширования мы создаем сопоставления между исходными значениями и созданными хэш-значениями.
Текстовое представление исходных значений хранится в именах слотов заметок для нового столбца. Хэширование, например, может сопоставлять множество начальных значений с одним.
maximumNumberOfInverts
задает верхнюю границу числа уникальных входных значений, сопоставленных с хэшом, который следует сохранить.
0 не сохраняет входные значения. -1 сохраняет все входные значения, сопоставленные с каждым хэшом.
Возвращаемое значение
Комментарии
WordHashBagEstimator отличается от NgramHashingEstimator того, что первый токенизирует текст внутренне, а последний принимает в качестве входных данных токенизированный текст.
Применяется к
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)
WordHashBagEstimatorСоздайте столбец, который сопоставляет столбец, указанный в векторе inputColumnName
счетчиков хэшированных n-граммов в новом столбце с именемoutputColumnName
.
public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator
Параметры
- catalog
- TransformsCatalog.TextTransforms
Каталог преобразования.
- outputColumnName
- String
Имя столбца, полученного из преобразования inputColumnName
.
Тип данных этого столбца будет иметь известный Singleвектор размера .
- inputColumnName
- String
Имя столбца для получения данных. Этот оценщик работает над вектором текста.
- numberOfBits
- Int32
Число битов в результирующем хэше. Должно находиться в диапазоне от 1 до 30 включительно.
- ngramLength
- Int32
Длина Nграммы.
- skipLength
- Int32
Максимальное количество пропускаемых маркеров при создании n-граммы.
- useAllLengths
- Boolean
Указывает, следует ли включать все n-граммы длиной до ngramLength
или только ngramLength
.
- seed
- UInt32
Начальное значение хэширования.
- useOrderedHashing
- Boolean
Следует ли включать расположение каждого исходного столбца в хэш (при наличии нескольких исходных столбцов).
- maximumNumberOfInverts
- Int32
Во время хэширования мы создаем сопоставления между исходными значениями и созданными хэш-значениями.
Текстовое представление исходных значений хранится в именах слотов заметок для нового столбца. Хэширование, например, может сопоставлять множество начальных значений с одним.
maximumNumberOfInverts
задает верхнюю границу числа уникальных входных значений, сопоставленных с хэшом, который следует сохранить.
0 не сохраняет входные значения. -1 сохраняет все входные значения, сопоставленные с каждым хэшом.
Возвращаемое значение
Комментарии
WordHashBagEstimator отличается от NgramHashingEstimator того, что первый токенизирует текст внутренне, а последний принимает в качестве входных данных токенизированный текст.