TextCatalog.ProduceHashedNgrams 메서드
정의
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
오버로드
ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean) |
NgramHashingEstimator에 지정된 열의 데이터를 새 열 |
ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean) |
NgramHashingEstimator에 지정된 |
ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)
NgramHashingEstimator에 지정된 열의 데이터를 새 열 outputColumnName
로 inputColumnName
복사하고 해시된 n-gram 개수의 벡터를 생성하는 를 만듭니다.
public static Microsoft.ML.Transforms.Text.NgramHashingEstimator ProduceHashedNgrams (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0, bool rehashUnigrams = false);
static member ProduceHashedNgrams : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int * bool -> Microsoft.ML.Transforms.Text.NgramHashingEstimator
<Extension()>
Public Function ProduceHashedNgrams (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0, Optional rehashUnigrams As Boolean = false) As NgramHashingEstimator
매개 변수
- catalog
- TransformsCatalog.TextTransforms
변환의 카탈로그입니다.
- inputColumnName
- String
데이터를 복사할 열의 이름입니다. 이 추정기는 키 형식의 벡터에서 작동합니다.
- numberOfBits
- Int32
해시할 비트 수입니다. 1에서 30(포함) 사이여야 합니다.
- ngramLength
- Int32
Ngram 길이입니다.
- skipLength
- Int32
n-gram을 생성할 때 건너뛸 최대 토큰 수입니다.
- useAllLengths
- Boolean
모든 n-gram 길이를 포함할지 아니면 1개까지 ngramLength
만 ngramLength
포함할지 여부입니다.
- seed
- UInt32
해시 시드입니다.
- useOrderedHashing
- Boolean
각 원본 열의 위치를 해시에 포함할지 여부입니다(원본 열이 여러 개 있는 경우).
- maximumNumberOfInverts
- Int32
해시하는 동안 원래 값과 생성된 해시 값 간에 매핑을 생성합니다.
원래 값의 텍스트 표현은 새 열에 대한 주석의 슬롯 이름에 저장됩니다. 따라서 해시는 많은 초기 값을 하나에 매핑할 수 있습니다.
maximumNumberOfInverts
는 유지해야 하는 해시에 매핑되는 고유 입력 값 수의 상한을 지정합니다.
0 은 입력 값을 유지하지 않습니다. -1 은 각 해시에 대한 모든 입력 값 매핑을 유지합니다.
- rehashUnigrams
- Boolean
유니그램을 다시 해시할지 여부입니다.
반환
설명
NgramHashingEstimator는 내부적으로 텍스트를 토큰화하는 동안 WordHashBagEstimator 토큰화된 텍스트를 입력으로 사용하는 방식 NgramHashingEstimator 과 다릅니다WordHashBagEstimator.
적용 대상
ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)
NgramHashingEstimator에 지정된 inputColumnNames
여러 열에서 새 outputColumnName
열로 데이터를 가져와 해시된 n-gram 개수의 벡터를 생성하는 를 만듭니다.
public static Microsoft.ML.Transforms.Text.NgramHashingEstimator ProduceHashedNgrams (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames = default, int numberOfBits = 16, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0, bool rehashUnigrams = false);
static member ProduceHashedNgrams : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int * bool -> Microsoft.ML.Transforms.Text.NgramHashingEstimator
<Extension()>
Public Function ProduceHashedNgrams (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnNames As String() = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0, Optional rehashUnigrams As Boolean = false) As NgramHashingEstimator
매개 변수
- catalog
- TransformsCatalog.TextTransforms
변환의 카탈로그입니다.
- inputColumnNames
- String[]
데이터를 가져와야 하는 여러 열의 이름입니다. 이 추정기는 키 형식의 벡터에서 작동합니다.
- numberOfBits
- Int32
해시할 비트 수입니다. 1에서 30(포함) 사이여야 합니다.
- ngramLength
- Int32
Ngram 길이입니다.
- skipLength
- Int32
n-gram을 생성할 때 건너뛸 최대 토큰 수입니다.
- useAllLengths
- Boolean
모든 n-gram 길이를 포함할지 아니면 1개까지 ngramLength
만 ngramLength
포함할지 여부입니다.
- seed
- UInt32
해시 시드입니다.
- useOrderedHashing
- Boolean
각 원본 열의 위치를 해시에 포함할지 여부입니다(원본 열이 여러 개 있는 경우).
- maximumNumberOfInverts
- Int32
해시하는 동안 원래 값과 생성된 해시 값 간에 매핑을 생성합니다.
원래 값의 텍스트 표현은 새 열에 대한 주석의 슬롯 이름에 저장됩니다. 따라서 해시는 많은 초기 값을 하나에 매핑할 수 있습니다.
maximumNumberOfInverts
는 유지해야 하는 해시에 매핑되는 고유 입력 값 수의 상한을 지정합니다.
0 은 입력 값을 유지하지 않습니다. -1 은 각 해시에 대한 모든 입력 값 매핑을 유지합니다.
- rehashUnigrams
- Boolean
유니그램을 다시 해시할지 여부입니다.
반환
예제
using System;
using System.Collections.Generic;
using Microsoft.ML;
using Microsoft.ML.Data;
namespace Samples.Dynamic
{
public static class ProduceHashedNgrams
{
public static void Example()
{
// Create a new ML context, for ML.NET operations. It can be used for
// exception tracking and logging, as well as the source of randomness.
var mlContext = new MLContext();
// Create a small dataset as an IEnumerable.
var samples = new List<TextData>()
{
new TextData(){ Text = "This is an example to compute n-grams " +
"using hashing." },
new TextData(){ Text = "N-gram is a sequence of 'N' consecutive" +
" words/tokens." },
new TextData(){ Text = "ML.NET's ProduceHashedNgrams API " +
"produces count of n-grams and hashes it as an index into a " +
"vector of given bit length." },
new TextData(){ Text = "The hashing reduces the size of the " +
"output feature vector" },
new TextData(){ Text = "which is useful in case when number of " +
"n-grams is very large." },
};
// Convert training data to IDataView.
var dataview = mlContext.Data.LoadFromEnumerable(samples);
// A pipeline for converting text into numeric hashed n-gram features.
// The following call to 'ProduceHashedNgrams' requires the tokenized
// text /string as input. This is achieved by calling
// 'TokenizeIntoWords' first followed by 'ProduceHashedNgrams'.
// Please note that the length of the output feature vector depends on
// the 'numberOfBits' settings.
var textPipeline = mlContext.Transforms.Text.TokenizeIntoWords("Tokens",
"Text")
.Append(mlContext.Transforms.Conversion.MapValueToKey("Tokens"))
.Append(mlContext.Transforms.Text.ProduceHashedNgrams(
"NgramFeatures", "Tokens",
numberOfBits: 5,
ngramLength: 3,
useAllLengths: false,
maximumNumberOfInverts: 1));
// Fit to data.
var textTransformer = textPipeline.Fit(dataview);
var transformedDataView = textTransformer.Transform(dataview);
// Create the prediction engine to get the features extracted from the
// text.
var predictionEngine = mlContext.Model.CreatePredictionEngine<TextData,
TransformedTextData>(textTransformer);
// Convert the text into numeric features.
var prediction = predictionEngine.Predict(samples[0]);
// Print the length of the feature vector.
Console.WriteLine("Number of Features: " + prediction.NgramFeatures
.Length);
// Preview of the produced n-grams.
// Get the slot names from the column's metadata.
// The slot names for a vector column corresponds to the names
// associated with each position in the vector.
VBuffer<ReadOnlyMemory<char>> slotNames = default;
transformedDataView.Schema["NgramFeatures"].GetSlotNames(ref slotNames);
var NgramFeaturesColumn = transformedDataView.GetColumn<VBuffer<float>>(
transformedDataView.Schema["NgramFeatures"]);
var slots = slotNames.GetValues();
Console.Write("N-grams: ");
foreach (var featureRow in NgramFeaturesColumn)
{
foreach (var item in featureRow.Items())
Console.Write($"{slots[item.Key]} ");
Console.WriteLine();
}
// Print the first 10 feature values.
Console.Write("Features: ");
for (int i = 0; i < 10; i++)
Console.Write($"{prediction.NgramFeatures[i]:F4} ");
// Expected output:
// Number of Features: 32
// N-grams: This|is|an example|to|compute compute|n-grams|using n-grams|using|hashing. an|example|to is|an|example a|sequence|of of|'N'|consecutive is|a|sequence N-gram|is|a ...
// Features: 0.0000 0.0000 2.0000 0.0000 0.0000 1.0000 0.0000 0.0000 1.0000 0.0000 ...
}
private class TextData
{
public string Text { get; set; }
}
private class TransformedTextData : TextData
{
public float[] NgramFeatures { get; set; }
}
}
}
설명
NgramHashingEstimator는 내부적으로 텍스트를 토큰화하는 동안 WordHashBagEstimator 토큰화된 텍스트를 입력으로 사용하는 방식 NgramHashingEstimator 과 다릅니다WordHashBagEstimator.