Share via


TextCatalog.ProduceHashedNgrams 메서드

정의

오버로드

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

NgramHashingEstimator에 지정된 열의 데이터를 새 열 outputColumnNameinputColumnName 복사하고 해시된 n-gram 개수의 벡터를 생성하는 를 만듭니다.

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

NgramHashingEstimator에 지정된 inputColumnNames 여러 열에서 새 outputColumnName 열로 데이터를 가져와 해시된 n-gram 개수의 벡터를 생성하는 를 만듭니다.

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

NgramHashingEstimator에 지정된 열의 데이터를 새 열 outputColumnNameinputColumnName 복사하고 해시된 n-gram 개수의 벡터를 생성하는 를 만듭니다.

public static Microsoft.ML.Transforms.Text.NgramHashingEstimator ProduceHashedNgrams (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0, bool rehashUnigrams = false);
static member ProduceHashedNgrams : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int * bool -> Microsoft.ML.Transforms.Text.NgramHashingEstimator
<Extension()>
Public Function ProduceHashedNgrams (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0, Optional rehashUnigrams As Boolean = false) As NgramHashingEstimator

매개 변수

catalog
TransformsCatalog.TextTransforms

변환의 카탈로그입니다.

outputColumnName
String

의 변환에서 생성된 열의 inputColumnName이름입니다. 이 열의 데이터 형식은 벡터입니다 Single.

inputColumnName
String

데이터를 복사할 열의 이름입니다. 이 추정기는 키 형식의 벡터에서 작동합니다.

numberOfBits
Int32

해시할 비트 수입니다. 1에서 30(포함) 사이여야 합니다.

ngramLength
Int32

Ngram 길이입니다.

skipLength
Int32

n-gram을 생성할 때 건너뛸 최대 토큰 수입니다.

useAllLengths
Boolean

모든 n-gram 길이를 포함할지 아니면 1개까지 ngramLengthngramLength포함할지 여부입니다.

seed
UInt32

해시 시드입니다.

useOrderedHashing
Boolean

각 원본 열의 위치를 해시에 포함할지 여부입니다(원본 열이 여러 개 있는 경우).

maximumNumberOfInverts
Int32

해시하는 동안 원래 값과 생성된 해시 값 간에 매핑을 생성합니다. 원래 값의 텍스트 표현은 새 열에 대한 주석의 슬롯 이름에 저장됩니다. 따라서 해시는 많은 초기 값을 하나에 매핑할 수 있습니다. maximumNumberOfInverts 는 유지해야 하는 해시에 매핑되는 고유 입력 값 수의 상한을 지정합니다. 0 은 입력 값을 유지하지 않습니다. -1 은 각 해시에 대한 모든 입력 값 매핑을 유지합니다.

rehashUnigrams
Boolean

유니그램을 다시 해시할지 여부입니다.

반환

설명

NgramHashingEstimator는 내부적으로 텍스트를 토큰화하는 동안 WordHashBagEstimator 토큰화된 텍스트를 입력으로 사용하는 방식 NgramHashingEstimator 과 다릅니다WordHashBagEstimator.

적용 대상

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

NgramHashingEstimator에 지정된 inputColumnNames 여러 열에서 새 outputColumnName 열로 데이터를 가져와 해시된 n-gram 개수의 벡터를 생성하는 를 만듭니다.

public static Microsoft.ML.Transforms.Text.NgramHashingEstimator ProduceHashedNgrams (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames = default, int numberOfBits = 16, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0, bool rehashUnigrams = false);
static member ProduceHashedNgrams : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int * bool -> Microsoft.ML.Transforms.Text.NgramHashingEstimator
<Extension()>
Public Function ProduceHashedNgrams (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnNames As String() = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0, Optional rehashUnigrams As Boolean = false) As NgramHashingEstimator

매개 변수

catalog
TransformsCatalog.TextTransforms

변환의 카탈로그입니다.

outputColumnName
String

의 변환에서 생성된 열의 inputColumnNames이름입니다. 이 열의 데이터 형식은 알려진 크기의 Single벡터입니다.

inputColumnNames
String[]

데이터를 가져와야 하는 여러 열의 이름입니다. 이 추정기는 키 형식의 벡터에서 작동합니다.

numberOfBits
Int32

해시할 비트 수입니다. 1에서 30(포함) 사이여야 합니다.

ngramLength
Int32

Ngram 길이입니다.

skipLength
Int32

n-gram을 생성할 때 건너뛸 최대 토큰 수입니다.

useAllLengths
Boolean

모든 n-gram 길이를 포함할지 아니면 1개까지 ngramLengthngramLength포함할지 여부입니다.

seed
UInt32

해시 시드입니다.

useOrderedHashing
Boolean

각 원본 열의 위치를 해시에 포함할지 여부입니다(원본 열이 여러 개 있는 경우).

maximumNumberOfInverts
Int32

해시하는 동안 원래 값과 생성된 해시 값 간에 매핑을 생성합니다. 원래 값의 텍스트 표현은 새 열에 대한 주석의 슬롯 이름에 저장됩니다. 따라서 해시는 많은 초기 값을 하나에 매핑할 수 있습니다. maximumNumberOfInverts 는 유지해야 하는 해시에 매핑되는 고유 입력 값 수의 상한을 지정합니다. 0 은 입력 값을 유지하지 않습니다. -1 은 각 해시에 대한 모든 입력 값 매핑을 유지합니다.

rehashUnigrams
Boolean

유니그램을 다시 해시할지 여부입니다.

반환

예제

using System;
using System.Collections.Generic;
using Microsoft.ML;
using Microsoft.ML.Data;

namespace Samples.Dynamic
{
    public static class ProduceHashedNgrams
    {
        public static void Example()
        {
            // Create a new ML context, for ML.NET operations. It can be used for
            // exception tracking and logging, as well as the source of randomness.
            var mlContext = new MLContext();

            // Create a small dataset as an IEnumerable.
            var samples = new List<TextData>()
            {
                new TextData(){ Text = "This is an example to compute n-grams " +
                "using hashing." },

                new TextData(){ Text = "N-gram is a sequence of 'N' consecutive" +
                " words/tokens." },

                new TextData(){ Text = "ML.NET's ProduceHashedNgrams API " +
                "produces count of n-grams and hashes it as an index into a " +
                "vector of given bit length." },

                new TextData(){ Text = "The hashing reduces the size of the " +
                "output feature vector" },

                new TextData(){ Text = "which is useful in case when number of " +
                "n-grams is very large." },
            };

            // Convert training data to IDataView.
            var dataview = mlContext.Data.LoadFromEnumerable(samples);

            // A pipeline for converting text into numeric hashed n-gram features.
            // The following call to 'ProduceHashedNgrams' requires the tokenized
            // text /string as input. This is achieved by calling 
            // 'TokenizeIntoWords' first followed by 'ProduceHashedNgrams'.
            // Please note that the length of the output feature vector depends on
            // the 'numberOfBits' settings.
            var textPipeline = mlContext.Transforms.Text.TokenizeIntoWords("Tokens",
                "Text")
                .Append(mlContext.Transforms.Conversion.MapValueToKey("Tokens"))
                .Append(mlContext.Transforms.Text.ProduceHashedNgrams(
                    "NgramFeatures", "Tokens",
                    numberOfBits: 5,
                    ngramLength: 3,
                    useAllLengths: false,
                    maximumNumberOfInverts: 1));

            // Fit to data.
            var textTransformer = textPipeline.Fit(dataview);
            var transformedDataView = textTransformer.Transform(dataview);

            // Create the prediction engine to get the features extracted from the
            // text.
            var predictionEngine = mlContext.Model.CreatePredictionEngine<TextData,
                TransformedTextData>(textTransformer);

            // Convert the text into numeric features.
            var prediction = predictionEngine.Predict(samples[0]);

            // Print the length of the feature vector.
            Console.WriteLine("Number of Features: " + prediction.NgramFeatures
                .Length);

            // Preview of the produced n-grams.
            // Get the slot names from the column's metadata.
            // The slot names for a vector column corresponds to the names
            // associated with each position in the vector.
            VBuffer<ReadOnlyMemory<char>> slotNames = default;
            transformedDataView.Schema["NgramFeatures"].GetSlotNames(ref slotNames);
            var NgramFeaturesColumn = transformedDataView.GetColumn<VBuffer<float>>(
                transformedDataView.Schema["NgramFeatures"]);

            var slots = slotNames.GetValues();
            Console.Write("N-grams: ");
            foreach (var featureRow in NgramFeaturesColumn)
            {
                foreach (var item in featureRow.Items())
                    Console.Write($"{slots[item.Key]}  ");
                Console.WriteLine();
            }

            // Print the first 10 feature values.
            Console.Write("Features: ");
            for (int i = 0; i < 10; i++)
                Console.Write($"{prediction.NgramFeatures[i]:F4}  ");

            //  Expected output:
            //   Number of Features:  32
            //   N-grams:   This|is|an  example|to|compute  compute|n-grams|using  n-grams|using|hashing.  an|example|to  is|an|example  a|sequence|of  of|'N'|consecutive  is|a|sequence  N-gram|is|a  ...
            //   Features:    0.0000          0.0000               2.0000               0.0000               0.0000        1.0000          0.0000        0.0000              1.0000          0.0000  ...
        }

        private class TextData
        {
            public string Text { get; set; }
        }

        private class TransformedTextData : TextData
        {
            public float[] NgramFeatures { get; set; }
        }
    }
}

설명

NgramHashingEstimator는 내부적으로 텍스트를 토큰화하는 동안 WordHashBagEstimator 토큰화된 텍스트를 입력으로 사용하는 방식 NgramHashingEstimator 과 다릅니다WordHashBagEstimator.

적용 대상