英語で読む

次の方法で共有


CategoricalCatalog.OneHotEncoding メソッド

定義

オーバーロード

OneHotEncoding(TransformsCatalog+CategoricalTransforms, InputOutputColumnPair[], OneHotEncodingEstimator+OutputKind, Int32, ValueToKeyMappingEstimator+KeyOrdinality, IDataView)

OneHotEncodingEstimatorで指定された columns 1 つ以上の入力テキスト列を、1 ホット エンコード ベクターの列に変換する 、作成します。

OneHotEncoding(TransformsCatalog+CategoricalTransforms, String, String, OneHotEncodingEstimator+OutputKind, Int32, ValueToKeyMappingEstimator+KeyOrdinality, IDataView)

OneHotEncodingEstimatorによって指定されたinputColumnName入力列を、という名前outputColumnNameの 1 ホット エンコード ベクターの列に変換する 、 を作成します。

OneHotEncoding(TransformsCatalog+CategoricalTransforms, InputOutputColumnPair[], OneHotEncodingEstimator+OutputKind, Int32, ValueToKeyMappingEstimator+KeyOrdinality, IDataView)

OneHotEncodingEstimatorで指定された columns 1 つ以上の入力テキスト列を、1 ホット エンコード ベクターの列に変換する 、作成します。

C#
public static Microsoft.ML.Transforms.OneHotEncodingEstimator OneHotEncoding (this Microsoft.ML.TransformsCatalog.CategoricalTransforms catalog, Microsoft.ML.InputOutputColumnPair[] columns, Microsoft.ML.Transforms.OneHotEncodingEstimator.OutputKind outputKind = Microsoft.ML.Transforms.OneHotEncodingEstimator+OutputKind.Indicator, int maximumNumberOfKeys = 1000000, Microsoft.ML.Transforms.ValueToKeyMappingEstimator.KeyOrdinality keyOrdinality = Microsoft.ML.Transforms.ValueToKeyMappingEstimator+KeyOrdinality.ByOccurrence, Microsoft.ML.IDataView keyData = default);

パラメーター

catalog
TransformsCatalog.CategoricalTransforms

変換カタログ。

columns
InputOutputColumnPair[]

入力列と出力列のペア。 出力列のデータ型は、if outputKindBagIndicator、、 BinaryのベクトルSingleになります。 あるKey場合outputKind、出力列のデータ型はスカラー入力列の場合はキー、ベクター入力列の場合はキーのベクトルになります。

outputKind
OneHotEncodingEstimator.OutputKind

出力の種類: Bag (マルチセット ベクター)、Ind (インジケーター ベクター)、キー (インデックス)、またはバイナリ でエンコードされたインジケーター ベクター。

maximumNumberOfKeys
Int32

自動トレーニング時に列ごとに保持する用語の最大数。

keyOrdinality
ValueToKeyMappingEstimator.KeyOrdinality

ベクター化されたときに項目を並べ替える方法。 選択した場合 ByOccurrence は、発生した順序になります。 たとえば、項目が既定の比較に従って並べ替えられる場合 ByValue、テキストの並べ替えでは大文字と小文字が区別されます (たとえば、"A"、"Z"、"a")。

keyData
IDataView

エンコードの順序を指定します。 指定した場合、これは 1 つの列データ ビューである必要があり、キー値はその列から取得されます。 指定しない場合は、適合時に入力データから順序が決定されます。

戻り値

C#
using System;
using Microsoft.ML;

namespace Samples.Dynamic.Transforms.Categorical
{
    public static class OneHotEncodingMultiColumn
    {
        public static void Example()
        {
            // Create a new ML context for ML.NET operations. It can be used for
            // exception tracking and logging as well as the source of randomness.
            var mlContext = new MLContext();

            // Create a small dataset as an IEnumerable.
            var samples = new[]
            {
                new DataPoint {Education = "0-5yrs", ZipCode = "98005"},
                new DataPoint {Education = "0-5yrs", ZipCode = "98052"},
                new DataPoint {Education = "6-11yrs", ZipCode = "98005"},
                new DataPoint {Education = "6-11yrs", ZipCode = "98052"},
                new DataPoint {Education = "11-15yrs", ZipCode = "98005"}
            };

            // Convert training data to IDataView.
            IDataView data = mlContext.Data.LoadFromEnumerable(samples);

            // Multi column example: A pipeline for one hot encoding two columns
            // 'Education' and 'ZipCode'.
            var multiColumnKeyPipeline =
                mlContext.Transforms.Categorical.OneHotEncoding(
                    new[]
                    {
                        new InputOutputColumnPair("Education"),
                        new InputOutputColumnPair("ZipCode")
                    });

            // Fit and Transform data.
            IDataView transformedData =
                multiColumnKeyPipeline.Fit(data).Transform(data);

            var convertedData =
                mlContext.Data.CreateEnumerable<TransformedData>(transformedData,
                    true);

            Console.WriteLine(
                "One Hot Encoding of two columns 'Education' and 'ZipCode'.");

            // One Hot Encoding of two columns 'Education' and 'ZipCode'.

            foreach (TransformedData item in convertedData)
                Console.WriteLine("{0}\t\t\t{1}", string.Join(" ", item.Education),
                    string.Join(" ", item.ZipCode));

            // 1 0 0                   1 0
            // 1 0 0                   0 1
            // 0 1 0                   1 0
            // 0 1 0                   0 1
            // 0 0 1                   1 0
        }

        private class DataPoint
        {
            public string Education { get; set; }

            public string ZipCode { get; set; }
        }

        private class TransformedData
        {
            public float[] Education { get; set; }

            public float[] ZipCode { get; set; }
        }
    }
}

注釈

複数の列がエスティメーターに渡された場合、すべての列がデータに対する単一のパスで処理されます。 そのため、1 つのエスティメーターを多数の列で指定する方が、1 つの列を持つ多数のエスティメーターを指定するよりも効率的です。

適用対象

ML.NET 3.0.0 およびその他のバージョン
製品 バージョン
ML.NET 1.0.0, 1.1.0, 1.2.0, 1.3.1, 1.4.0, 1.5.0, 1.6.0, 1.7.0, 2.0.0, 3.0.0

OneHotEncoding(TransformsCatalog+CategoricalTransforms, String, String, OneHotEncodingEstimator+OutputKind, Int32, ValueToKeyMappingEstimator+KeyOrdinality, IDataView)

OneHotEncodingEstimatorによって指定されたinputColumnName入力列を、という名前outputColumnNameの 1 ホット エンコード ベクターの列に変換する 、 を作成します。

C#
public static Microsoft.ML.Transforms.OneHotEncodingEstimator OneHotEncoding (this Microsoft.ML.TransformsCatalog.CategoricalTransforms catalog, string outputColumnName, string inputColumnName = default, Microsoft.ML.Transforms.OneHotEncodingEstimator.OutputKind outputKind = Microsoft.ML.Transforms.OneHotEncodingEstimator+OutputKind.Indicator, int maximumNumberOfKeys = 1000000, Microsoft.ML.Transforms.ValueToKeyMappingEstimator.KeyOrdinality keyOrdinality = Microsoft.ML.Transforms.ValueToKeyMappingEstimator+KeyOrdinality.ByOccurrence, Microsoft.ML.IDataView keyData = default);

パラメーター

catalog
TransformsCatalog.CategoricalTransforms

変換カタログ。

outputColumnName
String

の変換によって生成される列の inputColumnName名前。 この列のデータ型は、if outputKindBagIndicator、、 BinaryのベクトルSingleになります。 あるKey場合outputKind、この列のデータ型は、スカラー入力列の場合はキー、ベクター入力列の場合はキーのベクトルになります。

inputColumnName
String

1 ホット ベクターに変換する列の名前。 に null設定すると、その値が outputColumnName ソースとして使用されます。 この列のデータ型は、数値、テキスト、ブール値、または DateTimeOffsetDateTime

outputKind
OneHotEncodingEstimator.OutputKind

出力の種類: Bag (マルチセット ベクター)、インジケーター (インジケーター ベクター)、キー (インデックス)、またはバイナリ でエンコードされたインジケーター ベクター。

maximumNumberOfKeys
Int32

自動トレーニング時に列ごとに保持する用語の最大数。

keyOrdinality
ValueToKeyMappingEstimator.KeyOrdinality

ベクター化されたときに項目を並べ替える方法。 選択した場合 ByOccurrence は、発生した順序になります。 たとえば、項目が既定の比較に従って並べ替えられる場合 ByValue、テキストの並べ替えでは大文字と小文字が区別されます (たとえば、"A"、"Z"、"a")。

keyData
IDataView

エンコードの順序を指定します。 指定した場合、これは 1 つの列データ ビューである必要があり、キー値はその列から取得されます。 指定しない場合は、適合時に入力データから順序が決定されます。

戻り値

C#
using System;
using Microsoft.ML;
using Microsoft.ML.Data;
using Microsoft.ML.Transforms;

namespace Samples.Dynamic.Transforms.Categorical
{
    public static class OneHotEncoding
    {
        public static void Example()
        {
            // Create a new ML context for ML.NET operations. It can be used for
            // exception tracking and logging as well as the source of randomness.
            var mlContext = new MLContext();

            // Create a small dataset as an IEnumerable.
            var samples = new[]
            {
                new DataPoint {Education = "0-5yrs"},
                new DataPoint {Education = "0-5yrs"},
                new DataPoint {Education = "6-11yrs"},
                new DataPoint {Education = "6-11yrs"},
                new DataPoint {Education = "11-15yrs"}
            };

            // Convert training data to IDataView.
            IDataView data = mlContext.Data.LoadFromEnumerable(samples);

            // A pipeline for one hot encoding the Education column.
            var pipeline = mlContext.Transforms.Categorical.OneHotEncoding(
                "EducationOneHotEncoded", "Education");

            // Fit and transform the data.
            IDataView oneHotEncodedData = pipeline.Fit(data).Transform(data);

            PrintDataColumn(oneHotEncodedData, "EducationOneHotEncoded");

            // We have 3 slots because there are three categories in the
            // 'Education' column.

            // 1 0 0
            // 1 0 0
            // 0 1 0
            // 0 1 0
            // 0 0 1

            // A pipeline for one hot encoding the Education column (using keying).
            var keyPipeline = mlContext.Transforms.Categorical.OneHotEncoding(
                "EducationOneHotEncoded", "Education",
                OneHotEncodingEstimator.OutputKind.Key);

            // Fit and Transform data.
            oneHotEncodedData = keyPipeline.Fit(data).Transform(data);

            var keyEncodedColumn =
                oneHotEncodedData.GetColumn<uint>("EducationOneHotEncoded");

            Console.WriteLine(
                "One Hot Encoding of single column 'Education', with key type " +
                "output.");

            // One Hot Encoding of single column 'Education', with key type output.

            foreach (uint element in keyEncodedColumn)
                Console.WriteLine(element);

            // 1
            // 1
            // 2
            // 2
            // 3
        }

        private static void PrintDataColumn(IDataView transformedData,
            string columnName)
        {
            var countSelectColumn = transformedData.GetColumn<float[]>(
                transformedData.Schema[columnName]);

            foreach (var row in countSelectColumn)
            {
                for (var i = 0; i < row.Length; i++)
                    Console.Write($"{row[i]}\t");

                Console.WriteLine();
            }
        }

        private class DataPoint
        {
            public string Education { get; set; }
        }
    }
}

適用対象

ML.NET 3.0.0 およびその他のバージョン
製品 バージョン
ML.NET 1.0.0, 1.1.0, 1.2.0, 1.3.1, 1.4.0, 1.5.0, 1.6.0, 1.7.0, 2.0.0, 3.0.0