CategoricalCatalog.OneHotEncoding メソッド
重要
一部の情報は、リリース前に大きく変更される可能性があるプレリリースされた製品に関するものです。 Microsoft は、ここに記載されている情報について、明示または黙示を問わず、一切保証しません。
OneHotEncoding(TransformsCatalog+CategoricalTransforms, InputOutputColumnPair[], OneHotEncodingEstimator+OutputKind, Int32, ValueToKeyMappingEstimator+KeyOrdinality, IDataView) |
OneHotEncodingEstimatorで指定された |
OneHotEncoding(TransformsCatalog+CategoricalTransforms, String, String, OneHotEncodingEstimator+OutputKind, Int32, ValueToKeyMappingEstimator+KeyOrdinality, IDataView) |
OneHotEncodingEstimatorによって指定された |
OneHotEncoding(TransformsCatalog+CategoricalTransforms, InputOutputColumnPair[], OneHotEncodingEstimator+OutputKind, Int32, ValueToKeyMappingEstimator+KeyOrdinality, IDataView)
OneHotEncodingEstimatorで指定された columns
1 つ以上の入力テキスト列を、1 ホット エンコード ベクターの列に変換する 、作成します。
public static Microsoft.ML.Transforms.OneHotEncodingEstimator OneHotEncoding (this Microsoft.ML.TransformsCatalog.CategoricalTransforms catalog, Microsoft.ML.InputOutputColumnPair[] columns, Microsoft.ML.Transforms.OneHotEncodingEstimator.OutputKind outputKind = Microsoft.ML.Transforms.OneHotEncodingEstimator+OutputKind.Indicator, int maximumNumberOfKeys = 1000000, Microsoft.ML.Transforms.ValueToKeyMappingEstimator.KeyOrdinality keyOrdinality = Microsoft.ML.Transforms.ValueToKeyMappingEstimator+KeyOrdinality.ByOccurrence, Microsoft.ML.IDataView keyData = default);
static member OneHotEncoding : Microsoft.ML.TransformsCatalog.CategoricalTransforms * Microsoft.ML.InputOutputColumnPair[] * Microsoft.ML.Transforms.OneHotEncodingEstimator.OutputKind * int * Microsoft.ML.Transforms.ValueToKeyMappingEstimator.KeyOrdinality * Microsoft.ML.IDataView -> Microsoft.ML.Transforms.OneHotEncodingEstimator
<Extension()>
Public Function OneHotEncoding (catalog As TransformsCatalog.CategoricalTransforms, columns As InputOutputColumnPair(), Optional outputKind As OneHotEncodingEstimator.OutputKind = Microsoft.ML.Transforms.OneHotEncodingEstimator+OutputKind.Indicator, Optional maximumNumberOfKeys As Integer = 1000000, Optional keyOrdinality As ValueToKeyMappingEstimator.KeyOrdinality = Microsoft.ML.Transforms.ValueToKeyMappingEstimator+KeyOrdinality.ByOccurrence, Optional keyData As IDataView = Nothing) As OneHotEncodingEstimator
パラメーター
変換カタログ。
- columns
- InputOutputColumnPair[]
入力列と出力列のペア。 出力列のデータ型は、if outputKind
が Bag、Indicator、、 BinaryのベクトルSingleになります。
あるKey場合outputKind
、出力列のデータ型はスカラー入力列の場合はキー、ベクター入力列の場合はキーのベクトルになります。
- outputKind
- OneHotEncodingEstimator.OutputKind
出力の種類: Bag (マルチセット ベクター)、Ind (インジケーター ベクター)、キー (インデックス)、またはバイナリ でエンコードされたインジケーター ベクター。
- maximumNumberOfKeys
- Int32
自動トレーニング時に列ごとに保持する用語の最大数。
- keyOrdinality
- ValueToKeyMappingEstimator.KeyOrdinality
ベクター化されたときに項目を並べ替える方法。 選択した場合 ByOccurrence は、発生した順序になります。 たとえば、項目が既定の比較に従って並べ替えられる場合 ByValue、テキストの並べ替えでは大文字と小文字が区別されます (たとえば、"A"、"Z"、"a")。
- keyData
- IDataView
エンコードの順序を指定します。 指定した場合、これは 1 つの列データ ビューである必要があり、キー値はその列から取得されます。 指定しない場合は、適合時に入力データから順序が決定されます。
戻り値
例
using System;
using Microsoft.ML;
namespace Samples.Dynamic.Transforms.Categorical
{
public static class OneHotEncodingMultiColumn
{
public static void Example()
{
// Create a new ML context for ML.NET operations. It can be used for
// exception tracking and logging as well as the source of randomness.
var mlContext = new MLContext();
// Create a small dataset as an IEnumerable.
var samples = new[]
{
new DataPoint {Education = "0-5yrs", ZipCode = "98005"},
new DataPoint {Education = "0-5yrs", ZipCode = "98052"},
new DataPoint {Education = "6-11yrs", ZipCode = "98005"},
new DataPoint {Education = "6-11yrs", ZipCode = "98052"},
new DataPoint {Education = "11-15yrs", ZipCode = "98005"}
};
// Convert training data to IDataView.
IDataView data = mlContext.Data.LoadFromEnumerable(samples);
// Multi column example: A pipeline for one hot encoding two columns
// 'Education' and 'ZipCode'.
var multiColumnKeyPipeline =
mlContext.Transforms.Categorical.OneHotEncoding(
new[]
{
new InputOutputColumnPair("Education"),
new InputOutputColumnPair("ZipCode")
});
// Fit and Transform data.
IDataView transformedData =
multiColumnKeyPipeline.Fit(data).Transform(data);
var convertedData =
mlContext.Data.CreateEnumerable<TransformedData>(transformedData,
true);
Console.WriteLine(
"One Hot Encoding of two columns 'Education' and 'ZipCode'.");
// One Hot Encoding of two columns 'Education' and 'ZipCode'.
foreach (TransformedData item in convertedData)
Console.WriteLine("{0}\t\t\t{1}", string.Join(" ", item.Education),
string.Join(" ", item.ZipCode));
// 1 0 0 1 0
// 1 0 0 0 1
// 0 1 0 1 0
// 0 1 0 0 1
// 0 0 1 1 0
}
private class DataPoint
{
public string Education { get; set; }
public string ZipCode { get; set; }
}
private class TransformedData
{
public float[] Education { get; set; }
public float[] ZipCode { get; set; }
}
}
}
注釈
複数の列がエスティメーターに渡された場合、すべての列がデータに対する単一のパスで処理されます。 そのため、1 つのエスティメーターを多数の列で指定する方が、1 つの列を持つ多数のエスティメーターを指定するよりも効率的です。
適用対象
ML.NET 3.0.0 およびその他のバージョン
製品 | バージョン |
---|---|
ML.NET | 1.0.0, 1.1.0, 1.2.0, 1.3.1, 1.4.0, 1.5.0, 1.6.0, 1.7.0, 2.0.0, 3.0.0 |
OneHotEncoding(TransformsCatalog+CategoricalTransforms, String, String, OneHotEncodingEstimator+OutputKind, Int32, ValueToKeyMappingEstimator+KeyOrdinality, IDataView)
OneHotEncodingEstimatorによって指定されたinputColumnName
入力列を、という名前outputColumnName
の 1 ホット エンコード ベクターの列に変換する 、 を作成します。
public static Microsoft.ML.Transforms.OneHotEncodingEstimator OneHotEncoding (this Microsoft.ML.TransformsCatalog.CategoricalTransforms catalog, string outputColumnName, string inputColumnName = default, Microsoft.ML.Transforms.OneHotEncodingEstimator.OutputKind outputKind = Microsoft.ML.Transforms.OneHotEncodingEstimator+OutputKind.Indicator, int maximumNumberOfKeys = 1000000, Microsoft.ML.Transforms.ValueToKeyMappingEstimator.KeyOrdinality keyOrdinality = Microsoft.ML.Transforms.ValueToKeyMappingEstimator+KeyOrdinality.ByOccurrence, Microsoft.ML.IDataView keyData = default);
static member OneHotEncoding : Microsoft.ML.TransformsCatalog.CategoricalTransforms * string * string * Microsoft.ML.Transforms.OneHotEncodingEstimator.OutputKind * int * Microsoft.ML.Transforms.ValueToKeyMappingEstimator.KeyOrdinality * Microsoft.ML.IDataView -> Microsoft.ML.Transforms.OneHotEncodingEstimator
<Extension()>
Public Function OneHotEncoding (catalog As TransformsCatalog.CategoricalTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional outputKind As OneHotEncodingEstimator.OutputKind = Microsoft.ML.Transforms.OneHotEncodingEstimator+OutputKind.Indicator, Optional maximumNumberOfKeys As Integer = 1000000, Optional keyOrdinality As ValueToKeyMappingEstimator.KeyOrdinality = Microsoft.ML.Transforms.ValueToKeyMappingEstimator+KeyOrdinality.ByOccurrence, Optional keyData As IDataView = Nothing) As OneHotEncodingEstimator
パラメーター
変換カタログ。
- outputColumnName
- String
の変換によって生成される列の inputColumnName
名前。
この列のデータ型は、if outputKind
が Bag、Indicator、、 BinaryのベクトルSingleになります。
あるKey場合outputKind
、この列のデータ型は、スカラー入力列の場合はキー、ベクター入力列の場合はキーのベクトルになります。
- inputColumnName
- String
1 ホット ベクターに変換する列の名前。 に null
設定すると、その値が outputColumnName
ソースとして使用されます。 この列のデータ型は、数値、テキスト、ブール値、または DateTimeOffset、 DateTime
- outputKind
- OneHotEncodingEstimator.OutputKind
出力の種類: Bag (マルチセット ベクター)、インジケーター (インジケーター ベクター)、キー (インデックス)、またはバイナリ でエンコードされたインジケーター ベクター。
- maximumNumberOfKeys
- Int32
自動トレーニング時に列ごとに保持する用語の最大数。
- keyOrdinality
- ValueToKeyMappingEstimator.KeyOrdinality
ベクター化されたときに項目を並べ替える方法。 選択した場合 ByOccurrence は、発生した順序になります。 たとえば、項目が既定の比較に従って並べ替えられる場合 ByValue、テキストの並べ替えでは大文字と小文字が区別されます (たとえば、"A"、"Z"、"a")。
- keyData
- IDataView
エンコードの順序を指定します。 指定した場合、これは 1 つの列データ ビューである必要があり、キー値はその列から取得されます。 指定しない場合は、適合時に入力データから順序が決定されます。
戻り値
例
using System;
using Microsoft.ML;
using Microsoft.ML.Data;
using Microsoft.ML.Transforms;
namespace Samples.Dynamic.Transforms.Categorical
{
public static class OneHotEncoding
{
public static void Example()
{
// Create a new ML context for ML.NET operations. It can be used for
// exception tracking and logging as well as the source of randomness.
var mlContext = new MLContext();
// Create a small dataset as an IEnumerable.
var samples = new[]
{
new DataPoint {Education = "0-5yrs"},
new DataPoint {Education = "0-5yrs"},
new DataPoint {Education = "6-11yrs"},
new DataPoint {Education = "6-11yrs"},
new DataPoint {Education = "11-15yrs"}
};
// Convert training data to IDataView.
IDataView data = mlContext.Data.LoadFromEnumerable(samples);
// A pipeline for one hot encoding the Education column.
var pipeline = mlContext.Transforms.Categorical.OneHotEncoding(
"EducationOneHotEncoded", "Education");
// Fit and transform the data.
IDataView oneHotEncodedData = pipeline.Fit(data).Transform(data);
PrintDataColumn(oneHotEncodedData, "EducationOneHotEncoded");
// We have 3 slots because there are three categories in the
// 'Education' column.
// 1 0 0
// 1 0 0
// 0 1 0
// 0 1 0
// 0 0 1
// A pipeline for one hot encoding the Education column (using keying).
var keyPipeline = mlContext.Transforms.Categorical.OneHotEncoding(
"EducationOneHotEncoded", "Education",
OneHotEncodingEstimator.OutputKind.Key);
// Fit and Transform data.
oneHotEncodedData = keyPipeline.Fit(data).Transform(data);
var keyEncodedColumn =
oneHotEncodedData.GetColumn<uint>("EducationOneHotEncoded");
Console.WriteLine(
"One Hot Encoding of single column 'Education', with key type " +
"output.");
// One Hot Encoding of single column 'Education', with key type output.
foreach (uint element in keyEncodedColumn)
Console.WriteLine(element);
// 1
// 1
// 2
// 2
// 3
}
private static void PrintDataColumn(IDataView transformedData,
string columnName)
{
var countSelectColumn = transformedData.GetColumn<float[]>(
transformedData.Schema[columnName]);
foreach (var row in countSelectColumn)
{
for (var i = 0; i < row.Length; i++)
Console.Write($"{row[i]}\t");
Console.WriteLine();
}
}
private class DataPoint
{
public string Education { get; set; }
}
}
}
適用対象
ML.NET 3.0.0 およびその他のバージョン
製品 | バージョン |
---|---|
ML.NET | 1.0.0, 1.1.0, 1.2.0, 1.3.1, 1.4.0, 1.5.0, 1.6.0, 1.7.0, 2.0.0, 3.0.0 |