Share via


MLlib を使用した特徴エンジニアリング

Apache Spark MLlib には、機能をエンコードおよび変換するためのメソッドなど、大規模な特徴エンジニアリングを実行するためのユーティリティ関数が多数含まれています。 これらのメソッドを使用して、他の機械学習ライブラリの機能を処理することもできます。

Azure Databricks では、次の Apache Spark MLLib ガイドをお勧めします。

この PySpark ベースのノートブックには、カテゴリ インデックス作成とワンホット エンコードを使用して、カテゴリ データを数値変数に変換する前処理手順が含まれています。

二項分類の例

ノートブックを入手