次の方法で共有


機械学習モデルをトレーニングする

Microsoft Fabric の Apache Spark では、ビッグ データを使用した機械学習が可能であるため、大量の構造化データ、非構造化データ、および高速移動データから貴重な分析情報を得る機能が提供されます。 Microsoft Fabric の Azure Spark を使用して機械学習モデルをトレーニングする場合、Apache Spark MLlib、SynapseML、およびその他のさまざまなオープンソース ライブラリなど、いくつかのオプションがあります。

Apache SparkML と MLlib

Microsoft Fabric の Apache Spark は、ビッグ データ分析を向上させるためのメモリ内処理をサポートする、統合されたオープンソースの並列データ処理フレームワークを提供します。 Spark 処理エンジンは、高速かつ簡単に高度な分析を行うことができるように作成されています。 Spark のメモリ内の分散計算機能により、Machine Learning とグラフ計算に使用される反復的なアルゴリズムに対して、Spark は適切な選択肢となります。

この分散環境にアルゴリズム モデリング機能を提供するスケーラブルな機械学習ライブラリとして、MLlib と SparkML の 2 つがあります。 MLlib には、RDD 上に構築されたオリジナルの API が含まれています。 SparkML は、ML パイプラインを構成するために DataFrames 上に構築されたより高レベルの API を提供する新しいパッケージです。 SparkML はまだ MLlib のすべての機能をサポートしていませんが、Spark の標準の機械学習ライブラリとして MLlib を置き換えつつあります。

Note

SparkML モデルの作成の詳細については、「Apache Spark MLlib を使用してモデルをトレーニングする」を参照してください。

Apache Spark 用 Microsoft Fabric ランタイムには、機械学習モデルをトレーニングするための一般的なオープンソース パッケージがいくつか含まれています。 これらのライブラリでは、プログラムまたはプロジェクトに含めることができる再利用可能なコードが提供されます。 既定で含まれている関連する機械学習ライブラリには、次のようなものがあります。

  • Scikit-learn は、従来の ML アルゴリズム用のとても人気のある単一ノード機械学習ライブラリの 1 つです。 Scikit-learn は、教師ありおよび教師なしの学習アルゴリズムのほとんどをサポートしており、データ マイニングとデータ分析にも使用できます。

  • XGBoost は、デシジョン ツリーとランダム フォレストのトレーニング向けに最適化されたアルゴリズムを含む、人気の高い機械学習ライブラリです。

  • PyTorchTensorflow は、強力な Python ディープ ラーニング ライブラリです。 これらのライブラリを使用して、プール上の Executor の数をゼロに設定することで、単一マシンのモデルを構築できます。 この構成では Apache Spark は機能しませんが、単一マシンのモデルを作成するためのシンプルでコスト効率の高い方法です。

SynapseML

SynapseML (旧称 MMLSpark) は、高度にスケーラブルな機械学習 (ML) パイプラインの作成を簡略化するオープンソース ライブラリです。 このライブラリは、Spark 上でのデータ科学者の生産性を高め、実験の速度を向上させ、さらに大規模なデータセットに対してディープ ラーニングを含む最先端の機械学習手法を活用するように設計されています。

文字列のインデックス作成、機械学習アルゴリズムによって予測されるレイアウトへのデータの強制的な移行、特徴ベクトルのアセンブルなどのスケーラブルな ML モデルを構築する場合、SynapseML は SparkML の低レベルの API の上に 1 つのレイヤーを提供します。 SynapseML ライブラリはこれらのタスクや、PySpark でモデルを構築するためのその他の一般的なタスクを簡略化します。

この記事では、Microsoft Fabric の Apache Spark 内で機械学習モデルをトレーニングするためのさまざまなオプションの概要について説明しています。 モデルのトレーニングについて理解を深めるには、下のチュートリアルに従ってください。