機械学習モデルをトレーニングする

Apache Spark (Microsoft Fabric の一部) により、大規模な機械学習が可能になります。これを使用して、大量の構造化データ、非構造化データ、ストリーミングデータから分析情報を得ることができます。 Apache Spark MLlib、SynapseML などのオープンソースライブラリを使用して、Microsoft Fabric のモデルをトレーニングします。

Apache SparkML と MLlib

Apache Spark (Microsoft Fabric の一部) は、統合されたオープンソースの並列データ処理フレームワークです。インメモリ処理を使用してビッグデータ分析を高速化します。 Spark は、速度、使いやすさ、高度な分析のために構築されています。 Spark のメモリ内の分散計算は、反復的な機械学習とグラフアルゴリズムに適しています。

この分散環境にアルゴリズムモデリング機能を提供するスケーラブルな機械学習ライブラリには、MLlib と SparkML の 2 つがあります。 MLlib は、元の RDD ベースの API を提供します。 SparkML は、ML パイプラインを構築するための上位レベルの DataFrame ベースの API を提供する新しいパッケージです。 SparkML は、ML パイプラインを構成するために DataFrames 上に構築されたより高レベルの API を提供します。 SparkML はまだすべての MLlib 機能をサポートしているわけではありませんが、MLlib を標準の Spark 機械学習ライブラリに置き換えています。

Note

詳細については、「 Apache Spark MLlib を使用してモデルをトレーニングする」を参照してください。

SynapseML

SynapseML オープンソースライブラリ (旧称 MMLSpark) は、スケーラブルな機械学習 (ML) パイプラインの構築に役立ちます。実験を高速化し、ディープラーニングを含む高度な手法を大規模なデータセットに適用できます。

SynapseML は、スケーラブルな ML モデルを構築するときに、SparkML の低レベル API の上にレイヤーを提供します。これらの API には、文字列のインデックス作成、特徴ベクトルのアセンブリ、機械学習アルゴリズムに適したレイアウトへのデータの強制変換などが含まれています。 SynapseML ライブラリはこれらのタスクや、PySpark でモデルを構築するためのその他の一般的なタスクを簡略化します。

Microsoft Fabric の Apache Spark で機械学習モデルをトレーニングするためのオプションについて説明します。詳細については、以下を参照してください。

AI サンプルを使用して機械学習モデルを構築する: AI サンプルを使用する
実験を使用して機械学習の実行を追跡する: 機械学習の実験

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-09-29

機械学習モデルをトレーニングする

Apache SparkML と MLlib

人気の高いライブラリ

SynapseML

関連するコンテンツ

フィードバック

その他のリソース