機械学習モデルをトレーニングする

Azure Synapse Analytics の Apache Spark ではビッグデータを使用した機械学習が可能であるため、大量の構造化、非構造化、および高速移動データから貴重な分析情報を得る機能が提供されます。 Azure Synapse Analytics の Azure Spark を使用して機械学習モデルをトレーニングする場合、いくつかのオプションがあります。Apache Spark MLlib、Azure Machine Learning、およびその他のさまざまなオープンソースライブラリです。

Apache SparkML と MLlib

Azure Synapse Analytics の Apache Spark は、Apache Spark を Microsoft がクラウドに実装したものです。これは、ビッグデータ分析を向上させるためのメモリ内処理をサポートする、統合されたオープンソースの並列データ処理フレームワークを提供します。 Spark 処理エンジンは、高速かつ簡単に高度な分析を行うことができるように作成されています。 Spark のメモリ内の分散計算機能により、Machine Learning とグラフ計算に使用される反復的なアルゴリズムに対して、Spark は適切な選択肢となります。

この分散環境にアルゴリズムモデリング機能を提供するスケーラブルな機械学習ライブラリとして、MLlib と SparkML の 2 つがあります。 MLlib には、RDD 上に構築されたオリジナルの API が含まれています。 SparkML は、ML パイプラインを構成するために DataFrames 上に構築されたより高レベルの API を提供する新しいパッケージです。 SparkML はまだ MLlib のすべての機能をサポートしていませんが、Spark の標準の機械学習ライブラリとして MLlib を置き換えつつあります。

注意

SparkML モデルの作成について理解を深めるには、こちらのチュートリアルに従ってください。

MMLSpark

Apache Spark 用の Microsoft Machine Learning ライブラリは MMLSpark です。このライブラリは、Spark 上でのデータ科学者の生産性を高め、実験の速度を向上させ、さらに大規模なデータセットに対してディープラーニングを含む最先端の機械学習手法を活用するように設計されています。

文字列のインデックス作成、機械学習アルゴリズムによって予測されるレイアウトへのデータの強制的な移行、特徴ベクトルのアセンブルなどのスケーラブルな ML モデルを構築する場合、MMLSpark は SparkML の低レベルの API の上に 1 つのレイヤーを提供します。 MMLSpark ライブラリはこれらのタスクや、PySpark でモデルを構築するためのその他の一般的なタスクを簡略化します。

鋳造ツール

Foundry Tools には、感情に関するテキストの分析や、オブジェクトや顔を認識するための画像の分析など、一般的な問題を解決するための機械学習機能が用意されています。これらのサービスを使用するために、機械学習やデータサイエンスに関する特別な知識は必要ありません。 Cognitive Services は、機械学習ソリューションのコンポーネントであるデータ、アルゴリズム、トレーニング済みモデルの一部または全部を提供します。これらのサービスは、データに関する一般的な知識が前提になりますが、機械学習やデータサイエンスの経験は不要です。これらの事前トレーニング済みの Foundry Tools は、Azure Synapse Analytics 内で自動的に利用できます。

次のステップ

この記事では、Azure Synapse Analytics の Apache Spark プール内で機械学習モデルをトレーニングするためのさまざまなオプションの概要について説明しています。モデルのトレーニングについて理解を深めるには、下のチュートリアルに従ってください。

Azure Machine Learning と Azure Synapse Analytics を使用して、自動 ML の実験を実行します:自動 ML のチュートリアル
SparkML 実験を実行します:Apache SparkML のチュートリアル
既定のライブラリを確認します: Azure Synapse Analytics ランタイム

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-01-02