Microsoft Fabric では、Apache Spark に対する組み込み Python サポートが提供されています。 サポートには PySpark も含まれています。ユーザーはこれを使用することで、使い慣れた Spark または Python のインターフェイスで Spark と対話できます。
Spark バッチ ジョブ定義を通じて、または対話型の Fabric ノートブックで Python を使用してデータを分析できます。 この記事では、Python 言語を使用して Synapse で Spark アプリケーションを開発する方法の概要について説明します。
ノートブック セッションを作成して実行する
Microsoft Fabric ノートブックは、ライブ コード、視覚化、および説明テキストを含むファイルを作成するための Web インターフェイスです。 ノートブックは、アイデアを確認し、簡単な実験を使用してデータから分析情報を得るのに最適な場所です。 ノートブックは、データの準備、データの視覚化、機械学習、およびその他のビッグ データのシナリオでも広く使用されています。
Microsoft Fabric ノートブックで Python を使い始めるには、言語オプションを PySpark (Python) に設定して、ノートブックの上部にあるプライマリ言語を変更します。
%%pyspark
# Enter your Python code here
セルの冒頭で言語マジック コマンドを指定すると、1 つのノートブックで複数の言語を使用できます。
Microsoft Fabric Analytics のノートブックの詳細については、ノートブックの使用方法に関する記事を参照してください。
パッケージをインストールする
ライブラリでは、プログラムまたはプロジェクトに含めることができる再利用可能なコードが提供されます。 パートナー コードまたはローカルでビルドされたコードをアプリケーションで使用できるようにするには、ノートブック セッションにライブラリをインラインでインストールします。 または、ワークスペース管理者が、環境を作成し、その中にライブラリをインストールして、ワークスペース設定でワークスペースの既定値として環境をアタッチすることもできます。
Microsoft Fabric でのライブラリ管理の詳細については、Apache Spark ライブラリの管理に関する記事を参照してください。
Notebook のユーティリティ
Microsoft Spark Utilities (MSSparkUtils) は、一般的なタスクをより簡単に実行できるようにする組み込みパッケージです。 MSSparkUtils を使用すると、ファイル システムを操作し、環境変数を取得し、ノートブックをまとめてチェーン化し、シークレットを操作できます。 MSSparkUtils は PySpark ノートブックでサポートされています。
最初に、次のコマンドを実行します。
from notebookutils import mssparkutils
mssparkutils.notebook.help()
サポートされている MSSparkUtils コマンドの詳細については、Microsoft Spark ユーティリティの使用に関する記事を参照してください。
Pandas on Spark を使用する
Pandas API on Spark を使用すると、Pandas ワークロードを複数のノードに分散して実行することで、任意のサイズにスケーリングできます。 Pandas について既によく理解していて、ビッグ データに Spark を使用する場合は、Spark 上の Pandas API を使用すると、すぐに生産性が向上します。
コードを変更せずにアプリケーションを移行できます。 Pandas (テストおよび小規模なデータセットの場合) と Spark (運用および分散データセットの場合) の両方で動作する単一のコードベースを使用できます。 Pandas API と Spark 上の Pandas API をオーバーヘッドなしで簡単に切り替えることができます。
Python ランタイム
Microsoft Fabric ランタイムは、データ サイエンスおよび機械学習用に最適化されている、キュレーションされた環境です。 Microsoft Fabric ランタイムは、Pandas、PyTorch、scikit-learn、XGBoost などのライブラリを含む、よく使われるさまざまな Python オープンソース ライブラリを備えています。
Python の視覚化
Python エコシステムには、多くのさまざまな機能が収められた複数のグラフ作成ライブラリが用意されています。 既定では、Microsoft Fabric のすべての Spark インスタンスには、厳選された人気の高いオープンソース ライブラリのセットが含まれています。 その他のライブラリまたはバージョンを追加または管理することもできます。 ライブラリ管理の詳細については、「ライブラリ管理のベスト プラクティスの概要」を参照してください。
Python 視覚エフェクトを作成する方法の詳細については、Python の視覚化に関する記事を参照してください。
関連するコンテンツ
- Pandas API on Apache Spark を使用する方法を確認する: Pandas API on Apache Spark
- Microsoft Fabric で Apache Spark ライブラリを管理する
- Python でデータを視覚化する: Python でデータを視覚化する