Microsoft Fabric で Apache Spark ライブラリを管理する

ライブラリは、事前に記述されたコードのコレクションであり、開発者はそれらをインポートして追加の機能を提供することができます。ライブラリを使用すると、一般的なタスクを実行するために新規にコードを記述する必要がないので、時間と労力を節約できます。代わりに、ライブラリをインポートし、その関数とクラスを使用して目的の機能を実現できます。 Microsoft Fabric では、ライブラリの管理と使用に役立つ複数のメカニズムが提供されています。

組み込みのライブラリ: 各 Fabric Spark ランタイムには、人気のあるプレインストール済みライブラリの豊富なセットが用意されています。すべての組み込みライブラリの一覧は、Fabric Spark ランタイムに関する記事に記載されています。
パブリックライブラリ: パブリックライブラリは、現在サポートされている PyPI や Conda などのリポジトリから提供されます。
カスタムライブラリ: カスタムライブラリとは、自身または自身の組織がビルドしたコードのことです。 Fabric では、それらは .whl、.jar、および .tar.gz 形式でサポートされています。 R 言語については、Fabric では .tar.gz のみがサポートされています。 Python カスタムライブラリの場合は、.whl 形式を使用します。

ライブラリ管理のベストプラクティスの概要

以下のシナリオでは、Microsoft Fabric でライブラリを使うときのベストプラクティスについて説明します。

シナリオ 1: 管理者がワークスペースの既定のライブラリを設定する

既定のライブラリを設定するには、ワークスペースの管理者である必要があります。管理者として、次のタスクを実行できます。

ワークスペースの設定にアタッチされたノートブックと Spark ジョブ定義は、ワークスペースの既定の環境にインストールされたライブラリを使ってセッションを開始します。

シナリオ 2: 1 つまたは複数のコード項目のライブラリ仕様を保持する

異なるコード項目に共通のライブラリがあり、頻繁に更新する必要がない場合は、環境にライブラリをインストールし、それをコード項目にアタッチするのがよい方法です。

発行時に環境のライブラリが有効になるまでにしばらく時間がかかります。通常は、ライブラリの複雑さに応じて 5 から 15 分かかります。このプロセスの間に、システムは可能性のある競合の解決を助け、必要な依存関係をダウンロードします。

この方法の利点の 1 つは、環境がアタッチされた状態で Spark セッションが開始されたときに、正常にインストールされたライブラリが確実に使用可能になることです。プロジェクトの共通ライブラリを維持する手間を省きます。

安定性があるので、パイプラインシナリオにはそれを強くお勧めします。

シナリオ 3: 対話型実行でのインラインインストール

ノートブックを使って対話形式でコードを記述する場合、PyPI や Conda の新しいライブラリをさらに追加したり、1 回だけ使うカスタムライブラリを検証したりするには、インラインインストールを使うのがベストプラクティスです。 Fabric のインラインコマンドを使用すると、現在のノートブック Spark セッションでライブラリを有効にできます。このようにすると、インストールは速くなりますが、インストールされるライブラリは異なるセッション間で保持されません。

%pip install は場合によって異なる依存関係ツリーを生成し、ライブラリの競合につながる可能性があるため、インラインコマンドはパイプラインの実行では既定でオフになっており、パイプラインでの使用はお勧めしません。

サポートされるライブラリの種類の概要

ライブラリの種類	環境ライブラリ管理	インラインインストール
Python パブリック (PyPI および Conda)	サポートされています	サポートされています
Python カスタム (.whl)	サポートされています	サポートされています
R パブリック (CRAN)	サポートされていません	サポートされています
R カスタム (.tar.gz)	カスタムライブラリとしてサポート	サポートされています
JARファイル	カスタムライブラリとしてサポート	サポートされています

インラインインストール

インラインコマンドは、ノートブックセッションごとのライブラリの管理をサポートします。

Python のインラインインストール

システムは Python インタープリターを再起動して、ライブラリの変更を適用します。コマンドセルを実行する前に定義された変数は失われます。 Python パッケージを追加、削除、または更新するためのすべてのコマンドを、ノートブックの先頭に置くことを強くお勧めします。

Python ライブラリの管理のインラインコマンドは、既定でノートブックパイプラインの実行で無効になっています。パイプラインの%pip installを有効にする場合は、bool パラメーターが True と等しい "_inlineInstallationEnabled" をノートブックアクティビティパラメーターに追加します。

注

%pip installは、一貫性のない結果が生じる可能性があります。環境にライブラリをインストールし、パイプラインでの使用をお勧めします。 %pip install コマンドは現在、高コンカレンシーモードではサポートされていません。ノートブック参照の実行では、Python ライブラリを管理するためのインラインコマンドはサポートされていません。実行の正確性を確保するために、これらのインラインコマンドを参照先のノートブックから削除することをお勧めします。

%pip の代わりに !pip をお勧めします。 !pip は IPython 組み込みシェルコマンドであり、次の制限があります。

!pip は、Executor ノードではなく、ドライバーノードにのみパッケージをインストールします。
!pip を通じてインストールされるパッケージは、組み込みパッケージと競合する場合、または既にノートブックにインポートされている場合には影響しません。

ただし、%pip はこれらのシナリオを処理します。 %pip を通じてインストールされたライブラリは、ドライバーノードと Executor ノードの両方で使用でき、ライブラリが既にインポートされている場合でも有効です。

ヒント

通常、%conda install コマンドは、新しい Python ライブラリをインストールする %pip install コマンドよりも時間がかかります。完全な依存関係をチェックし、競合を解決します。

信頼性と安定性を向上させるために %conda install を使用できます。インストールするライブラリがランタイム環境にプレインストールされているライブラリと競合しないことがわかっている場合、%pip install を使用できます。

使用可能なすべての Python インラインコマンドとその説明については、「%pip コマンド」と「%conda コマンド」を参照してください。

インラインインストールを使用して Python パブリックライブラリを管理する

この例では、インラインコマンドを使用してライブラリを管理する方法を示します。 Python 用の強力な視覚化ライブラリである altair を使用して、1 回限りのデータ探索を行うとします。このライブラリがワークスペースにインストールされていないとします。次の例では、conda コマンドを使用して手順を説明します。

インラインコマンドを使用すると、ノートブックの他のセッションや他のアイテムに影響を与えることなく、ノートブックセッションで altair を有効にすることができます。

ノートブックコードセルで次のコマンドを実行します。最初のコマンドでは、altair ライブラリをインストールします。また、視覚化に使用できるセマンティックモデルを含む vega_datasets をインストールします。
```
%conda install altair          # install latest version through conda command
%conda install vega_datasets   # install latest version through conda command
```
セルの出力は、インストールの結果を示します。
別のノートブックセルで次のコードを実行することで、パッケージとセマンティックモデルをインポートします。
```
import altair as alt
from vega_datasets import data
```

これで、セッションスコープの altair ライブラリを試すことができます。

# load a simple dataset as a pandas DataFrame
cars = data.cars()
alt.Chart(cars).mark_point().encode(
x='Horsepower',
y='Miles_per_Gallon',
color='Origin',
).interactive()

インラインインストールを使用して Python カスタムライブラリを管理する

Python カスタムライブラリは、ノートブックのリソースフォルダーまたはアタッチされた環境にアップロードできます。リソースフォルダーは、各ノートブックと環境によって提供される組み込みのファイルシステムです。詳しくは、「Notebook のリソース」をご覧ください。アップロードした後は、カスタムライブラリをコードセルにドラッグアンドドロップでき、ライブラリをインストールするインラインコマンドが自動的に生成されます。または、次のコマンドを使ってインストールできます。

# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"

R のインラインインストール

R ライブラリを管理するために、Fabric では install.packages()、remove.packages()、および devtools:: コマンドがサポートされています。使用可能なすべての R インラインコマンドと説明については、「install.packages コマンド」と「remove.package コマンド」を参照してください。

インラインインストールを使用して R パブリックライブラリを管理する

次の例を使用して、R パブリックライブラリをインストールする手順について説明します。

R フィードライブラリをインストールするには:

ノートブックリボンで作業言語を SparkR(R) に切り替えます。
ノートブックセルで次のコマンドを実行して、caesar ライブラリをインストールします。
```
install.packages("caesar")
```

これで、Spark ジョブでセッションスコープの caesar ライブラリを試すことができます。

library(SparkR)
sparkR.session()

hello <- function(x) {
library(caesar)
caesar(x)
}
spark.lapply(c("hello world", "good morning", "good evening"), hello)

インラインインストールによるJarライブラリの管理

.jar ファイルは、次のコマンドを使用してノートブックセッションでサポートされます。

%%configure -f
{
    "conf": {
        "spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
    }
}

コードセルでは、Lakehouse のストレージを例として使用しています。ノートブックエクスプローラーでは、完全なファイル ABFS パスをコピーし、コード内で置き換えることができます。

Microsoft Fabric で環境を作成して構成し、使用する

フィードバック

このページはお役に立ちましたか?

Last updated on 2024-11-11

次の方法で共有

Microsoft Fabric で Apache Spark ライブラリを管理する

ライブラリ管理のベスト プラクティスの概要

シナリオ 1: 管理者がワークスペースの既定のライブラリを設定する

シナリオ 2: 1 つまたは複数のコード項目のライブラリ仕様を保持する

シナリオ 3: 対話型実行でのインライン インストール

サポートされるライブラリの種類の概要

インライン インストール

Python のインライン インストール

インライン インストールを使用して Python パブリック ライブラリを管理する

インライン インストールを使用して Python カスタム ライブラリを管理する

R のインライン インストール

インライン インストールを使用して R パブリック ライブラリを管理する

インライン インストールによるJarライブラリの管理

関連するコンテンツ