R for Apache Spark を使用する
Microsoft Fabric では、Apache Spark に対する組み込み R サポートが提供されています。 これには SparkR と sparklyr のサポートも含まれており、ユーザーはこれを使用することで、使い慣れた Spark または R のインターフェイスで Spark と対話できます。 Spark バッチ ジョブ定義または対話型の Microsoft Fabric ノートブックを使用して、R を使用してデータを分析できます。
このドキュメントでは、R 言語を使用して Synapse で Spark アプリケーションを開発する方法の概要について説明します。
前提条件
Microsoft Fabric サブスクリプションを取得します。 または、無料の Microsoft Fabric 試用版にサインアップします。
Microsoft Fabric にサインインします。
ホーム ページの左側にある環境スイッチャーを使って、Synapse Data Science 環境に切り替えます。
ノートブック セッションを作成して実行する
Microsoft Fabric ノートブックは、ライブ コード、視覚化、および説明テキストを含むファイルを作成するための Web インターフェイスです。 ノートブックは、アイデアを確認し、簡単な実験を使用してデータから分析情報を得るのに最適な場所です。 ノートブックは、データの準備、データの視覚化、機械学習、およびその他のビッグ データのシナリオでも広く使用されています。
Microsoft Fabric ノートブックで R を使い始めるには、言語オプションを SparkR (R) に設定して、ノートブックの上部にあるプライマリ言語を変更します。
さらに、セルの先頭に言語マジック コマンドを指定することで、1 つのノートブックで複数の言語を使用できます。
%%sparkr
# Enter your R code here
Microsoft Fabric Analytics 内のノートブックの詳細については、「ノートブックの使用方法」を参照してください。
パッケージをインストールする
ライブラリには、プログラムやプロジェクトに含めることができる再利用可能なコードが用意されています。 サード パーティのコードまたはローカル環境でビルドされたコードをアプリケーションで使用できるようにするために、ワークスペースまたはノートブック セッションのいずれかにライブラリをインストールできます。
R ライブラリを管理する方法の詳細については、「R ライブラリの管理」 を参照してください。
Notebook のユーティリティ
Microsoft Spark Utilities (MSSparkUtils) は、一般的なタスクをより簡単に実行できるようにする組み込みパッケージです。 MSSparkUtils を使用すると、ファイル システムを操作し、環境変数を取得し、ノートブックをまとめてチェーン化し、シークレットを操作できます。 MSSparkUtils は R ノートブックでサポートされています。
最初に、次のコマンドを実行できます。
library(notebookutils)
mssparkutils.fs.help()
サポートされている MSSparkUtils コマンドの詳細については、「Microsoft Spark ユーティリティを使用する」を参照してください。
SparkR を使用する
SparkR は、R から Apache Spark を使用するための軽量フロントエンドを提供する R パッケージです。SparkR には、選択、フィルター処理、集計などの操作をサポートする分散データ フレームの実装が用意されています。また、SparkR では、MLlib を使用した分散機械学習もサポートします。
SparkR の使用方法の詳細については、「SparkR の使用方法」 を参照してください。
sparklyr を使用する
sparklyr は、Apache Spark への R インターフェイスです。 これによって、使い慣れた R インターフェイスを使用して Spark と対話するメカニズムが得られます。 Spark バッチ ジョブ定義を通じて、または対話型の Microsoft Fabric ノートブックで sparklyr を使用できます。
sparklyr の使用方法の詳細については、「Sparklyr の使用方法」 を参照してください。
Tidyverse を使用する
Tidyverse は、データ サイエンティストが日常的なデータ分析でよく使用する R パッケージのコレクションです。 これには、データ インポート (readr
)、データの視覚化 (ggplot2
)、データ操作 (dplyr
、tidyr
)、関数型プログラミング (purrr
)、モデル構築 (tidymodels
) などのパッケージが含まれます。tidyverse
内のパッケージは、シームレスに連携し、設計原則の一貫したセットに従うように設計されています。 Microsoft Fabric では、ランタイムのリリースごとに最新の安定したバージョンの tidyverse
が配布されます。
Tidyverse の使用方法の詳細については、「Tidyverse の使用方法」を参照してください。
R の視覚化
R エコシステムには、さまざまな機能が収められた複数のグラフ作成ライブラリが用意されています。 既定では、Microsoft Fabric のすべての Spark インスタンスには、厳選された人気の高いオープンソース ライブラリのセットが含まれています。 またMicrosoft Fabric ライブラリ管理機能を使用して、ライブラリまたはバージョンをさらに追加したり、管理したりすることもできます。
R 視覚エフェクトを作成する方法の詳細については、「R の視覚化」 を参照してください。
関連するコンテンツ
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示