R スクリプトの実行コンポーネント

[アーティクル]
06/01/2023

この記事では、R スクリプトの実行コンポーネントを使用して、Azure Machine Learning デザイナーパイプラインで R コードを実行する方法について説明します。

R を使用すると、既存のコンポーネントではサポートされていない次のようなタスクを実行できます。

カスタムデータ変換を作成する
独自のメトリックを使用して予測を評価する
デザイナーでスタンドアロンコンポーネントとして実装されていないアルゴリズムを使用してモデルをビルドする

R バージョンのサポート

Azure Machine Learning デザイナーでは、R の CRAN (包括的な R アーカイブネットワーク) ディストリビューションが使用されます。現在使用されているバージョンは CRAN 3.5.1 です。

サポートされる R パッケージ

100 以上のパッケージを含む R 環境がプレインストールされています。完全な一覧については、「プレインストールされている R パッケージ」セクションを参照してください。

また、次のコードを任意の R スクリプトの実行コンポーネントに追加して、インストールされているパッケージを表示することもできます。

azureml_main <- function(dataframe1, dataframe2){
  print("R script run.")
  dataframe1 <- data.frame(installed.packages())
  return(list(dataset1=dataframe1, dataset2=dataframe2))
}

注意

プレインストール一覧に含まれていないパッケージを必要とする R スクリプトの実行コンポーネントがパイプラインに複数含まれている場合は、それぞれのコンポーネントにそれらのパッケージをインストールしてください。

R パッケージのインストール

追加の R パッケージをインストールするには、install.packages() メソッドを使用します。パッケージは、R スクリプトの実行コンポーネントごとにインストールされます。それらは他の R スクリプトの実行コンポーネント間で共有されません。

注意

スクリプトバンドルから R パッケージをインストールすることは推奨されていません。スクリプトエディターで直接、パッケージをインストールすることをお勧めします。 install.packages("zoo",repos = "https://cloud.r-project.org") などのパッケージをインストールするときは、CRAN リポジトリを指定します。

警告

R スクリプトの実行コンポーネントでは、JAVA を必要とする qdap パッケージや、C++ を必要とする drc パッケージなど、ネイティブコンパイルを必要とするパッケージのインストールはサポートしていません。これは、このコンポーネントが、管理者以外のアクセス許可でプレインストールされた環境で実行されるためです。デザイナーコンポーネントは Ubuntu で実行されるため、Windows で事前構築されている、または Windows 用のパッケージはインストールしないでください。パッケージが Windows で事前構築されているかを確認するには、CRAN に移動し、自分のパッケージを検索し、自分の OS に合わせてバイナリファイルを 1 つダウンロードし、DESCRIPTION ファイルの Built: 部分を確認します。たとえば次のようになります。

このサンプルは、Zoo のインストール方法を示しています。

# R version: 3.5.1
# The script MUST contain a function named azureml_main,
# which is the entry point for this component.

# Note that functions dependent on the X11 library,
# such as "View," are not supported because the X11 library
# is not preinstalled.

# The entry point function MUST have two input arguments.
# If the input port is not connected, the corresponding
# dataframe argument will be null.
#   Param<dataframe1>: a R DataFrame
#   Param<dataframe2>: a R DataFrame
azureml_main <- function(dataframe1, dataframe2){
  print("R script run.")
  
  if(!require(zoo)) install.packages("zoo",repos = "https://cloud.r-project.org")
  library(zoo)
  # Return datasets as a Named List
  return(list(dataset1=dataframe1, dataset2=dataframe2))
}

注意

パッケージをインストールする前に、パッケージが既に存在するかどうかを確認して、インストールを繰り返さないようにします。インストールを繰り返すと、Web サービス要求がタイムアウトする可能性があります。

登録済みデータセットへのアクセス

ワークスペースに登録されているデータセットにアクセスするには、次のサンプルコードを参照してください。

azureml_main <- function(dataframe1, dataframe2){
  print("R script run.")
  run = get_current_run()
  ws = run$experiment$workspace
  dataset = azureml$core$dataset$Dataset$get_by_name(ws, "YOUR DATASET NAME")
  dataframe2 <- dataset$to_pandas_dataframe()
  # Return datasets as a Named List
  return(list(dataset1=dataframe1, dataset2=dataframe2))
}

R スクリプトの実行を構成する方法

R スクリプトの実行コンポーネントには、出発点として利用できるサンプルコードが含まれています。

R コンポーネントの入力の図

デザイナーに保存されたデータセットは、このコンポーネントで読み込まれると自動的に R データフレームに変換されます。

R スクリプトの実行コンポーネントをパイプラインに追加します。
スクリプトに必要なすべての入力を接続します。入力は、任意指定であり、データと追加の R コードを含めることができます。
- Dataset1:dataframe1 として 1 番目の入力を参照します。入力データセットは、CSV、TSV、または ARFF ファイル形式にする必要があります。または、Azure Machine Learning データセットを接続することもできます。
- Dataset2:dataframe2 として 2 番目の入力を参照します。このデータセットも、CSV、TSV、ARFF ファイル形式、または Azure Machine Learning データセット形式にする必要があります。
- スクリプトバンドル:3 つ目の入力には、.zip ファイルを指定できます。 ZIP ファイルには、複数のファイルと複数のファイルの種類を含めることができます。
[R script](R スクリプト) テキストボックスに、有効な R スクリプトを入力するか貼り付けます。

注意

スクリプトを記述するときは注意が必要です。宣言されていない変数やインポートされていないコンポーネントまたは関数の使用など、構文エラーがないことを確認してください。この記事の最後に記載したプレインストールされているパッケージの一覧には特に注意してください。一覧に記載されていないパッケージを使用するには、スクリプトでインストールします。たとえば install.packages("zoo",repos = "https://cloud.r-project.org") です。

作業を支援するために、 [R Script](R スクリプト) テキストボックスにはサンプルコードが事前に入力されており、編集または置換することができます。
```
# R version: 3.5.1
# The script MUST contain a function named azureml_main,
# which is the entry point for this component.

# Note that functions dependent on the X11 library,
# such as "View," are not supported because the X11 library
# is not preinstalled.

# The entry point function MUST have two input arguments.
# If the input port is not connected, the corresponding
# dataframe argument will be null.
#   Param<dataframe1>: a R DataFrame
#   Param<dataframe2>: a R DataFrame
azureml_main <- function(dataframe1, dataframe2){
print("R script run.")

# If a .zip file is connected to the third input port, it's
# unzipped under "./Script Bundle". This directory is added
# to sys.path.

# Return datasets as a Named List
return(list(dataset1=dataframe1, dataset2=dataframe2))
}
```
Param<dataframe1> と Param<dataframe2> の入力引数が関数で使用されていない場合でも、エントリポイント関数にはこれらの引数が必要です。

注意

R スクリプトの実行コンポーネントに渡されるデータは、dataframe1 および dataframe2 として参照されます。これは、Azure Machine Learning デザイナーとは異なります (デザイナーでは、dataset1、dataset2 として参照されます)。スクリプトで入力データが正しく参照されていることを確認します。

注意

既存の R コードは、デザイナーパイプラインで実行するために、多少の変更が必要な場合があります。たとえば、CSV 形式で指定した入力データは、コードで使用する前に、データセットに明示的に変換する必要があります。また、R 言語で使用されるデータ型および列型は、デザイナーで使用されるデータ型および列型とはいくつかの点で異なります。
スクリプトが 16 KB を超える場合は、スクリプトバンドル ポートを使用すると、 [CommandLine exceeds the limit of 16597 characters] (CommandLine が上限の 16,597 文字を超えています) などのエラーを回避できます。
1. スクリプトとその他のカスタムリソースを zip ファイルにバンドルます。
2. この zip ファイルを [ファイルデータセット] として Studio にアップロードします。
3. [デザイナー作成] ページの左側のコンポーネントペインにある [データセット] の一覧から、データセットコンポーネントをドラッグします。
4. データセットコンポーネントを R スクリプトの実行コンポーネントのスクリプトバンドル ポートに接続します。
スクリプトバンドルでスクリプトを使用するサンプルコードを次に示します。
```
azureml_main <- function(dataframe1, dataframe2){
# Source the custom R script: my_script.R
source("./Script Bundle/my_script.R")

# Use the function that defined in my_script.R
dataframe1 <- my_func(dataframe1)

sample <- readLines("./Script Bundle/my_sample.txt")
return (list(dataset1=dataframe1, dataset2=data.frame("Sample"=sample)))
}
```
[Random Seed](ランダムシード) には、ランダムシード値として R 環境内で使用する値を入力します。このパラメーターは、R コードで set.seed(value) を呼び出すのと同じです。
パイプラインを送信します。

結果

R スクリプトの実行コンポーネントからは複数の出力を返すことができますが、それらは R データフレームとして提供する必要があります。デザイナーでは、他のコンポーネントとの互換性を保つために、データフレームがデータセットに自動的に変換されます。

R からの標準メッセージとエラーはコンポーネントのログに返されます。

R スクリプトで結果を出力する必要がある場合は、コンポーネントの右側のパネルにある [Outputs+logs](出力とログ) タブの下にある 70_driver_log で出力された結果を確認できます。

サンプルのスクリプト

カスタム R スクリプトを使用してパイプラインを拡張する方法は多数あります。このセクションでは、一般的なタスクのためのサンプルコードを示します。

入力として R スクリプトを追加する

R スクリプトの実行コンポーネントは、入力として任意の R スクリプトファイルをサポートします。それらを使用するには、.zip ファイルの一部としてワークスペースにアップロードする必要があります。

R コードを含む .zip ファイルをワークスペースにアップロードするには、 [データセット] 資産ページに移動します。 [データセットの作成] を選択し、 [ローカルファイルから] と [ファイル] のデータセットの種類オプションを選択します。
左側のコンポーネントツリーで、 [データセット] カテゴリの [My Datasets](マイデータセット) に ZIP ファイルが表示されていることを確認します。
そのデータセットをスクリプトバンドル入力ポートに接続します。
.zip ファイル内のすべてのファイルは、パイプラインの実行時に使用できます。

スクリプトバンドルファイルにディレクトリ構造が含まれる場合、その構造が保持されます。ただし、コードを変更して、ディレクトリ ./Script Bundle をパスの先頭に追加する必要があります。

データを処理する

次の例は、入力データをスケーリングおよび正規化する方法を示しています。

# R version: 3.5.1
# The script MUST contain a function named azureml_main,
# which is the entry point for this component.

# Note that functions dependent on the X11 library,
# such as "View," are not supported because the X11 library
# is not preinstalled.

# The entry point function MUST have two input arguments.
# If the input port is not connected, the corresponding
# dataframe argument will be null.
#   Param<dataframe1>: a R DataFrame
#   Param<dataframe2>: a R DataFrame
azureml_main <- function(dataframe1, dataframe2){
  print("R script run.")
  # If a .zip file is connected to the third input port, it's
  # unzipped under "./Script Bundle". This directory is added
  # to sys.path.
  series <- dataframe1$width
  # Find the maximum and minimum values of the width column in dataframe1
  max_v <- max(series)
  min_v <- min(series)
  # Calculate the scale and bias
  scale <- max_v - min_v
  bias <- min_v / dis
  # Apply min-max normalizing
  dataframe1$width <- dataframe1$width / scale - bias
  dataframe2$width <- dataframe2$width / scale - bias
  # Return datasets as a Named List
  return(list(dataset1=dataframe1, dataset2=dataframe2))
}

入力として .zip ファイルを読み取る

この例は、R スクリプトの実行コンポーネントへの入力として .zip ファイル内のデータセットを使用する方法を示しています。

CSV 形式でデータファイルを作成し、「mydatafile.csv」という名前を付けます。
.zip ファイルを作成し、CSV ファイルをアーカイブに追加します。
ZIP ファイルを Azure Machine Learning ワークスペースにアップロードします。
結果として得られるデータセットを、R スクリプトの実行コンポーネントの ScriptBundle 入力に接続します。
ZIP ファイルから CSV データを読み取るには、次のコードを使用します。

azureml_main <- function(dataframe1, dataframe2){
  print("R script run.")
  mydataset<-read.csv("./Script Bundle/mydatafile.csv",encoding="UTF-8");  
  # Return datasets as a Named List
  return(list(dataset1=mydataset, dataset2=dataframe2))
}

行をレプリケートする

このサンプルは、サンプルのバランスを調整するために、データセット内のポジティブレコードをレプリケートする方法を示しています。

azureml_main <- function(dataframe1, dataframe2){
  data.set <- dataframe1[dataframe1[,1]==-1,]  
  # positions of the positive samples
  pos <- dataframe1[dataframe1[,1]==1,]
  # replicate the positive samples to balance the sample  
  for (i in 1:20) data.set <- rbind(data.set,pos)  
  row.names(data.set) <- NULL
  # Return datasets as a Named List
  return(list(dataset1=data.set, dataset2=dataframe2))
}